Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten und die Integration von Retrieval-Augmented-Generation (RAG)-Techniken.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: Ein flexibles RAG-System, das 15 Property Graph-DBs, 4 RDF-DBs und 10 Vector-DBs unterstützt. Es verarbeitet 13 Datenquellen (9 automatisch synchronisiert), baut automatisch Knowledge Graphs auf, und bietet Ontologien, LLMs, und Docling oder LlamaParse für die Dokumentverarbeitung. Es unterstützt GraphRAG, RAG-only und Hybrid Search, sowie AI-Chat. Die Frontends sind in TypeScript, React, Vue und Angular, und der Backend in FastAPI und MCP Server.
Warum relevant: Dieses Projekt ist besonders relevant für Unternehmen, die eine flexible und skalierbare RAG-Infrastruktur benötigen, die lokal betrieben werden kann. Es bietet eine breite Palette von Datenquellen und Datenbanken, was es zu einer vielseitigen Lösung macht.
RustyRAG (7/10)
Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein production-grade RAG-API, gebaut in Rust, die Hybrid Search mit HNSW dense vectors und BM25 sparse matching, sowie cross-encoder reranking unterstützt. Es verwendet layout-aware document extraction via Docling und erreicht 94.5% Accuracy auf Open RAG Bench. Die Technologie wird von Cerebras, Groq, Milvus und Jina AI unterstützt.
Warum relevant: RustyRAG ist eine leistungsstarke und effiziente Lösung für RAG-Anwendungen, die in der Produktion eingesetzt werden. Die Verwendung von Rust sorgt für eine hohe Performance, und die Unterstützung von verschiedenen Technologien macht es zu einer robusten Wahl.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein privacy-first document intelligence engine, das PDFs, DOCX, PPTX, XLSX und CSV in AI-ready chunks für RAG-Pipelines verarbeitet. Es bietet HITL-Review, 3-layer memory chat und einen production FastAPI-Server.
Warum relevant: LongParser ist eine umfassende Lösung für die Dokumentverarbeitung, die den Schutz der Privatsphäre im Vordergrund stellt. Es ist besonders relevant für Unternehmen, die sensible Daten verarbeiten und eine robuste, lokal betriebbare Lösung benötigen.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein Tool, das Markdown-Dokumente konvertiert und validiert, um die beste Chunking-Strategie für RAG-Pipelines zu wählen. Es unterstützt verschiedene Dokumentformate und bietet eine flexible Chunking-Logik.
Warum relevant: chunky ist besonders nützlich für Entwickler, die eine präzise und effiziente Chunking-Strategie für ihre RAG-Pipelines benötigen. Die Unterstützung von Markdown und anderen Formaten macht es zu einer vielseitigen Lösung.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: Docling vereinfacht die Dokumentverarbeitung und unterstützt die Verarbeitung verschiedener Formate, einschließlich erweiterter PDF-Verarbeitung. Es bietet nahtlose Integrationen mit dem gen AI-Ökosystem.
Warum relevant: quarkus-docling ist eine gute Wahl für Java-Entwickler, die eine robuste und flexible Dokumentverarbeitung in ihre Anwendungen integrieren möchten. Die Unterstützung von Quarkus macht es zu einer skalierbaren Lösung.
Quelle: GitHub Search API