Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten und sind in der Regel selbstgehostet nutzbar.
RustyRAG (9/10)
Repository: RustyRAG/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: Ein production-grade RAG API, gebaut in Rust, mit Hybrid-Suche (HNSW dense vectors und BM25 sparse matching), Cross-Encoder-Reranking, layout-aware Document Extraction via Docling und 94.5% Genauigkeit auf Open RAG Bench. Unterstützt von Cerebras, Groq, Milvus und Jina AI.
Warum relevant: RustyRAG ist eine leistungsstarke und innovative Lösung, die dank seiner Hybrid-Suche und Reranking-Funktionen besonders effizient ist. Es ist selbstgehostet nutzbar und unterstützt eine Vielzahl von Datenquellen.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: Ein flexibles RAG-System, das 15 Property Graph, 4 RDF und 10 Vector-Datenbanken unterstützt. Es verarbeitet 13 Datenquellen (9 automatisch synchronisierend), baut automatisch Knowledge Graphs, unterstützt Ontologien und LLMs, und bietet Docling oder LlamaParse für Dokumentverarbeitung. Es verfügt über TypeScript React, Vue und Angular Frontends sowie einen FastAPI REST-Backend und den MCP-Server.
Warum relevant: Flexible-graphrag ist ein umfassendes und reifes System, das eine breite Palette von Datenquellen und Datenbanken unterstützt. Es ist selbstgehostet nutzbar und bietet eine robuste Infrastruktur für komplexe RAG-Anwendungen.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein privacy-first Document Intelligence Engine, das PDFs, DOCX, PPTX, XLSX und CSV in AI-ready Chunks für RAG-Pipelines konvertiert. Es bietet eine HITL-Review-Funktion, 3-layer Memory Chat und einen production FastAPI-Server.
Warum relevant: LongParser ist eine datenschutzfreundliche Lösung, die eine breite Palette von Dokumentformaten unterstützt. Es ist selbstgehostet nutzbar und bietet praktische Funktionen wie HITL-Review und 3-layer Memory Chat.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein Tool, um Markdown-Dokumente zu konvertieren und die beste Chunking-Strategie für RAG-Pipelines zu wählen. Es unterstützt die Validierung von Chunks und bietet verschiedene Chunking-Algorithmen.
Warum relevant: Chunky ist ein nützliches Tool für die Vorbereitung von Dokumenten für RAG-Pipelines. Es ist selbstgehostet nutzbar und bietet Flexibilität in der Wahl der Chunking-Strategie.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 0/2 | Reife 0/1 = 6/10
Was es macht: Docling vereinfacht die Dokumentverarbeitung und unterstützt verschiedene Formate, einschließlich erweiterten PDF-Verständnisses. Es bietet nahtlose Integrationen mit dem gen AI Ökosystem.
Warum relevant: Quarkus-docling ist eine praktische Lösung für die Dokumentverarbeitung und bietet gute Unterstützung für verschiedene Formate. Es ist selbstgehostet nutzbar und integriert sich gut in bestehende Java-Anwendungen.
Quelle: GitHub Search API