Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und eine hohe Reife aufweisen.
RustyRAG (9/10)
Repository: RustyRAG/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: Ein production-grade RAG API in Rust, das Hybrid Search mit HNSW dense vectors und BM25 sparse matching, cross-encoder reranking und layout-aware document extraction via Docling unterstützt. Es erreicht 94.5% Accuracy auf dem Open RAG Bench und wird von Cerebras, Groq, Milvus und Jina AI unterstützt.
Warum relevant: RustyRAG ist eine leistungsstarke und innovative Lösung, die lokal betrieben werden kann und eine hohe Genauigkeit aufweist. Es ist besonders für Unternehmen geeignet, die hohe Anforderungen an Performance und Skalierbarkeit haben.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: Ein flexibles RAG-System, das 15 Property Graph, 4 RDF und 10 Vector DBs unterstützt, sowie OpenSearch und Elasticsearch. Es verarbeitet 13 Datenquellen (9 auto-sync), baut automatisch Knowledge Graphs, Ontologien und LLMs auf, und unterstützt Docling oder LlamaParse für Dokumentverarbeitung. Es bietet TypeScript React, Vue und Angular Frontends sowie einen FastAPI REST Backend und MCP Server.
Warum relevant: flexible-graphrag ist ein umfassendes und flexibles System, das lokal betrieben werden kann und eine Vielzahl von Datenquellen und DBs unterstützt. Es ist besonders für Unternehmen geeignet, die eine komplexe und vielfältige Datenlandschaft haben.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein privacy-first document intelligence engine, das PDFs, DOCX, PPTX, XLSX und CSV in AI-ready Chunks für RAG-Pipelines konvertiert. Es unterstützt HITL Review, 3-layer memory chat und einen production FastAPI Server.
Warum relevant: LongParser ist eine datenschutzfreundliche Lösung, die lokal betrieben werden kann und eine breite Palette von Dokumentformaten unterstützt. Es ist besonders für Unternehmen geeignet, die eine hohe Anforderung an Datenschutz haben.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein Open-Source-Toolkit für RAG Chunking, das Markdown konvertiert, Dokumente validiert, Chunking-Strategien visualisiert und optimiert und die Ergebnisse für LLM-Anwendungen bereichert.
Warum relevant: chunky ist ein flexibles und benutzerfreundliches Toolkit, das lokal betrieben werden kann und eine Vielzahl von Chunking-Strategien unterstützt. Es ist besonders für Entwickler geeignet, die eine tiefere Kontrolle über das Chunking haben möchten.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: Docling vereinfacht die Dokumentverarbeitung und unterstützt das Parsen verschiedener Formate, einschließlich fortgeschrittener PDF-Verarbeitung, und bietet nahtlose Integrationen mit dem gen AI Ökosystem.
Warum relevant: quarkus-docling ist eine Java-basierte Lösung, die lokal betrieben werden kann und eine breite Palette von Dokumentformaten unterstützt. Es ist besonders für Java-Entwickler geeignet, die eine nahtlose Integration in bestehende Java-Anwendungen wünschen.
Quelle: GitHub Search API