Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten Entwicklungen im Bereich RAG-Systeme und Parser-Pipelines vor. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und eine hohe Reife aufweisen.
RustyRAG (9/10)
Repository: RustyRAG/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: Ein production-grade RAG API in Rust, die hybride Suche mit HNSW dense vectors und BM25 sparse matching, cross-encoder reranking und layout-aware document extraction via Docling unterstützt. Es erreicht 94.5% Accuracy auf dem Open RAG Bench und wird von Cerebras, Groq, Milvus und Jina AI unterstützt.
Warum relevant: RustyRAG ist eine leistungsstarke und innovative Lösung, die lokal betrieben werden kann und eine breite Palette von Datenquellen unterstützt. Es ist besonders geeignet für Unternehmen, die hohe Genauigkeit und Performance benötigen.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: Ein flexibles RAG-System, das 15 Property Graph, 4 RDF und 10 Vector DBs unterstützt, sowie OpenSearch und Elasticsearch. Es verarbeitet 13 Datenquellen (9 auto-sync), baut automatisch Knowledge Graphs, verwendet Ontologien und LLMs, und unterstützt Docling oder LlamaParse für Dokumentverarbeitung. Es bietet TypeScript React, Vue, Angular Frontends und einen FastAPI REST Backend.
Warum relevant: Flexible-graphrag ist eine umfassende Lösung, die eine Vielzahl von Datenquellen und Datenbanken unterstützt. Es ist besonders geeignet für Unternehmen, die eine flexible und erweiterbare RAG-Infrastruktur benötigen.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein privacy-first document intelligence engine, das PDFs, DOCX, PPTX, XLSX und CSV in AI-ready chunks für RAG-Pipelines konvertiert. Es unterstützt HITL Review, 3-layer memory chat und einen production FastAPI Server.
Warum relevant: LongParser ist eine datenschutzfreundliche Lösung, die eine breite Palette von Dokumentformaten unterstützt und lokal betrieben werden kann. Es ist besonders geeignet für Unternehmen, die eine hohe Kontrolle über ihre Daten benötigen.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein Open-Source-Toolkit für RAG-Chunking, das Markdown konvertiert, Dokumente validiert, Chunking-Strategien visualisiert und optimiert und die Ergebnisse für LLM-Anwendungen bereichert.
Warum relevant: Chunky ist ein nützliches Toolkit, das die Chunking-Strategien für RAG-Pipelines verbessert und lokal betrieben werden kann. Es ist besonders geeignet für Entwickler, die tiefer in die Chunking-Logik einsteigen möchten.
Quelle: GitHub Search API