Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und eine hohe Reife aufweisen.
RustyRAG (9/10)
Repository: RustyRAG/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: Ein production-grade RAG API, gebaut in Rust, mit Hybrid-Suche, HNSW-Vektoren, BM25-sparse-Matching, Cross-Encoder-Reranking und layout-aware Document Extraction via Docling. Es erreicht 94.5% Genauigkeit auf dem Open RAG Bench.
Warum relevant: RustyRAG ist eine leistungsstarke und innovative Lösung, die lokal betrieben werden kann und eine Vielzahl von Datenquellen unterstützt. Es ist besonders geeignet für Unternehmen, die hohe Performance und Skalierbarkeit benötigen.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: Ein flexibles RAG-System, das 15 Property Graphs, 4 RDF, 10 Vektordatenbanken, OpenSearch und Elasticsearch unterstützt. Es verarbeitet 13 Datenquellen (9 automatisch synchronisiert), baut automatisch Knowledge Graphs, verwendet Ontologien und LLMs, und bietet Docling oder LlamaParse für Dokumentverarbeitung.
Warum relevant: flexible-graphrag ist ein umfassendes und reifes System, das eine breite Palette von Datenquellen und Datenbanken unterstützt. Es ist ideal für komplexe Anwendungen, die eine hohe Anpassungsfähigkeit erfordern.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein privacy-first Document Intelligence Engine, das PDFs, DOCX, PPTX, XLSX und CSV in AI-ready Chunks für RAG-Pipelines konvertiert. Es bietet HITL-Review, 3-layer Memory Chat und einen production-ready FastAPI-Server.
Warum relevant: LongParser ist eine robuste Lösung für die Verarbeitung und Analyse von Dokumenten, die den Schutz der Privatsphäre im Vordergrund stellt. Es ist besonders geeignet für Unternehmen, die sensible Daten verarbeiten.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: Ein Open-Source-Toolkit für RAG-Chunking, das Markdown konvertiert, Dokumente validiert, Chunking-Strategien visualisiert und optimiert und die Ergebnisse für LLM-Anwendungen bereichert.
Warum relevant: chunky ist ein nützliches Werkzeug für die Optimierung von RAG-Pipelines, das eine Vielzahl von Dokumentformaten unterstützt. Es ist besonders geeignet für Entwickler, die ihre RAG-Systeme feinabstimmen möchten.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: Docling vereinfacht die Dokumentverarbeitung und unterstützt verschiedene Formate, einschließlich fortgeschrittener PDF-Verarbeitung. Es bietet nahtlose Integrationen in das gen-AI-Ökosystem.
Warum relevant: quarkus-docling ist eine praktische Lösung für die Dokumentverarbeitung, die gut in Java-Projekte integriert werden kann. Es ist besonders geeignet für Entwickler, die mit Quarkus arbeiten.
Quelle: GitHub Search API