Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir eine Auswahl der aktuellsten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub verfügbar sind. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten und sind in verschiedenen Programmiersprachen implementiert.
flexible-graphrag (9/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: Ein umfassendes RAG-System, das 13 Datenquellen (9 automatisch synchronisiert) unterstützt, Wissensgraphen automatisch aufbaut, Ontologien verarbeitet und verschiedene LLMs nutzt. Es bietet auch eine Vielzahl von Datenbanken wie Property Graph, RDF, Vector, OpenSearch und Alfresco.
Warum relevant: Dieses Projekt ist besonders relevant für Unternehmen, die eine flexible und leistungsfähige RAG-Infrastruktur benötigen. Es ist selbstgehostet und unterstützt eine breite Palette von Datenquellen und Datenbanken.
RustyRAG (8/10)
Repository: RustyRAG/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 8/10
Was es macht: Ein hochperformantes RAG-API-System, das in Rust entwickelt wurde. Es nutzt Hybrid-Suche mit HNSW-Dichten Vektoren und BM25-sparse Matching, Cross-Encoder-Reranking und layoutbewusste Dokumentextraktion via Docling. Es erreicht eine Genauigkeit von 94,5% auf dem Open RAG Bench.
Warum relevant: RustyRAG ist eine exzellente Wahl für Entwickler, die eine leistungsstarke und skalierbare RAG-Lösung suchen. Es ist selbstgehostet und bietet hohe Genauigkeit bei der Dokumentverarbeitung.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: Ein Open-Source-Toolkit für RAG-Chunking, das Markdown-Dokumente konvertiert, Dokumente validiert, Chunking-Strategien visualisiert und optimiert und die Ergebnisse für LLM-Anwendungen bereichert.
Warum relevant: Chunky ist besonders nützlich für Entwickler, die sich auf die Optimierung von Chunking-Strategien konzentrieren. Es ist selbstgehostet und bietet eine Vielzahl von Tools zur Dokumentverarbeitung.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 1/1 = 6/10
Was es macht: Docling vereinfacht die Dokumentverarbeitung und unterstützt das Parsen verschiedener Formate, einschließlich fortgeschrittener PDF-Verarbeitung. Es bietet nahtlose Integrationen in das gen-AI-Ökosystem.
Warum relevant: Quarkus-Docling ist eine gute Wahl für Java-Entwickler, die eine robuste Dokumentverarbeitung in ihre Anwendungen integrieren möchten. Es ist selbstgehostet und bietet eine einfache Integration in Quarkus-Anwendungen.
Quelle: GitHub Search API