Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub zu finden sind. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten und sind für Selfhosting geeignet.
flexible-graphrag (9/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: Ein flexibles RAG-System, das 13 verschiedene Datenquellen unterstützt, darunter 15 Property Graph-DBs, 4 RDF-DBs und 10 Vector-DBs. Es bietet automatisches Synchronisieren, automatische Erstellung von Wissensgraphen, Ontologien, LLMs und verschiedene Frontends.
Warum relevant: Dieses Projekt ist besonders relevant, da es eine breite Palette von Datenquellen und Datenbanken unterstützt und lokal betrieben werden kann. Es ist ideal für Unternehmen, die ihre Daten selbst hosten und eine umfassende RAG-Pipeline benötigen.
RustyRAG (8/10)
Repository: RustyRAG/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: Ein production-grade RAG-API, gebaut in Rust, mit Hybrid-Suche, HNSW dichten Vektoren, BM25 spärlicher Matching, Cross-Encoder-Reranking und layoutbewusster Dokumentenextraktion. Es erreicht 94.5% Genauigkeit auf dem Open RAG Bench.
Warum relevant: RustyRAG ist eine leistungsstarke und effiziente Lösung, die besonders für die Produktion geeignet ist. Es unterstützt die Verarbeitung verschiedener Dokumentformate und kann lokal betrieben werden, was es zu einer attraktiven Option für Unternehmen macht.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein privacy-first Document Intelligence Engine, das PDFs, DOCX, PPTX, XLSX und CSV in AI-fähige Chunks für RAG-Pipelines konvertiert. Es enthält eine HITL-Review-Funktion, 3-Layer-Memory-Chat und einen production-fähigen FastAPI-Server.
Warum relevant: LongParser ist eine umfassende Lösung für die Verarbeitung und Analyse von Dokumenten, die den Schutz der Privatsphäre im Vordergrund stellt. Es ist lokal betreibbar und unterstützt eine Vielzahl von Dokumentformaten, was es zu einer vielseitigen Option macht.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein Tool zur Konvertierung und Validierung von Markdown, das die beste Chunking-Strategie für RAG-Pipelines auswählt. Es unterstützt verschiedene Dokumentformate und bietet eine semantische Chunking-Funktion.
Warum relevant: chunky ist eine nützliche Ergänzung für RAG-Pipelines, da es die Chunking-Strategie optimiert und die Validierung von Markdown-Dokumenten erleichtert. Es ist lokal betreibbar und unterstützt eine Vielzahl von Dokumentformaten.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: Ein Quarkus-Extension, das die Verarbeitung und Analyse von Dokumenten vereinfacht. Es unterstützt verschiedene Dokumentformate, darunter PDF, und bietet nahtlose Integrationen in das gen-AI-Ökosystem.
Warum relevant: quarkus-docling ist eine praktische Lösung für die Verarbeitung von Dokumenten in Java-Anwendungen. Es ist lokal betreibbar und bietet eine einfache Integration in bestehende Quarkus-Projekte.
Quelle: GitHub Search API