Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die aktuellsten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub zu finden sind. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und eine hohe Reife aufweisen.
flexible-graphrag (9/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 9/10
Was es macht: Ein flexibles RAG-System, das 15 Property Graph-DBs, 4 RDF-DBs und 10 Vector-DBs unterstützt. Es verarbeitet 13 Datenquellen (9 automatisch synchronisiert), baut automatisch Wissensgraphen, verwendet Ontologien und LLMs, und bietet GraphRAG, RAG-only und Hybrid Search. Es verfügt über TypeScript React, Vue und Angular Frontends sowie einen FastAPI REST-Backend und einen MCP-Server.
Warum relevant: Dieses Projekt ist besonders relevant, da es eine breite Palette von Datenquellen und Datenbanken unterstützt und lokal betrieben werden kann. Es bietet eine umfassende Lösung für die Verarbeitung und Analyse von Dokumenten, die mit Ollama oder anderen lokalen LLMs integriert werden kann.
RustyRAG (8/10)
Repository: RustyRAG/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: Ein production-grade RAG-API, gebaut in Rust, mit Hybrid Search (HNSW dense vectors und BM25 sparse matching), cross-encoder reranking und layout-aware document extraction via Docling. Es erreicht 94.5% Genauigkeit auf dem Open RAG Bench und wird von Cerebras, Groq, Milvus und Jina AI unterstützt.
Warum relevant: RustyRAG ist eine leistungsstarke und innovative Lösung, die dank seiner Hybrid Search und layout-aware document extraction besonders effizient ist. Es ist lokal betreibbar und kann leicht in bestehende Infrastrukturen integriert werden.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: Ein privacy-first document intelligence engine, das PDFs, DOCX, PPTX, XLSX und CSV in AI-ready chunks für RAG-Pipelines konvertiert. Es bietet HITL-Review, 3-layer memory chat und einen production FastAPI-Server.
Warum relevant: LongParser ist besonders relevant für Unternehmen, die den Schutz der Nutzerdaten priorisieren. Es bietet eine umfassende Lösung für die Verarbeitung verschiedener Dokumentformate und kann lokal betrieben werden, was die Kontrolle über die Daten erhöht.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: Ein Open-Source-Toolkit für RAG-Chunking, das Markdown-Dokumente konvertiert, validiert, visualisiert und optimiert. Es bereichert die Ergebnisse für LLM-Anwendungen.
Warum relevant: chunky ist ein nützliches Werkzeug für Entwickler, die spezifische Anforderungen an das Chunking von Dokumenten haben. Es ist lokal betreibbar und bietet eine flexible Lösung für die Verarbeitung von Markdown-Dokumenten.
Quelle: GitHub Search API