Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten sowie die Integration von KI-Technologien.
RustyRAG (9/10)
Repository: RustyRAG/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 9/10
Was es macht: Ein production-grade RAG API, gebaut in Rust, mit Hybrid-Suche (HNSW dense vectors und BM25 sparse matching), Cross-Encoder-Reranking, layout-aware Document Extraction via Docling und 94.5% Genauigkeit auf Open RAG Bench. Unterstützt von Cerebras, Groq, Milvus und Jina AI.
Warum relevant: RustyRAG ist eine leistungsstarke und innovative Lösung, die sowohl für Selfhosting als auch für die Verarbeitung vielfältiger Dokumentformate geeignet ist. Die hohe Genauigkeit und die robuste Architektur machen es zu einer hervorragenden Wahl für professionelle Anwendungen.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: Ein flexibles RAG-System, das 15 Property Graph, 4 RDF und 10 Vector-Datenbanken unterstützt, sowie OpenSearch und Elasticsearch. Es verarbeitet 13 Datenquellen (9 automatisch synchronisiert), baut automatisch Knowledge Graphs, verwendet Ontologien, LLMs und Docling oder LlamaParse für Dokumentverarbeitung. Es bietet GraphRAG, RAG-only und Hybrid-Suche, sowie AI-Chat. Verfügt über TypeScript, React, Vue und Angular-Frontends sowie einen FastAPI-REST-Backend und den MCP-Server.
Warum relevant: Flexible-graphrag ist ein umfassendes und vielseitiges System, das sowohl für Selfhosting als auch für die Integration in bestehende Infrastrukturen geeignet ist. Die Unterstützung vielfältiger Datenbanken und Datenquellen macht es zu einer robusten Lösung für komplexe Anwendungen.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein privacy-first Document Intelligence Engine, das PDFs, DOCX, PPTX, XLSX und CSV in AI-ready Chunks für RAG-Pipelines verarbeitet. Es bietet eine HITL-Review-Funktion, 3-layer Memory Chat und einen production FastAPI-Server.
Warum relevant: LongParser ist eine datenschutzfreundliche Lösung, die eine breite Palette von Dokumentformaten unterstützt. Die Integration von HITL-Review und 3-layer Memory Chat macht es zu einer nützlichen Wahl für Unternehmen, die eine hohe Kontrolle über ihre Daten benötigen.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein Open-Source-Toolkit für RAG-Chunking, das Markdown konvertiert, Dokumente validiert, Chunking-Strategien visualisiert und optimiert und die Ergebnisse für LLM-Anwendungen bereichert.
Warum relevant: Chunky ist ein nützliches Werkzeug für die Optimierung von RAG-Pipelines, insbesondere bei der Verarbeitung von Markdown-Dokumenten. Die Visualisierung und Optimierungsfunktionen machen es zu einer wertvollen Ergänzung für bestehende RAG-Systeme.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: Docling vereinfacht die Dokumentverarbeitung und das Parsen verschiedener Formate, einschließlich fortgeschrittener PDF-Verarbeitung, und bietet nahtlose Integrationen mit dem gen AI-Ökosystem.
Warum relevant: Quarkus-docling ist eine Java-basierte Lösung, die gut in bestehende Java-Infrastrukturen integriert werden kann. Die Unterstützung vielfältiger Dokumentformate und die Integration mit KI-Technologien machen es zu einer nützlichen Wahl für Unternehmen, die auf Java basieren.
Quelle: GitHub Search API