Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten Entwicklungen im Bereich RAG-Systeme und Parser-Pipelines vor. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und eine hohe Reife aufweisen.
flexible-graphrag (9/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 9/10
Was es macht: Ein umfassendes RAG-System, das 15 Property Graphs, 4 RDF-Graphen und 10 Vektordatenbanken unterstützt. Es verarbeitet 13 Datenquellen (9 automatisch synchronisiert), baut automatisch Wissensgraphen, verwendet Ontologien und LLMs, und bietet GraphRAG, RAG-only und Hybrid Search. Es verfügt über TypeScript, React, Vue und Angular-Frontends sowie einen FastAPI-REST-Backend und einen MCP-Server.
Warum relevant: Dieses Projekt ist ein leistungsstarker, selfhostbarer RAG-Stack, der eine Vielzahl von Datenquellen und Datenbanken unterstützt. Es ist ideal für Unternehmen, die ihre eigenen Daten in einem umfassenden Wissensgraphen verwalten möchten.
RustyRAG (8/10)
Repository: RustyRAG/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: Ein production-grade RAG-API, gebaut in Rust, die Hybrid Search mit HNSW dichten Vektoren und BM25 sparsen Matches unterstützt. Es verwendet Cross-Encoder-Reranking, layout-aware Document Extraction via Docling und erreicht 94.5% Genauigkeit auf dem Open RAG Bench. Es wird von Cerebras, Groq, Milvus und Jina AI unterstützt.
Warum relevant: RustyRAG ist eine leistungsstarke, selfhostbare Lösung, die durch die Verwendung von Rust und modernen Technologien eine hohe Effizienz und Genauigkeit bietet. Es ist besonders für Unternehmen geeignet, die eine robuste und skalierbare RAG-Infrastruktur benötigen.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: Ein Open-Source-Toolkit für RAG-Chunking, das Markdown-Dokumente konvertiert, validiert, visualisiert und optimiert. Es unterstützt die Erstellung von Chunks für LLM-Anwendungen und bietet verschiedene Chunking-Strategien.
Warum relevant: Chunky ist ein nützliches Werkzeug für Entwickler, die RAG-Pipelines erstellen und optimieren möchten. Es vereinfacht den Prozess der Dokumentverarbeitung und -chunking, was die Effizienz und Genauigkeit der RAG-Systeme verbessert.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 1/1 = 6/10
Was es macht: Docling vereinfacht die Verarbeitung und Parsen verschiedener Dokumentformate, einschließlich PDFs, und bietet nahtlose Integrationen in das gen AI-Ökosystem. Es ist als Quarkus-Erweiterung verfügbar.
Warum relevant: Quarkus-Docling ist eine praktische Lösung für die Verarbeitung von Dokumenten in Java-Anwendungen. Es ist besonders für Entwickler, die mit Quarkus arbeiten, von Interesse, da es die Integration von Dokumentverarbeitungsfunktionen erleichtert.
Quelle: GitHub Search API