Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und eine hohe Reife aufweisen.
flexible-graphrag (9/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 9/10
Was es macht: Dieses Projekt bietet eine flexible RAG-Implementierung mit Unterstützung für 15 Property Graph-DBs, 4 RDF-DBs und 10 Vector-DBs. Es verarbeitet 13 Datenquellen (9 automatisch synchronisiert), baut automatisch Wissensgraphen, unterstützt Ontologien und LLMs, und bietet Frontends in TypeScript, React, Vue und Angular sowie einen FastAPI-REST-Backend und einen MCP-Server.
Warum relevant: Die Vielfalt der unterstützten Datenbanken und die Automatisierung von Wissensgraphen machen dieses Projekt zu einer hochgradig innovativen Lösung, die lokal betrieben werden kann.
RustyRAG (8/10)
Repository: RustyRAG/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: Ein production-grade RAG-API, gebaut in Rust, mit hybrider Suche (HNSW dense vectors und BM25 sparse matching), cross-encoder reranking, layout-aware document extraction via Docling und 94.5% Genauigkeit auf der Open RAG Bench. Es wird von Cerebras, Groq, Milvus und Jina AI unterstützt.
Warum relevant: Die hohe Genauigkeit und die robuste Implementierung in Rust machen dieses Projekt zu einer zuverlässigen und leistungsfähigen Lösung, die lokal betrieben werden kann.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: Ein Open-Source-Toolkit für zuverlässige RAG-Pipelines, das PDFs in Markdown konvertiert, Dokumente bereinigt, Chunks inspiziert, Chunking-Strategien vergleicht und Metadaten für LLM-Anwendungen bereichert.
Warum relevant: Die umfassende Unterstützung für verschiedene Dokumentformate und die Möglichkeit, Chunking-Strategien zu vergleichen, macht dieses Projekt zu einer nützlichen Ressource für die Entwicklung von RAG-Systemen.
quarkus-docling (5/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 1/1 = 5/10
Was es macht: Docling vereinfacht die Dokumentverarbeitung, indem es verschiedene Formate (einschließlich fortgeschrittene PDF-Verarbeitung) unterstützt und nahtlose Integrationen mit dem gen AI-Ökosystem bietet.
Warum relevant: Die Unterstützung für verschiedene Dokumentformate und die Integration in das gen AI-Ökosystem machen dieses Projekt zu einer nützlichen Ergänzung für bestehende RAG-Systeme.
Quelle: GitHub Search API