Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)
In diesem Artikel stellen wir die neuesten Retrieval-Augmented Generation (RAG) Systeme und Dokumentverarbeitungs-Pipelines vor, die auf GitHub aktiv entwickelt werden. Diese Projekte bieten innovative Lösungen für den Umgang mit eigenen Daten und ermöglichen es, lokale Modelle wie Ollama zu nutzen.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 9/10
Was es macht: Hybrid RAG-System, das Vektorsuche, Wissensgraph (LightRAG) und Cross-Erkenner-Reranking kombiniert. Es unterstützt Docling-Dokumentverarbeitung, visuelle Intelligenz (Bild-/Tabellenkennungen), agente Streamchat und Inline-Zitate.
Warum relevant: Lokal betreibbar mit Ollama-Modellen oder Gemini.
RustyRAG (7/10)
Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: Produktionssicheres RAG-System in Rust, das Hybrid-Suche (HNSW + BM25), Cross-Erkenner-Reranking und Docling-Dokumentextraktion unterstützt.
Warum relevant: Lokal betreibbar mit Cerebras, Groq, Milvus und Jina AI.
flexible-graphrag (7/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Flexibles GraphRAG-System, das Python und LlamaIndex verwendet. Es unterstützt 8 Graph-Datenbanken, 10 Vektordatenbanken und mehrere Dokumentquellen.
Warum relevant: Lokal betreibbar mit Docker Compose.
ClawRag (6/10)
Repository: 2dogsandanerd/ClawRag
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 0/2 | Reife 0/1 = 6/10
Was es macht: RAG-System, das Docling-Dokumentverarbeitung mit ChromaDB-Vektorspeicher kombiniert.
Warum relevant: Lokal betreibbar.
pdfstract (6/10)
Repository: AKSarav/pdfstract
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 0/2 | Reife 0/1 = 6/10
Was es macht: PDFStract extrahiert, chunkt und embeds PDF-Dokumente für RAG-Pipelines. Es ist als CLI, WEBUI und API verfügbar.
Warum relevant: Lokal betreibbar.
Quelle: GitHub Search API