Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die aktuellsten GitHub-Projekte im Bereich Retrieval-Augmented Generation (RAG) und Dokumentenverarbeitung vor. Diese Projekte bieten innovative Lösungen für den Umgang mit eigenen Daten, unterstützen Selfhosting und setzen auf lokale Modelle wie Ollama.

NexusRAG (9/10)

Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 9/10
Was es macht: NexusRAG ist ein Hybrid-RAG-System, das Vektorsuche, Wissensgraph (LightRAG) und Cross-Erkenner Reranking kombiniert. Es unterstützt die Dokumentenverarbeitung mit Docling sowie visuelle Intelligenz wie Bild-/Tabellenkennungen und agente Streamingschat.
Warum relevant: Das Projekt ermöglicht es Benutzern, eigene Daten zu verwenden und lokale Modelle wie Ollama oder Google Gemini zu nutzen.

RustyRAG (8/10)

Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: RustyRAG ist ein Produktionsfähiges RAG-API, das in Rust geschrieben wurde. Es bietet eine hybride Suche mit HNSW dichten Vektoren und BM25 sparsamen Matching sowie Cross-Erkenner-Reranking.
Warum relevant: Das Projekt unterstützt die Layout-bereite Dokumentenextraktion via Docling und erreicht 94,5% Genauigkeit auf dem Open RAG Bench.

flexible-graphrag (8/10)

Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: Flexible GraphRAG ist ein flexibles System, das Python und LlamaIndex verwendet. Es unterstützt mehrere Vektordatenbanken, OpenSearch, Elasticsearch sowie Alfresco.
Warum relevant: Das Projekt bietet eine Vielzahl von Datenquellen (9 automatisch synchronisiert), Wissensgraph-Autobau, Schemas, Docling oder LlamaParse Dokumentenverarbeitung und Hybrid-Suche.

pdfstract (7/10)

Repository: AKSarav/pdfstract
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: PDFStract ist ein Extraktions-, Chunking- und Embedding-Layer für RAG-Pipelines, der als CLI, WEBUI und API verfügbar ist.
Warum relevant: Das Projekt ermöglicht die Verarbeitung von PDF-Dokumenten und unterstützt das Selfhosting.

Quelle: GitHub Search API

👁 6 Aufrufe 👤 6 Leser