Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)
In diesem Artikel stellen wir die aktuellsten GitHub-Projekte im Bereich Retrieval-Augmented Generation (RAG) und Dokumentenverarbeitung vor. Diese Projekte bieten innovative Lösungen für den Umgang mit eigenen Daten und ermöglichen es, lokale Modelle wie Ollama zu nutzen.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 9/10
Was es macht: Hybrid RAG-System, das Kombinationen von Vektorsuche, Wissensgraph (LightRAG) und cross-encoder-Reranking bietet. Es unterstützt Docling-Dokumentverarbeitung, visuelle Intelligenz (Bild-/Tabellenbeschreibung), agente Streamchat und Inline-Zitate.
Warum relevant: Lokal betreibbar mit Ollama oder Gemini-Modellen.
RustyRAG (8/10)
Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: Produktionsfähiges RAG-API in Rust, das Hybrid-Suche mit HNSW-dichten Vektoren und BM25-sparse-Matching bietet. Es nutzt Docling für layout-awarees Dokumentenextrahieren.
Warum relevant: Lokal betreibbar, hohe Genauigkeit.
pdfstract (7/10)
Repository: AKSarav/pdfstract
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: PDFStract bietet eine Extraktions-, Chunking- und Embedding-Schicht für RAG-Pipelines. Es ist als CLI, WEBUI und API verfügbar.
Warum relevant: Lokal betreibbar, unterstützt verschiedene Dokumentformate.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: Docling vereinfacht die Verarbeitung von Dokumenten und bietet eine einfache Integration in den gen AI-Ecosystem.
Warum relevant: Unterstützung für verschiedene Dokumentformate, einschließlich fortgeschrittener PDF-Verständnis.
chunky (5/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 5/10
Was es macht: Convertiert und validiert Markdown-Dokumente, wählt die beste Chunking-Strategie für RAG-Pipelines aus.
Warum relevant: Lokal betreibbar, Unterstützung für verschiedene Dokumentformate.
Quelle: GitHub Search API