Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten GitHub-Projekte im Bereich Retrieval-Augmented Generation (RAG) und Dokumentenverarbeitung vor. Diese Projekte bieten innovative Lösungen für das Handling von Dokumenten, den Einsatz künstlicher Intelligenz und die lokale Bereitstellung.

NexusRAG (9/10)

Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: Hybrid RAG-System, das Vektorsuche, einen Wissensgraph (LightRAG) und Cross-Erkenner-Reranking kombiniert. Es unterstützt Docling-Dokumentenextraktion, visuelle Intelligenz (Bild-/Tabellenkaptions), agentisches Streaming Chat sowie Inline-Zitate.
Warum relevant: Lokal oder mit Ollama-Modellen betreibbar, bietet eine umfassende RAG-Pipeline und innovative Funktionen wie Visual Intelligence.

RustyRAG (8/10)

Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: Produktionsfähiges RAG-System in Rust, das Hybrid-Suche (HNSW + BM25), Cross-Erkenner-Reranking und Docling-Dokumentenextraktion unterstützt. Es erreicht eine Leistung von 87% auf dem Open RAG Bench.
Warum relevant: Eignet sich für Unternehmen, die Rust als Sprache bevorzugen und ein robustes Retrieval-Augmented Generation System benötigen.

flexible-graphrag (8/10)

Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: Flexibles GraphRAG-System, das Python und LlamaIndex verwendet. Es unterstützt mehrere Graph-Datenbanken, Vektordatenbanken sowie Alfresco und bietet automatische Synchronisation von Datenquellen.
Warum relevant: Eignet sich für komplexe Anwendungen mit einer Vielzahl an Datenquellen und ermöglicht die Verwendung verschiedener Frontend-Technologien.

ClawRag (7/10)

Repository: 2dogsandanerd/ClawRag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Kombiniert Docling-Dokumentenverarbeitung mit ChromaDB-Vektorspeicher, um openclaw zu unterstützen.
Warum relevant: Eignet sich für Anwendungen, die eine starke Dokumentenverarbeitung und Vektordatenbank-Komponente benötigen.

pdfstract (7/10)

Repository: AKSarav/pdfstract
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: PDFStract bietet eine Schicht zur Extraktion, Chunking und Embedding in der RAG-Pipeline. Es ist als CLI, WEBUI und API verfügbar.
Warum relevant: Eignet sich für Projekte, die eine umfassende Unterstützung bei der Verarbeitung von PDF-Dokumenten benötigen.

Quelle: GitHub Search API

👁 3 Aufrufe 👤 2 Leser