Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)
In diesem Artikel stellen wir die aktuellsten Retrieval-Augmented Generation (RAG) Systeme und Dokumentenparser-Pipelines vor, die auf GitHub entwickelt werden. Diese Projekte bieten innovative Lösungen für den Umgang mit eigenen Daten und unterstützen lokale Modelle wie Ollama.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 9/10
Was es macht: NexusRAG ist ein Hybrid-RAG-System, das Vector-Suche, Knowledge Graph (LightRAG) und Cross-Encoder Reranking kombiniert. Es unterstützt Docling-Dokument-Parsing sowie visuelle Intelligenz für Bilder und Tabellenkennungen. Das System kann auch agensbasierte Chat-Funktionen und Inline-Zitate verwalten.
Warum relevant: Dank seiner Vielfalt an Funktionen und der Unterstützung von lokalen Ollama-Modellen ist NexusRAG ein vollwertiges RAG-System für Selbstbedienung.
RustyRAG (8/10)
Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: RustyRAG ist ein robustes, produktionstaugliches RAG-System in Rust. Es kombiniert Hybrid-Suche (HNSW + BM25), Cross-Encoder-Reranking und Docling-Dokument-Auswertung.
Warum relevant: RustyRAG bietet eine starke Alternative zu Python-basierten Systemen durch seine Leistungsfähigkeit und die Unterstützung von Cerebras, Groq, Milvus und Jina AI.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: Flexible GraphRAG ist ein flexibles System, das Python und LlamaIndex verwendet. Es unterstützt mehrere Graph-DBs, Vector-DBs sowie OpenSearch und Elasticsearch. Das System kann auch automatisch Schemas für Knowledge Graphs erstellen.
Warum relevant: Dank seiner Vielfalt an unterstützten Datenquellen und DBs ist es ein leistungsfähiges Tool zur Verarbeitung eigener Dokumente.
ClawRag (7/10)
Repository: 2dogsandanerd/ClawRag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 0/2 | Reife 0/1 = 7/10
Was es macht: ClawRag kombiniert Docling-Dokumentverarbeitung mit ChromaDB-Vektor-Speicher, um Openclaw zu unterstützen.
Warum relevant: Es bietet eine einfache und effektive Methode zur Verarbeitung von Dokumenten und Vektor-Speicherung.
pdfstract (7/10)
Repository: AKSarav/pdfstract
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 0/2 | Reife 0/1 = 7/10
Was es macht: PDFStract ist ein Extraktions-, Chunking- und Embedding-Layer für RAG-Pipelines. Es unterstützt CLI, WEBUI sowie API.
Warum relevant: Dank seiner Unterstützung von OCR und unstrukturierten Daten bietet PDFStract eine leistungsfähige Lösung zur Verarbeitung von PDF-Dokumenten.
Quelle: GitHub Search API