Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)
In diesem Artikel stellen wir die aktuellsten und innovativsten Projekte im Bereich Retrieval-Augmented Generation (RAG) sowie Dokumentenparser-Pipelines vor. Diese Projekte bieten einzigartige Lösungen für das Verarbeiten, Indexieren und Generieren von Inhalten aus verschiedenen Dokumentenformaten.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 9/10
Was es macht: NexusRAG ist ein Hybrid-RAG-System, das Vektorsuche, einen Wissensgraph (LightRAG) und Cross-Erkenner-Reranking kombiniert. Es unterstützt die Verarbeitung von Dokumenten mit Docling sowie visuelle Intelligenz wie Bild-/Tabellenkennungen und agente Streamingschat. Das System kann lokal oder in der Cloud mit Ollama-Modellen betrieben werden.
Warum relevant: Dank seiner Vielfalt an Funktionen und der Möglichkeit, eigene Daten zu verwenden, ist NexusRAG ein leistungsfähiges Tool für die lokale Verarbeitung von Dokumenten.
RustyRAG (8/10)
Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: RustyRAG ist ein Produktionsfähiges RAG-API, das in Rust geschrieben wurde. Es bietet eine hybride Suche mit HNSW dichten Vektoren und BM25 sparsamen Matchings sowie layout-awarees Dokumentenauszug über Docling.
Warum relevant: Die hohe Genauigkeit (94,5%) auf dem Open RAG-Benchmark macht RustyRAG zu einer starken Option für Unternehmen, die eine robuste Lösung suchen.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: Flexible GraphRAG bietet eine Python-basierte, Docker-Compose-gestützte Lösung für die Verarbeitung von Dokumenten und das Erstellen von Wissensgraphen. Es unterstützt verschiedene Datenquellen und integriert LlamaIndex oder Docling/LlamaParse.
Warum relevant: Die Flexibilität in der Wahl von Graph-Datenbanken, Vektordatenbanken und Frontends macht es zu einer starken Option für komplexe Anwendungen.
pdfstract (7/10)
Repository: AKSarav/pdfstract
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 0/2 | Reife 0/1 = 7/10
Was es macht: PDFStract ist eine Extraktions-, Chunking- und Embedding-Schicht für RAG-Pipelines, die als CLI, WEBUI oder API verfügbar ist.
Warum relevant: Es bietet eine einfache Möglichkeit, Dokumente in einer RAG-Pipeline zu verarbeiten und zu indexieren.
Quelle: GitHub Search API