Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)
Hier sind einige der neuesten GitHub-Projekte, die sich auf Retrieval-Augmented Generation (RAG) konzentrieren. Diese Projekte bieten Anwendungen, Server oder komplette Pipelines für Dokumenten-RAG.
NexusRAG
Repository: LeDat98/NexusRAG, Was es macht: Hybrid RAG-System mit Vektorsuche, Wissensgraph (LightRAG) und Cross-Erkenner-Reranking. Es unterstützt Dokumenten-Parsing, visuelle Intelligenz (Bild-/Tabellen-Kapitelauszeichnung), agente Streamings Chat und Inline-Zitate. Warum relevant: Weil es eine umfassende Lösung für RAG bietet, die auch visuelles Wissen integriert.
RustyRAG
Repository: AlphaCorp-AI/RustyRAG, Was es macht: Produktionsfähiges RAG-System in Rust mit hybrider Suche (HNSW + BM25), Cross-Erkenner-Reranking und Dokumentenextraktion. Es erreicht 87% auf dem Open RAG Bench. Warum relevant: Weil es eine robuste, performante Lösung für RAG bietet, die auch verschiedene Hardwareplattformen unterstützt.
flexible-graphrag
Repository: stevereiner/flexible-graphrag, Was es macht: Flexibles GraphRAG-System mit Python und LlamaIndex. Es unterstützt 8 Graph-Datenbanken, 10 Vektordatenbanken, OpenSearch, Elasticsearch, Alfresco sowie automatisches Synchronisieren von Datenquellen und Erstellen von Wissensgraphen. Warum relevant: Weil es eine vielseitige Plattform ist, die verschiedene Frontend-Technologien und Backend-Architekturen unterstützt.
ClawRag
Repository: 2dogsandanerd/ClawRag, Was es macht: RAG-System, das Docling-Dokumentverarbeitung mit ChromaDB-Vektorspeicher kombiniert. Warum relevant: Weil es eine einfache und effiziente Methode zur Verarbeitung von Dokumenten bietet.
pdfstract
Repository: AKSarav/pdfstract, Was es macht: PDFStract extrahiert, chunkt und embeddt Daten in RAG-Pipelines. Es ist als CLI, WEBUI und API verfügbar. Warum relevant: Weil es eine leistungsstarke Lösung für die Verarbeitung von PDF-Dokumenten bietet.
Quelle: GitHub Search API