Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)
Hier sind einige der neuesten GitHub-Projekte, die sich auf Retrieval-Augmented Generation (RAG) konzentrieren. Diese Projekte bieten Anwendungen, Server oder komplette Pipelines für den Umgang mit Dokumenten und Wissensbasen.
NexusRAG
Repository: LeDat98/NexusRAG
Was es macht: Hybrid RAG-System, das Vektorsuche, einen Wissensgraph (LightRAG), und Cross-Erkenner-Reranking kombiniert. Es unterstützt auch Dokumenten-Parsing, visuelle Intelligenz (Bild-/Tabellen-Kapitelauszeichnung) sowie agentisches Streaming-Chat und Inline-Zitate.
Warum relevant: Kombination von verschiedenen Technologien zur Verbesserung der Dokumenten-RAG-Funktionalität.
RustyRAG
Repository: AlphaCorp-AI/RustyRAG
Was es macht: Produktionsfähiges RAG-System in Rust, das hybride Suche (HNSW + BM25), Cross-Erkenner-Reranking und Dokumentenextraktion durch Docling bietet. Es ist auf Cerebras, Groq, Milvus und Jina AI basiert.
Warum relevant: Hochperformantes RAG-System in Rust für Unternehmen.
flexible-graphrag
Repository: stevereiner/flexible-graphrag
Was es macht: Flexibles GraphRAG, das Python, LlamaIndex und Docker Compose verwendet. Es unterstützt 8 Graph-Datenbanken, 10 Vektordatenbanken sowie OpenSearch und Elasticsearch.
Warum relevant: Vielseitige Unterstützung für verschiedene Datenquellen und Datenbanksysteme.
ClawRag
Repository: 2dogsandanerd/ClawRag
Was es macht: RAG-System, das Docling-Dokumentbearbeitung mit ChromaDB-Vektorspeicher kombiniert.
Warum relevant: Einfache und effiziente Dokumenten-RAG-Lösung.
pdfstract
Repository: AKSarav/pdfstract
Was es macht: Extrahiert, teilt in kleinere Teile und embeds PDF-Dokumente für die Nutzung in RAG-Pipelines. Es bietet eine CLI, WEBUI sowie API.
Warum relevant: Speziell auf PDF-Verarbeitung ausgelegt.
Quelle: GitHub Search API