Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

Hier sind einige der aktuellsten und interessantesten Projekte rund um Retrieval-Augmented Generation (RAG) Systeme und Dokumentenparser-Pipelines auf GitHub. Diese Projekte bieten eine Vielzahl von Funktionen, einschließlich Vector-Suchsysteme, Knowledge-Graphs und mehr.

NexusRAG

Repository: NexusRAG, Was es macht: Hybrid RAG System mit Kombination aus Vektorsuche, Wissensgraph (LightRAG) und Cross-Erkenner-Reranking. Es bietet auch Dokumentenverarbeitung, visuelle Intelligenz (Bild-/Tabellenkaptions), agente Stream Chat und Inline-Zitierungen.
Warum relevant: Ein umfassendes System, das verschiedene Technologien kombiniert, um eine leistungsfähige RAG-Lösung zu bieten.

RustyRAG

Repository: RustyRAG, Was es macht: Produktionssichere RAG in Rust mit hybrider Suche (HNSW + BM25), Cross-Erkenner-Reranking und Dokumentenextraktion.
Warum relevant: Ein robustes System, das für die Produktion optimiert ist und eine Vielzahl von LLMs unterstützt.

Flexible GraphRAG

Repository: flexible-graphrag, Was es macht: Flexibles GraphRAG-System mit Python, LlamaIndex und Docker Compose. Es unterstützt 8 Graph-Datenbanken, 10 Vektordatenbanken, OpenSearch, Elasticsearch, Alfresco und mehr.
Warum relevant: Ein vielseitiges System, das verschiedene Datenquellen und Frontends unterstützt.

ClawRag

Repository: ClawRag, Was es macht: RAG-System, das Docling-Dokumentverarbeitung mit ChromaDB-Vektorspeicher kombiniert.
Warum relevant: Ein einfaches und effizientes System zur Dokumentenverarbeitung und Vektorsuche.

Chunky

Repository: chunky, Was es macht: Validierung des RAG-Pipelines und Auswahl der besten Chunking-Strategie vor dem Indexieren.
Warum relevant: Ein nützliches Tool zur Verbesserung der Qualität von RAG-Pipelines durch Chunking-Validierung.

pdfstract

Repository: pdfstract, Was es macht: Extraktion, Chunking und Embedding-Schicht für RAG-Pipeline. Verfügbar als CLI, WEBUI und API.
Warum relevant: Ein spezielles Tool zur Verarbeitung von PDF-Dokumenten in RAG-Systemen.

Quelle: GitHub Search API

👁 11 Aufrufe 👤 11 Leser