Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In den letzten Monaten haben sich einige bemerkenswerte Projekte im Bereich Retrieval-Augmented Generation (RAG) etabliert. Diese Projekte bieten innovative Lösungen für die Verarbeitung verschiedener Dokumentformate, integrieren moderne Sprachmodelle und ermöglichen das Selbsthosting von RAG-Systemen.

NexusRAG (9/10)

Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 9/10
Was es macht: Hybrid RAG-System, das Kombinationen aus Vektorsuche, Wissensgraph (LightRAG) und Cross-Erkenner-Reranking bietet. Es unterstützt Dokumentverarbeitung mit Docling sowie visuelle Intelligenz für Bilder und Tabellen.
Warum relevant: Selbsthostbare Lösung, die eigene Daten nutzen kann und von Gemini oder lokalen Ollama-Modellen unterstützt wird.

RustyRAG (8/10)

Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 0/2 | Reife 1/1 = 8/10
Was es macht: Produktionsfähiges RAG-System in Rust, das Hybrid-Suche (HNSW + BM25), Cross-Erkenner-Reranking und Dokumentextraktion mit Docling unterstützt.
Warum relevant: Unterstützt verschiedene Hardware-Architekturen wie Cerebras, Groq und Milvus sowie Jina AI.

flexible-graphrag (8/10)

Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 0/2 | Reife 1/1 = 8/10
Was es macht: Flexibles GraphRAG-System, das Python und LlamaIndex verwendet. Es unterstützt mehrere Graph-Datenbanken sowie Vector-Datenbanken und bietet eine Vielzahl von Datenquellen.
Warum relevant: Selbsthostbare Lösung mit Docker Compose, die verschiedene Frontends (React, Vue, Angular) und einen FastAPI-Backend unterstützt.

ClawRag (7/10)

Repository: 2dogsandanerd/ClawRag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 0/2 | Reife 0/1 = 7/10
Was es macht: Kombiniert Docling-Dokumentverarbeitung mit ChromaDB-Vektorspeicher, um openclaw zu unterstützen.
Warum relevant: Selbsthostbare Lösung zur Dokumentenverarbeitung und Vektorsuche.

pdfstract (7/10)

Repository: AKSarav/pdfstract
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 0/2 | Reife 1/1 = 7/10
Was es macht: PDFStract bietet eine Extraktions-, Chunking- und Embedding-Schicht für RAG-Pipelines. Es ist als CLI, WEBUI und API verfügbar.
Warum relevant: Selbsthostbare Lösung zur Verarbeitung von PDF-Dokumenten in RAG-Systemen.

chunky (6/10)

Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 0/2 | Reife 1/1 = 6/10
Was es macht: Chunky ermöglicht die Validierung von Markdown-Chunken und das Auswahl des besten Chunking-Strategies vor dem Indexieren.
Warum relevant: Selbsthostbare Lösung zur Verbesserung der RAG-Pipelines durch Chunkvalidierung.

quarkus-docling (5/10)

Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 0/2 | Reife 1/1 = 5/10
Was es macht: Docling vereinfacht die Verarbeitung von Dokumenten und bietet eine einfache Integration in den gen AI-Ecosystem.
Warum relevant: Selbsthostbare Lösung zur Verarbeitung verschiedener Dokumentformate.

RAG_enterprise_core (4/10)

Repository: 2dogsandanerd/RAG_enterprise_core
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 0/2 | Reife 1/1 = 4/10
Was es macht: Unternehmensfähiges Retrieval-Augmented Generation-System mit Mikroservicestruktur.
Warum relevant: Selbsthostbare Lösung für Unternehmen, die RAG-Technologien nutzen möchten.

Quelle: GitHub Search API

👁 17 Aufrufe 👤 16 Leser