Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)
In diesem Artikel stellen wir die aktuellsten und innovativsten Projekte im Bereich Retrieval-Augmented Generation (RAG) und Dokumentenverarbeitung vor. Diese Projekte bieten einzigartige Lösungen für die Verarbeitung verschiedener Dokumentformate, den Einsatz von KI-Modellen und das Selfhosting.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: NexusRAG ist ein Hybrid-RAG-System, das Vektorsuche, Wissensgraph (LightRAG) und Cross-Erkenner Reranking kombiniert. Es unterstützt die Dokumentenverarbeitung mit Docling sowie visuelle Intelligenz für Bild-/Tabellenkennzeichnung und agente Streamchat-Funktionen.
Warum relevant: Das Projekt ermöglicht es Benutzern, eigene Daten zu verwenden und lokale Ollama-Modelle auszuführen.
RustyRAG (8/10)
Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: RustyRAG ist ein Produktionsfähiges RAG-API, das Hybrid-Suche mit HNSW dichten Vektoren und BM25 sparsamen Matching, Cross-Erkenner-Reranking und layout-aware Dokumentenauszeichnung via Docling bietet.
Warum relevant: Es ermöglicht die Verwendung von lokalen KI-Modellen wie Cerebras, Groq und Milvus.
pdfstract (7/10)
Repository: AKSarav/pdfstract
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: PDFStract ist ein Extraktions-, Chunking- und Embedding-Layer für RAG-Pipelines, der als CLI, WEBUI oder API verfügbar ist.
Warum relevant: Es ermöglicht die Verarbeitung von PDF-Dokumenten und den Einsatz eigener Daten.
chunky (6/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: Convert and validate your Markdown, then choose the best chunking strategy for your RAG pipeline.
Warum relevant: Es bietet eine flexible Methode zur Chunking von Dokumenten und kann in verschiedenen Umgebungen eingesetzt werden.
quarkus-docling (5/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 0/2 | Reife 0/1 = 5/10
Was es macht: Docling vereinfacht die Verarbeitung von Dokumenten und bietet eine einfache Integration in den gen AI-Ecosystem.
Warum relevant: Es unterstützt verschiedene Dokumentformate, einschließlich fortgeschrittener PDF-Verarbeitung.
Quelle: GitHub Search API