Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die aktuellsten GitHub-Projekte im Bereich Retrieval-Augmented Generation (RAG) und Dokumentenverarbeitung vor. Diese Projekte bieten innovative Lösungen für den Umgang mit eigenen Daten, unterstützen verschiedene Dokumentformate und sind in der Regel selbsthostbar.

NexusRAG (9/10)

Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 9/10
Was es macht: NexusRAG ist ein hybrider RAG-System, das Kombinationen von Vektorsuche, Wissensgraph (LightRAG) und Cross-Erkenner-Reranking bietet. Es unterstützt Dokumentverarbeitung mit Docling sowie visuelle Intelligenz für Bild- und Tabellenbeschreibungen.
Warum relevant: Dank seiner Vielfalt an Funktionen und der Möglichkeit, lokale Ollama Modelle zu verwenden, ist NexusRAG eine umfassende Lösung für die Verarbeitung eigener Dokumente.

RustyRAG (8/10)

Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: RustyRAG ist ein Produktionsfähiges RAG-API, das in Rust geschrieben wurde. Es bietet eine hybride Suche mit HNSW dichten Vektoren und BM25 sparsamen Matching sowie Cross-Erkenner-Reranking.
Warum relevant: Dank seiner hohen Genauigkeit (94,5% auf Open RAG Bench) und der Unterstützung von Cerebras, Groq, Milvus und Jina AI ist RustyRAG eine robuste Wahl für die Verarbeitung eigener Dokumente.

pdfstract (7/10)

Repository: AKSarav/pdfstract
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: PDFStract bietet eine Schicht zur Extraktion, Chunking und Embedding in RAG-Pipelines. Es ist als CLI, WEBUI und API verfügbar.
Warum relevant: Dank seiner Vielfalt an Ausführungsmöglichkeiten und der Unterstützung von verschiedenen Dokumentformaten (inklusive OCR) eignet sich PDFStract gut für die Verarbeitung eigener Daten.

chunky (6/10)

Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: Chunky ist ein Tool zur Konvertierung und Validierung von Markdown-Dokumenten, das verschiedene Chunking-Strategien für RAG-Pipelines unterstützt.
Warum relevant: Dank seiner Unterstützung für verschiedene Dokumentformate und der Möglichkeit, die beste Chunking-Strategie zu wählen, eignet sich Chunky gut zur Vorbereitung eigener Daten.

quarkus-docling (5/10)

Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 0/2 | Reife 1/1 = 5/10
Was es macht: Quarkus-Docling vereinfacht die Verarbeitung und Analyse von Dokumenten in verschiedenen Formaten, einschließlich fortgeschrittenem PDF-Verständnis.
Warum relevant: Dank seiner einfachen Integration mit dem gen AI-Ekosystem eignet sich Quarkus-Docling gut zur Vorbereitung eigener Daten.

Quelle: GitHub Search API

👁 10 Aufrufe 👤 8 Leser