Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die aktuellsten und innovativsten Projekte im Bereich Retrieval-Augmented Generation (RAG) und Dokumentenverarbeitung vor. Diese Projekte bieten umfangreiche Möglichkeiten für das Selfhosting von KI-basierten Systemen, die eigene Daten integrieren können.

NexusRAG (9/10)

Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 9/10
Was es macht: NexusRAG ist ein Hybrid-RAG-System, das Vektorschlag, Wissensgraph (LightRAG) und Cross-Erkenner Reranking kombiniert. Es unterstützt die Dokumentenverarbeitung mit Docling sowie visuelle Intelligenz (Bild-/Tabellenbeschreibung), agente Streamchat und Inline-Zitate.
Warum relevant: Das Projekt bietet eine umfassende Lösung für die Verarbeitung eigener Daten, ist lokal betreibbar und unterstützt Ollama-Modelle.

RustyRAG (8/10)

Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: RustyRAG ist ein Produktionsfähiges RAG-API, das in Rust geschrieben wurde. Es kombiniert hybride Suche mit HNSW dichten Vektoren und BM25 spärlicher Matching, Cross-Erkenner Reranking und layout-aware Dokumentenextraktion via Docling.
Warum relevant: Das Projekt bietet eine robuste Lösung für die Verarbeitung eigener Daten und ist lokal betreibbar.

flexible-graphrag (7/10)

Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Flexible GraphRAG bietet eine Python-basierte, Docker-Compose-gestützte Lösung mit Unterstützung für mehrere Graph- und Vektordatenbanken sowie OpenSearch, Elasticsearch, Alfresco. Es unterstützt automatisches Synchronisieren von Datenquellen und das Erstellen von Wissensgraphen.
Warum relevant: Das Projekt bietet eine flexible Umgebung zur Verarbeitung eigener Daten und ist lokal betreibbar.

pdfstract (7/10)

Repository: AKSarav/pdfstract
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: PDFStract ist ein Extraktions-, Chunking- und Embedding-Layer für RAG-Pipelines, der als CLI, WEBUI oder API verfügbar ist.
Warum relevant: Das Projekt bietet eine umfassende Lösung zur Verarbeitung von PDF-Dokumenten und ist lokal betreibbar.

chunky (6/10)

Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: Chunky ist ein Tool, das die Validierung von Markdown-Chunks und den Wahl des besten Chunking-Strategies vor dem Indexieren ermöglicht.
Warum relevant: Das Projekt bietet eine wichtige Komponente für die Verarbeitung eigener Daten und ist lokal betreibbar.

Quelle: GitHub Search API

👁 3 Aufrufe 👤 3 Leser