Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)
In diesem Artikel stellen wir die aktuellsten und innovativsten Projekte im Bereich Retrieval-Augmented Generation (RAG) sowie Dokumentenverarbeitung vor. Diese Projekte bieten einzigartige Lösungen für das Selfhosting von KI-basierten Systemen, die eigene Daten verarbeiten können.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: NexusRAG ist ein hybrides RAG-System, das Vektorsuche, einen Wissensgraphen (LightRAG) und cross-encoder-basiertes Ranking kombiniert. Es unterstützt die Verarbeitung von Dokumenten mit Docling sowie visuelle Intelligenz für Bilder und Tabellen. Das System kann lokal oder in der Cloud mit Ollama Modellen betrieben werden.
Warum relevant: Dank seiner Vielseitigkeit und innovativen Kombination verschiedener Technologien bietet NexusRAG eine umfassende Lösung für die Verarbeitung und Nutzung von Dokumenten.
RustyRAG (8/10)
Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: RustyRAG ist ein Produktionsfähiges RAG-API, das in Rust geschrieben wurde. Es bietet eine hybride Suche mit HNSW dichten Vektoren und BM25 sparsamen Matching sowie cross-encoder-basiertes Ranking. Die Layout-aware Dokumentenextraktion erfolgt über Docling.
Warum relevant: Dank seiner hohen Genauigkeit (94,5% auf dem Open RAG Bench) und der Unterstützung von Cerebras, Groq, Milvus und Jina AI bietet RustyRAG eine robuste Lösung für die Verarbeitung und Nutzung von Dokumenten.
chunky (6/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: chunky ist ein Tool, das Markdown-Dokumente konvertiert und validiert. Es bietet verschiedene Chunking-Strategien für RAG-Pipelines.
Warum relevant: Dank seiner Unterstützung von Markdown und PDF-Prozessierung sowie der Möglichkeit, die beste Chunking-Strategie zu wählen, eignet sich chunky gut zur Verbesserung von RAG-Pipelines.
quarkus-docling (4/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 0/2 | Reife 0/1 = 4/10
Was es macht: quarkus-docling ist ein Quarkus-Modul, das die Verarbeitung und Analyse von Dokumenten vereinfacht. Es unterstützt verschiedene Dateiformate einschließlich PDF.
Warum relevant: Dank seiner Unterstützung für verschiedene Dokumentformate und der Integration in den gen AI-Ecosystem bietet quarkus-docling eine nützliche Grundlage für RAG-Systeme.
Quelle: GitHub Search API