Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)
In diesem Artikel stellen wir die aktuellsten und innovativsten Projekte im Bereich Retrieval-Augmented Generation (RAG) sowie Dokumentenverarbeitung vor. Diese Projekte kombinieren moderne AI-Konzepte mit effizienter Dokumentenverarbeitung, um benutzerdefinierte Lösungen für den Selfhosting-Bereich zu ermöglichen.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: NexusRAG ist ein hybrides RAG-System, das Vektorsuche, Wissensgraph (LightRAG) und cross-encoder-Reranking kombiniert. Es unterstützt die Verarbeitung verschiedener Dokumente mit Docling und bietet visuelle Intelligenz wie Bild-/Tabellenkennungen sowie agente Streamchat-Funktionen.
Warum relevant: Dank seiner Vielfalt an Funktionen und der Möglichkeit, lokale Ollama-Modelle zu verwenden, ist NexusRAG eine umfassende Lösung für die Verarbeitung eigener Daten.
RustyRAG (8/10)
Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: RustyRAG ist ein robustes RAG-API-Projekt, das in Rust geschrieben wurde. Es bietet eine hybride Suche mit HNSW-dichten Vektoren und BM25-schlanken Matches sowie cross-encoder-Reranking.
Warum relevant: Die hohe Genauigkeit von 94,5% auf dem Open RAG-Bench macht RustyRAG zu einer robusten Wahl für die Verarbeitung eigener Dokumente.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: chunky ist ein Tool, das Markdown-Dokumente konvertiert und validiert. Es unterstützt verschiedene Chunking-Strategien für RAG-Pipelines.
Warum relevant: Dank seiner flexiblen Chunking-Funktionen ermöglicht chunky eine effiziente Verarbeitung von Dokumenten in einem benutzerdefinierten Kontext.
quarkus-docling (5/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 0/2 | Reife 0/1 = 5/10
Was es macht: quarkus-docling vereinfacht die Verarbeitung und Analyse verschiedener Dokumentformate, einschließlich fortgeschrittener PDF-Verständnisfunktionen.
Warum relevant: Es bietet eine leichte Integration in den gen AI-Ecosystem und ist ein nützliches Tool für die Dokumentenverarbeitung.
Quelle: GitHub Search API