Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten Entwicklungen im Bereich RAG-Systeme und Parser-Pipelines vor. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und dabei die volle Funktionalität von Retrieval-Augmented-Generation (RAG) nutzen.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 9/10
Was es macht: NexusRAG ist ein hybrides RAG-System, das Vektorsuche, Wissensgraphen (LightRAG) und Cross-Encoder-Reranking kombiniert. Es verfügt über Docling-Dokumentverarbeitung, visuelle Intelligenz (Bild- und Tabellenbeschriftung), agenteingestützten Streaming-Chat und Inline-Zitate. Es wird von Gemini oder lokalen Ollama-Modellen unterstützt.
Warum relevant: NexusRAG bietet eine umfassende Lösung für die Dokumentverarbeitung und RAG, die lokal betrieben werden kann. Es nutzt moderne Technologien und ist sehr innovativ in seiner Kombination verschiedener Ansätze.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: flexible-graphrag ist ein flexibles RAG-System, das Python, LlamaIndex und LangChain verwendet. Es unterstützt 13 Datenquellen, automatische Synchronisierung, Wissensgraphen, Ontologien und verschiedene Vektordatenbanken. Es bietet auch eine REST-API und mehrere Frontend-Optionen.
Warum relevant: Dieses Projekt ist sehr umfassend und flexibel, was es zu einer starken Wahl für fortgeschrittene RAG-Anwendungen macht. Es ist lokal betreibbar und nutzt moderne Technologien.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: LongParser ist ein privacy-first Dokumentenintelligenz-Engine, die PDFs, DOCX, PPTX, XLSX und CSV-Dateien in AI-fähige Chunks für RAG-Pipelines konvertiert. Es bietet eine HITL-Überprüfung, einen 3-Layer-Memory-Chat und einen FastAPI-Server.
Warum relevant: LongParser ist eine robuste Lösung für die Dokumentverarbeitung, die den Schutz der Privatsphäre im Vordergrund stellt. Es ist lokal betreibbar und bietet eine breite Palette von Funktionen.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: chunky ist ein Tool zur Konvertierung und Validierung von Markdown und zur Auswahl der besten Chunking-Strategie für RAG-Pipelines. Es unterstützt verschiedene Dokumentformate und bietet semantische Chunking-Methoden.
Warum relevant: chunky ist ein nützliches Werkzeug für die Vorbereitung von Dokumenten für RAG-Pipelines. Es ist lokal betreibbar und bietet innovative Chunking-Methoden.
LightningRAG (7/10)
Repository: LightningRAG/LightningRAG
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: LightningRAG ist ein vollständiger Vue + Gin Starter, der eine dekuplierte Frontend- und Backend-Architektur bietet. Es verfügt über integrierte, erweiterbare RAG-Funktionen, Wissensbasen, Vektorsuche und Integrationen mit verschiedenen LLM- und Vektordatenbank-Anbietern.
Warum relevant: LightningRAG ist eine moderne, vollständige Lösung für RAG-Anwendungen, die lokal betrieben werden kann. Es bietet eine flexible Architektur und ist gut für die Entwicklung von benutzerdefinierten Anwendungen geeignet.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: quarkus-docling vereinfacht die Dokumentverarbeitung und unterstützt verschiedene Formate, einschließlich fortgeschrittener PDF-Verarbeitung. Es bietet nahtlose Integrationen mit dem genAI-Ökosystem.
Warum relevant: quarkus-docling ist ein nützliches Tool für die Dokumentverarbeitung, das in Java-Anwendungen integriert werden kann. Es ist lokal betreibbar und bietet eine breite Palette von Funktionen.
Quelle: GitHub Search API