Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub verfügbar sind. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und dabei die Privatsphäre der Nutzer gewährleisten.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: NexusRAG ist ein hybrides RAG-System, das Vektorsuche, Knowledge Graph (LightRAG) und Cross-Encoder-Reranking kombiniert. Es verarbeitet Dokumente mit Docling, bietet visuelle Intelligenz (Bild- und Tabellenbeschriftung), agenteingestützten Streaming-Chat und inline-Zitate. Es wird von Gemini oder lokalen Ollama-Modellen unterstützt.
Warum relevant: NexusRAG ist ein hochinnovatives System, das eine Vielzahl von Funktionen in einer lokalen Umgebung bereitstellt, was es ideal für Selfhosting und die Verarbeitung sensibler Daten macht.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: flexible-graphrag ist ein umfassendes RAG-System, das Python, LlamaIndex und LangChain verwendet. Es unterstützt 13 Datenquellen, automatische Synchronisierung, automatische Erstellung von Knowledge Graphs, Ontologien, LLMs und verschiedene Dokumentverarbeitungsstrategien. Es bietet auch eine REST-API und mehrere Frontend-Optionen.
Warum relevant: Dieses Projekt ist besonders relevant, da es eine flexible und erweiterbare Lösung für RAG-Systeme bietet, die lokal betrieben werden kann und eine Vielzahl von Datenquellen unterstützt.
LongParser (8/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: LongParser ist ein privacy-first Document Intelligence Engine, das PDFs, DOCX, PPTX, XLSX und CSV-Dateien in AI-fähige Chunks für RAG-Pipelines verarbeitet. Es bietet eine HITL-Überprüfung, 3-Lagen-Speicher-Chat und einen FastAPI-Server für die Produktion.
Warum relevant: LongParser ist eine robuste Lösung für die Verarbeitung und Analyse von Dokumenten, die die Privatsphäre der Nutzer gewährleistet und lokal betrieben werden kann.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: chunky ist ein Tool zur Konvertierung und Validierung von Markdown und zur Auswahl der besten Chunking-Strategie für RAG-Pipelines. Es unterstützt verschiedene Dokumentformate und bietet semantische Chunking-Methoden.
Warum relevant: chunky ist ein nützliches Werkzeug für die Vorbereitung von Dokumenten für RAG-Pipelines und kann lokal betrieben werden, was es für Selfhosting-Szenarien geeignet macht.
LightningRAG (7/10)
Repository: LightningRAG/LightningRAG
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: LightningRAG ist ein vollständiger Vue + Gin Starter, der ein dekoupliertes Frontend und Backend bietet. Es enthält integrierte, erweiterbare RAG-Funktionen wie Knowledge Bases, Vektorsuche und Integrationen mit verschiedenen LLM- und Vektorspeicheranbietern.
Warum relevant: LightningRAG ist eine umfassende und erweiterbare Lösung für RAG-Systeme, die lokal betrieben werden kann und eine moderne Webanwendung unterstützt.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: quarkus-docling vereinfacht die Dokumentverarbeitung und unterstützt verschiedene Formate, einschließlich fortgeschrittener PDF-Verarbeitung. Es bietet nahtlose Integrationen in das gen-AI-Ökosystem.
Warum relevant: quarkus-docling ist ein nützliches Tool für die Dokumentverarbeitung, das lokal betrieben werden kann und gut in bestehende Java-Anwendungen integriert werden kann.
Quelle: GitHub Search API