Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten Entwicklungen im Bereich RAG-Systeme und Parser-Pipelines vor. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und dabei die volle Kontrolle über Ihre Daten gewährleisten.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 9/10
Was es macht: NexusRAG ist ein hybrides RAG-System, das Vektorsuche, Knowledge Graph (LightRAG) und Cross-Encoder-Reranking kombiniert. Es verarbeitet Dokumente mit Docling, bietet visuelle Intelligenz (Bild- und Tabellenbeschriftung), agentebasierten Streaming-Chat und Inline-Zitate. Es wird von Gemini oder lokalen Ollama-Modellen unterstützt.
Warum relevant: NexusRAG ist ein hochinnovatives Projekt, das eine Vielzahl von Technologien in einer robusten, selbstgehosteten Lösung vereint. Es ermöglicht es Nutzern, ihre Dokumente lokal zu verarbeiten und zu analysieren, ohne auf externe Dienste angewiesen zu sein.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: flexible-graphrag ist ein umfassendes RAG-System, das Python, LlamaIndex und LangChain verwendet. Es unterstützt 13 Datenquellen, automatische Synchronisierung, automatische Erstellung von Knowledge Graphs, Ontologien, LLMs und verschiedene Dokumentverarbeitungsstrategien. Es bietet eine REST-API und mehrere Frontend-Optionen.
Warum relevant: Dieses Projekt ist besonders relevant für Entwickler, die eine flexible und erweiterbare RAG-Lösung suchen, die lokal betrieben werden kann. Es bietet eine breite Palette von Funktionen und ist gut dokumentiert.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: LongParser ist ein privacy-first Document Intelligence Engine, das PDFs, DOCX, PPTX, XLSX und CSV-Dateien in AI-fähige Chunks für RAG-Pipelines konvertiert. Es bietet eine HITL-Überprüfung, einen 3-Layer-Memory-Chat und einen FastAPI-Server für die Produktion.
Warum relevant: LongParser ist eine robuste Lösung für die Verarbeitung und Analyse von Dokumenten, die den Schutz der Privatsphäre im Vordergrund stellt. Es ist lokal betreibbar und bietet eine Vielzahl von Funktionen für die Dokumentverarbeitung.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: chunky ist ein Tool zur Konvertierung und Validierung von Markdown-Dokumenten, das die beste Chunking-Strategie für RAG-Pipelines bereitstellt. Es unterstützt verschiedene Dokumentformate und bietet eine flexible Chunking-Logik.
Warum relevant: chunky ist besonders nützlich für Entwickler, die eine präzise und kontextsensitive Chunking-Strategie für ihre RAG-Pipelines benötigen. Es ist lokal betreibbar und bietet eine einfache Integration in bestehende Workflows.
LightningRAG (7/10)
Repository: LightningRAG/LightningRAG
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: LightningRAG ist ein vollständiger Vue + Gin Starter, der eine dekupierte Frontend- und Backend-Architektur bietet. Es verfügt über integrierte, erweiterbare RAG-Funktionen, darunter Knowledge Bases, Vektorsuche und Integrationen mit verschiedenen LLM- und Vektorspeicheranbietern.
Warum relevant: LightningRAG ist eine umfassende Lösung für die Entwicklung von RAG-Anwendungen, die eine moderne, dekupierte Architektur verwendet. Es ist lokal betreibbar und bietet eine breite Palette von Funktionen für die Dokumentverarbeitung und -analyse.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: quarkus-docling vereinfacht die Dokumentverarbeitung und bietet die Verarbeitung verschiedener Formate, einschließlich erweiterter PDF-Verarbeitung. Es integriert nahtlos in das gen-AI-Ökosystem.
Warum relevant: quarkus-docling ist eine nützliche Erweiterung für Quarkus, die die Dokumentverarbeitung in Java-Anwendungen erleichtert. Es ist lokal betreibbar und bietet eine gute Integration in bestehende Java-Projekte.
Quelle: GitHub Search API