Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten Entwicklungen im Bereich RAG-Systeme und Parser-Pipelines vor. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und dabei auf modernste Technologien wie Vector Search, Knowledge Graphs und LLMs setzen.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 9/10
Was es macht: NexusRAG ist ein hybrides RAG-System, das Vector Search, Knowledge Graph (LightRAG) und Cross-Encoder Reranking kombiniert. Es verfügt über Docling-Dokumentenparsing, visuelle Intelligenz (Bild- und Tabellenbeschriftung), agentisches Streaming-Chat und Inline-Zitate. Es wird von Gemini oder lokalen Ollama-Modellen unterstützt.
Warum relevant: NexusRAG ist ein umfassendes und innovatives System, das sowohl für lokale als auch für cloudbasierte Anwendungen geeignet ist. Es ermöglicht es, eigene Daten zu verarbeiten und zu schützen, was besonders für sensible Informationen wichtig ist.
RustyRAG (8/10)
Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: RustyRAG ist ein RAG-API-System, das in Rust entwickelt wurde. Es kombiniert HNSW-dichte Vektoren und BM25-sparse Matching mit Cross-Encoder Reranking und layoutbewusstem Dokumentenextraktionsverfahren. Es erreicht eine Genauigkeit von 94,5% auf der Open RAG Bench und wird von Cerebras, Groq, Milvus und Jina AI unterstützt.
Warum relevant: RustyRAG ist ein leistungsstarkes und reifes System, das für die Produktion geeignet ist. Es bietet eine hohe Genauigkeit und ist lokal betreibbar, was es zu einer robusten Wahl für Unternehmen macht.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: LongParser ist ein Datenschutz-fokussiertes Dokumentenintelligenz-System, das PDFs, DOCX, PPTX, XLSX und CSV-Dateien in AI-fähige Chunks umwandelt. Es verfügt über eine HITL-Überprüfung, einen dreischichtigen Memory-Chat und einen produktionstauglichen FastAPI-Server.
Warum relevant: LongParser ist ein umfassendes System zur Verarbeitung verschiedener Dokumentformate und bietet eine hohe Flexibilität durch die HITL-Überprüfung. Es ist lokal betreibbar und eignet sich gut für Unternehmen, die ihre Daten selbst hosten möchten.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: chunky ist ein Tool zur Konvertierung und Validierung von Markdown-Dokumenten. Es ermöglicht die Auswahl der besten Chunking-Strategie für RAG-Pipelines.
Warum relevant: chunky ist ein nützliches Werkzeug für die Vorbereitung von Markdown-Dokumenten für RAG-Pipelines. Es ist lokal betreibbar und bietet eine einfache Integration in bestehende Workflows.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 1/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 1/1 = 6/10
Was es macht: quarkus-docling vereinfacht die Dokumentenverarbeitung und das Parsen verschiedener Formate, einschließlich erweiterter PDF-Verarbeitung. Es bietet nahtlose Integrationen in den gen-AI-Ökosystem.
Warum relevant: quarkus-docling ist ein nützliches Tool für die Dokumentenverarbeitung und eignet sich gut für Java-basierte Anwendungen. Es ist lokal betreibbar und bietet eine gute Integration in bestehende Quarkus-Projekte.
Quelle: GitHub Search API