Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und dabei die volle Kontrolle über Ihre Daten gewährleisten.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 9/10
Was es macht: NexusRAG ist ein hybrides RAG-System, das Vektorsuche, Wissensgraphen (LightRAG) und Cross-Encoder-Reranking kombiniert. Es verfügt über Docling-Dokumentenverarbeitung, visuelle Intelligenz (Bild- und Tabellenbeschriftung), agentebasierten Streaming-Chat und Inline-Zitate. Es wird von Gemini oder lokalen Ollama-Modellen unterstützt.
Warum relevant: NexusRAG bietet eine umfassende Lösung für die Dokumentenverarbeitung und -analyse, die lokal betrieben werden kann. Es ist innovativ durch die Kombination verschiedener Technologien und bietet eine hohe Reife.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: flexible-graphrag ist ein flexibles RAG-System, das Python, LlamaIndex und LangChain verwendet. Es unterstützt 13 Datenquellen, automatische Synchronisierung, Wissensgraphen, LLMs und verschiedene Dokumentenverarbeitungsstrategien. Es verfügt über eine REST-API und mehrere Frontend-Optionen.
Warum relevant: Dieses Projekt ist besonders relevant, da es eine breite Palette von Datenquellen und Verarbeitungsstrategien unterstützt und lokal betrieben werden kann. Es ist eine robuste und flexible Lösung für RAG-Anwendungen.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: LongParser ist ein privacy-first Dokumentenintelligenz-Engine, die PDFs, DOCX, PPTX, XLSX und CSV in AI-fähige Chunks für RAG-Pipelines konvertiert. Es verfügt über eine HITL-Überprüfung, 3-Layer-Memory-Chat und einen FastAPI-Server.
Warum relevant: LongParser ist eine privacy-first Lösung, die verschiedene Dokumentformate unterstützt und lokal betrieben werden kann. Es ist besonders nützlich für Unternehmen, die die Datenschutzstandards einhalten müssen.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: chunky ist ein Tool, das Markdown konvertiert und validiert, um die beste Chunking-Strategie für RAG-Pipelines zu wählen. Es unterstützt verschiedene Chunking-Algorithmen und Textsplitters.
Warum relevant: chunky ist besonders nützlich für die Vorbereitung von Dokumenten für RAG-Pipelines. Es bietet eine einfache und flexible Lösung, um die Dokumentenverarbeitung zu optimieren.
LightningRAG (7/10)
Repository: LightningRAG/LightningRAG
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: LightningRAG ist ein vollständiger Vue + Gin Starter, der ein dekoupliertes Frontend und Backend bietet. Es verfügt über integrierte, erweiterbare RAG-Funktionen, Wissensbasen, Vektorsuche und Integrationen mit verschiedenen LLM- und Vektorspeicheranbietern.
Warum relevant: LightningRAG ist eine umfassende Lösung für die Entwicklung von RAG-Anwendungen. Es ist besonders nützlich für Entwickler, die eine robuste und erweiterbare Basis für ihre Projekte benötigen.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 1/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 1/1 = 6/10
Was es macht: quarkus-docling vereinfacht die Dokumentenverarbeitung und unterstützt verschiedene Formate, einschließlich fortgeschrittener PDF-Verarbeitung. Es bietet nahtlose Integrationen in den gen-AI-Ökosystem.
Warum relevant: quarkus-docling ist eine nützliche Erweiterung für Quarkus, die die Dokumentenverarbeitung erleichtert. Es ist besonders relevant für Java-Entwickler, die eine robuste Lösung für die Dokumentenverarbeitung suchen.
Quelle: GitHub Search API