Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und dabei die Datenschutzbedenken der Nutzer berücksichtigen.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: NexusRAG ist ein hybrides RAG-System, das Vektorsuche, Wissensgraphen (LightRAG) und Cross-Encoder-Reranking kombiniert. Es verfügt über Docling-Dokumentverarbeitung, visuelle Intelligenz (Bild- und Tabellencaptioning), agentebasierten Streaming-Chat und inline Zitate. Es wird von Gemini oder lokalen Ollama-Modellen unterstützt.
Warum relevant: NexusRAG bietet eine umfassende Lösung für die Dokumentverarbeitung und RAG-Pipelines, die lokal betrieben werden kann. Es ist besonders innovativ durch die Kombination verschiedener Technologien und die Unterstützung von lokalen Modellen.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: flexible-graphrag ist ein flexibles RAG-System, das Python, LlamaIndex und LangChain verwendet. Es unterstützt 13 Datenquellen, automatische Synchronisierung, automatisches Erstellen von Wissensgraphen, Ontologien, LLMs und verschiedene Dokumentverarbeitungsmethoden. Es verfügt über TypeScript-React, Vue und Angular-Frontends sowie einen FastAPI-REST-Backend und einen MCP-Server.
Warum relevant: Dieses Projekt ist besonders relevant, da es eine breite Palette von Funktionen und Datenquellen unterstützt und lokal betrieben werden kann. Es ist gut dokumentiert und hat eine hohe Reife.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: LongParser ist ein privacy-first Dokumentenintelligenz-Engine, die PDFs, DOCX, PPTX, XLSX und CSV in AI-fähige Chunks für RAG-Pipelines konvertiert. Es verfügt über eine HITL-Überprüfung, 3-Layer-Memory-Chat und einen produktionsfähigen FastAPI-Server.
Warum relevant: LongParser ist eine robuste Lösung für die Dokumentverarbeitung, die den Datenschutz der Nutzer im Vordergrund stellt. Es ist lokal betreibbar und bietet eine Vielzahl von Funktionen.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: chunky ist ein Tool, das Markdown konvertiert und validiert, um die beste Chunking-Strategie für RAG-Pipelines zu wählen. Es unterstützt verschiedene Dokumentformate und bietet eine flexible Chunking-Logik.
Warum relevant: chunky ist besonders nützlich für Entwickler, die eine präzise Chunking-Strategie für ihre RAG-Pipelines benötigen. Es ist lokal betreibbar und bietet eine robuste Validierungsfunktion.
LightningRAG (7/10)
Repository: LightningRAG/LightningRAG
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: LightningRAG ist ein vollständiger Vue + Gin-Stack mit einem dekouplierten Frontend und Backend. Es verfügt über ein erweiterbares RAG-System, das Wissensbasen, Vektorsuche und Integrationen mit verschiedenen LLM- und Vektorspeicheranbietern unterstützt.
Warum relevant: LightningRAG bietet eine moderne, vollständige Lösung für RAG-Pipelines, die lokal betrieben werden kann. Es ist besonders relevant für Entwickler, die eine schnelle und flexible Implementierung benötigen.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: quarkus-docling vereinfacht die Dokumentverarbeitung und unterstützt verschiedene Formate, einschließlich erweiterten PDF-Verständnisses. Es bietet nahtlose Integrationen in das gen-AI-Ökosystem.
Warum relevant: quarkus-docling ist besonders relevant für Java-Entwickler, die eine robuste Dokumentverarbeitungslösung suchen, die lokal betrieben werden kann. Es ist einfach zu integrieren und bietet erweiterte PDF-Verarbeitungsfunktionen.
Quelle: GitHub Search API