Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, wobei sie auf lokalen Systemen betrieben werden können und die Verwendung eigener Daten ermöglichen.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: NexusRAG ist ein hybrides RAG-System, das Vektorsuche, Wissensgraphen (LightRAG) und Cross-Encoder-Reranking kombiniert. Es verfügt über Docling-Dokumentverarbeitung, visuelle Intelligenz (Bild- und Tabellenbeschriftung), agentenbasierten Streaming-Chat und Inline-Zitate. Es wird von Gemini oder lokalen Ollama-Modellen unterstützt.
Warum relevant: NexusRAG bietet eine umfassende und innovative Lösung für die Dokumentverarbeitung und RAG-Pipelines, die lokal betrieben werden kann und die Verwendung eigener Daten ermöglicht.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: flexible-graphrag ist ein umfassendes RAG-System, das Python, LlamaIndex, LangChain und Docker Compose verwendet. Es unterstützt 8 PG-Graphen, 3 RDF-Graphen, 10 Vektordatenbanken, OpenSearch, Elasticsearch und Alfresco-Datenbanken. Es bietet 13 Datenquellen (9 automatische Synchronisierung), automatische Erstellung von Wissensgraphen, Ontologien, LLMs, Docling- oder LlamaParse-Dokumentverarbeitung, GraphRAG, RAG nur, Hybrid-Suche und AI-Chat. Es verfügt über TypeScript-React-, Vue- und Angular-Frontends sowie einen FastAPI-REST-Backend und einen MCP-Server.
Warum relevant: flexible-graphrag ist ein hochgradig flexibles und leistungsfähiges RAG-System, das lokal betrieben werden kann und eine Vielzahl von Datenquellen und Verarbeitungsmethoden unterstützt.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: LongParser ist ein privacy-first-Dokumentintelligenz-Engine, die PDFs, DOCX, PPTX, XLSX und CSV in AI-fähige Chunks für RAG-Pipelines umwandelt. Es bietet eine HITL-Überprüfung, 3-Layer-Memory-Chat und einen produktionstauglichen FastAPI-Server.
Warum relevant: LongParser ist eine robuste Lösung für die Dokumentverarbeitung, die Datenschutz und lokale Betriebbarkeit sicherstellt, was es zu einer vertrauenswürdigen Wahl für sensible Daten macht.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: chunky ist ein Tool, das Markdown konvertiert und validiert und die beste Chunking-Strategie für RAG-Pipelines auswählt. Es unterstützt Markdown, PDF-Verarbeitung, PDF-to-Markdown-Konvertierung und verschiedene Chunking-Methoden.
Warum relevant: chunky bietet eine flexible und benutzerfreundliche Lösung für die Dokumentverarbeitung und Chunking, die lokal betrieben werden kann und die Verwendung eigener Daten ermöglicht.
LightningRAG (6/10)
Repository: LightningRAG/LightningRAG
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: LightningRAG ist ein vollständiger Vue + Gin-Starter, der ein dekoupliertes Frontend und Backend bietet. Es verfügt über integrierte, erweiterbare RAG-Funktionen, Wissensbasen, Vektorsuche und Integrationen mit verschiedenen LLM- und Vektordatenbankanbietern.
Warum relevant: LightningRAG ist eine moderne und erweiterbare RAG-Lösung, die lokal betrieben werden kann und eine flexible Architektur für die Entwicklung von RAG-Anwendungen bietet.
Quelle: GitHub Search API