Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten Entwicklungen im Bereich RAG-Systeme und Parser-Pipelines vor. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und dabei die Datenschutzbedenken der Nutzer berücksichtigen.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 9/10
Was es macht: NexusRAG ist ein hybrides RAG-System, das Vektorsuche, Knowledge Graph (LightRAG) und Cross-Encoder-Reranking kombiniert. Es verarbeitet Dokumente mit Docling, bietet visuelle Intelligenz (Bild- und Tabellenbeschriftung), agenzieligen Streaming-Chat und Inline-Zitate. Es wird von Gemini oder lokalen Ollama-Modellen unterstützt.
Warum relevant: NexusRAG ist ein hochinnovatives Projekt, das eine breite Palette von Funktionen in einer lokal betriebbaren Lösung vereint. Es ist besonders geeignet für Nutzer, die umfassende Dokumentenverarbeitung und erweiterte RAG-Funktionen benötigen.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: flexible-graphrag ist ein umfassendes RAG-System, das Python, LlamaIndex und LangChain verwendet. Es unterstützt 8 PG-Graphen, 3 RDF-Graphen, 10 Vektordatenbanken, OpenSearch, Elasticsearch und Alfresco-DBs. Es bietet 13 Datenquellen (9 automatische Synchronisation), automatische KG-Bildung, Ontologien, LLMs, Docling- oder LlamaParse-Dokumentverarbeitung, GraphRAG, RAG-only, Hybrid-Suche und AI-Chat. Es verfügt über TypeScript-React-, Vue- und Angular-Frontends sowie einen FastAPI-REST-Backend und einen MCP-Server.
Warum relevant: Dieses Projekt ist besonders relevant für Nutzer, die eine flexible und erweiterbare RAG-Lösung benötigen, die lokal betrieben werden kann und eine Vielzahl von Datenquellen und -banken unterstützt.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: LongParser ist ein privacy-first Document Intelligence Engine, das PDFs, DOCX, PPTX, XLSX und CSV in AI-fähige Chunks für RAG-Pipelines umwandelt. Es bietet eine HITL-Überprüfung, 3-Layer-Memory-Chat und einen produktionstauglichen FastAPI-Server.
Warum relevant: LongParser ist eine robuste Lösung für die Verarbeitung und Analyse von Dokumenten, die den Datenschutz der Nutzer im Vordergrund stellt. Es ist besonders geeignet für Unternehmen, die eine lokale und kontrollierte Verarbeitung ihrer Dokumente benötigen.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: chunky ist ein Tool, das Markdown konvertiert und validiert, um die beste Chunking-Strategie für RAG-Pipelines zu wählen. Es unterstützt die Verarbeitung von Markdown, PDFs und anderen Dokumentformaten.
Warum relevant: chunky ist eine nützliche Ergänzung für RAG-Pipelines, die eine präzise und effiziente Chunking-Strategie benötigen. Es ist besonders geeignet für Nutzer, die eine hohe Kontrolle über die Verarbeitung ihrer Dokumente haben möchten.
LightningRAG (7/10)
Repository: LightningRAG/LightningRAG
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: LightningRAG ist ein vollständiger Vue + Gin Starter, der eine dekupierte Frontend- und Backend-Architektur bietet. Es verfügt über integrierte, erweiterbare RAG-Funktionen, einschließlich Knowledge Bases, Vektorsuche und Integrationen mit verschiedenen LLM- und Vektordatenbank-Anbietern.
Warum relevant: LightningRAG ist eine umfassende und erweiterbare RAG-Lösung, die sowohl für Entwickler als auch für Unternehmen geeignet ist, die eine robuste und flexible RAG-Infrastruktur benötigen.
Quelle: GitHub Search API