Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die aktuellsten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub zu finden sind. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, wobei sie oft auf lokalen Systemen betrieben werden können.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: NexusRAG ist ein hybrides RAG-System, das Vektorsuche, Wissensgraphen (LightRAG) und Cross-Encoder-Reranking kombiniert. Es verarbeitet Dokumente mit Docling, bietet visuelle Intelligenz (Bild- und Tabellenbeschriftung), agenziel Streaming-Chat und Inline-Zitate. Es wird von Gemini oder lokalen Ollama-Modellen unterstützt.
Warum relevant: NexusRAG ist ein innovatives System, das eine Vielzahl von Funktionen in einer selbstgehosteten Umgebung vereint, was es ideal für Unternehmen und Entwickler macht, die ihre Daten lokal verwalten möchten.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: flexible-graphrag ist ein umfassendes RAG-System, das Python, LlamaIndex und LangChain verwendet. Es unterstützt 8 PG-Graphen, 3 RDF-Graphen, 10 Vektordatenbanken, OpenSearch, Elasticsearch und Alfresco-Datenbanken. Es bietet automatische Synchronisierung von 13 Datenquellen, automatische Erstellung von Wissensgraphen, Ontologien, LLMs und Dokumentverarbeitung mit Docling oder LlamaParse. Es verfügt über TypeScript-React, Vue und Angular-Frontends sowie einen FastAPI-REST-Backend und einen MCP-Server.
Warum relevant: Dieses Projekt ist besonders relevant, da es eine breite Palette von Datenquellen und Datenbanken unterstützt und eine flexible Architektur bietet, die sich leicht anpassen lässt.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: LongParser ist ein privacy-first Dokumentenintelligenz-Engine, die PDFs, DOCX, PPTX, XLSX und CSV-Dateien in AI-fähige Chunks für RAG-Pipelines umwandelt. Es bietet eine HITL-Überprüfung, 3-Layer-Memory-Chat und einen produktionstauglichen FastAPI-Server.
Warum relevant: LongParser ist besonders relevant für Unternehmen, die Datenschutz und Datensouveränität priorisieren, da es eine umfassende Dokumentenverarbeitung und -analyse in einer selbstgehosteten Umgebung ermöglicht.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: chunky ist ein Tool, das Markdown-Dokumente konvertiert und validiert, um die beste Chunking-Strategie für RAG-Pipelines zu ermitteln. Es unterstützt verschiedene Chunking-Algorithmen und bietet eine semantische Chunking-Funktion.
Warum relevant: chunky ist besonders nützlich für Entwickler, die eine präzise und effiziente Chunking-Strategie für ihre RAG-Pipelines benötigen, um die Genauigkeit und Effizienz der Dokumentenverarbeitung zu verbessern.
LightningRAG (7/10)
Repository: LightningRAG/LightningRAG
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: LightningRAG ist ein vollständiger Vue + Gin-Stack mit einem dekouplierten Frontend und Backend. Es bietet integrierte, erweiterbare RAG-Funktionen, einschließlich Wissensbasen, Vektorsuche und Integrationen mit verschiedenen LLM- und Vektordatenbank-Anbietern.
Warum relevant: LightningRAG ist besonders relevant für Entwickler, die eine moderne, erweiterbare Architektur für RAG-Anwendungen suchen, die leicht zu integrieren und zu erweitern ist.
Quelle: GitHub Search API