Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten Entwicklungen im Bereich RAG (Retrieval-Augmented Generation) und Parser-Pipelines vor. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und dabei die volle Kontrolle über die eigenen Daten gewährleisten.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: NexusRAG ist ein hybrides RAG-System, das Vektorsuche, Wissensgraphen (LightRAG) und Cross-Encoder-Reranking kombiniert. Es verarbeitet Dokumente mit Docling, bietet visuelle Intelligenz (Bild- und Tabellenbeschriftung), agenztisches Streaming-Chat und inline-Zitate. Es wird von Gemini oder lokalen Ollama-Modellen unterstützt.
Warum relevant: NexusRAG ist ein umfassendes und innovatives System, das die volle Kontrolle über die eigenen Daten ermöglicht und eine breite Palette von Funktionen bietet.
RustyRAG (8/10)
Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: RustyRAG ist eine RAG-API in Rust, die hybride Suche mit HNSW-dichten Vektoren und BM25-sparse Matching, Cross-Encoder-Reranking und layoutbewusste Dokumentextraktion via Docling unterstützt. Es erreicht 94.5% Genauigkeit auf dem Open RAG Bench und wird von Cerebras, Groq, Milvus und Jina AI unterstützt.
Warum relevant: RustyRAG ist eine leistungsstarke und robuste Lösung, die die lokalen Betrieb und die Verarbeitung vielfältiger Dokumentformate ermöglicht.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: LongParser ist ein privacy-first Document Intelligence Engine, das PDFs, DOCX, PPTX, XLSX und CSV in AI-fähige Chunks für RAG-Pipelines umwandelt. Es umfasst HITL-Review, 3-Layer-Memory-Chat und einen produktionstauglichen FastAPI-Server.
Warum relevant: LongParser bietet eine umfassende Lösung für die Verarbeitung und Analyse von Dokumenten, die die Datenschutzbedenken berücksichtigt und lokal betrieben werden kann.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: chunky konvertiert und validiert Markdown und ermöglicht die Auswahl der besten Chunking-Strategie für RAG-Pipelines. Es unterstützt die Verarbeitung von Markdown, PDF und anderen Textformaten.
Warum relevant: chunky ist ein nützliches Werkzeug für die Vorbereitung von Dokumenten für RAG-Pipelines und bietet Flexibilität bei der Wahl der Chunking-Strategie.
LightningRAG (7/10)
Repository: LightningRAG/LightningRAG
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: LightningRAG ist ein vollständiger Vue + Gin Starter mit einem dekouplierten Frontend und Backend. Es bietet integrierte, erweiterbare RAG-Funktionen wie Wissensbasen, Vektorsuche und Integrationen mit verschiedenen LLM- und Vektorspeicheranbietern.
Warum relevant: LightningRAG ist eine umfassende und erweiterbare Lösung, die die Entwicklung von RAG-Anwendungen erleichtert und lokal betrieben werden kann.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: quarkus-docling vereinfacht die Dokumentverarbeitung und unterstützt das Parsen verschiedener Formate, einschließlich fortgeschrittener PDF-Verarbeitung. Es bietet nahtlose Integrationen in den genAI-Ökosystem.
Warum relevant: quarkus-docling ist ein nützliches Werkzeug für die Dokumentverarbeitung und kann in Java-Projekten leicht integriert werden.
Quelle: GitHub Search API