Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten Entwicklungen im Bereich RAG-Systeme und Parser-Pipelines vor. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, oft mit einem Fokus auf Selfhosting und die Nutzung lokaler Modelle.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 9/10
Was es macht: NexusRAG ist ein hybrides RAG-System, das Vektorsuche, Wissensgraphen (LightRAG) und Cross-Encoder-Reranking kombiniert. Es verarbeitet Dokumente mit Docling, unterstützt visuelle Intelligenz (Bild- und Tabellenbeschriftung), agenziellen Streaming-Chat und inline Zitate. Es wird von Gemini oder lokalen Ollama-Modellen angetrieben.
Warum relevant: NexusRAG ist ein innovatives und reifes Projekt, das eine breite Palette von Funktionen für die Dokumentverarbeitung und -analyse bietet. Es ist selbstgehostet und unterstützt lokale Modelle, was es besonders für Nutzer mit hohen Datenschutzanforderungen interessant macht.
RustyRAG (8/10)
Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: RustyRAG ist ein RAG-API-System, das in Rust entwickelt wurde. Es kombiniert HNSW-dichte Vektoren und BM25-sparse Matching, unterstützt Cross-Encoder-Reranking und layoutbewusste Dokumentextraktion mit Docling. Es erreicht 94,5% Genauigkeit auf der Open RAG Bench und wird von Cerebras, Groq, Milvus und Jina AI unterstützt.
Warum relevant: RustyRAG ist ein leistungsstarkes und reifes Projekt, das eine hohe Genauigkeit und Skalierbarkeit bietet. Es ist selbstgehostet und unterstützt verschiedene Technologien, was es für Produktionsumgebungen besonders geeignet macht.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: LongParser ist ein Datenschutz-fokussiertes Dokumentenintelligenz-Engine, das PDFs, DOCX, PPTX, XLSX und CSV in AI-fähige Chunks für RAG-Pipelines konvertiert. Es enthält eine HITL-Überprüfung, einen 3-Schichten-Speicher-Chat und einen FastAPI-Server.
Warum relevant: LongParser bietet eine umfassende Lösung für die Verarbeitung und Analyse von Dokumenten, mit einem Fokus auf Datenschutz und Benutzerinteraktion. Es ist selbstgehostet und unterstützt lokale Modelle, was es für Unternehmen mit hohen Sicherheitsanforderungen attraktiv macht.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 2/2 | Reife 1/1 = 7/10
Was es macht: chunky ist ein Tool, das Markdown konvertiert und validiert, um die beste Chunking-Strategie für RAG-Pipelines zu wählen. Es unterstützt verschiedene Dokumentformate und bietet eine flexible Chunking-Algorithmus-Selektion.
Warum relevant: chunky ist ein innovatives Projekt, das die Chunking-Phase von RAG-Pipelines optimiert. Es ist leicht zu integrieren und unterstützt lokale Modelle, was es für Entwickler und Unternehmen mit spezifischen Anforderungen nützlich macht.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 1/1 = 6/10
Was es macht: quarkus-docling vereinfacht die Dokumentverarbeitung und unterstützt das Parsen verschiedener Formate, einschließlich erweiterter PDF-Verarbeitung. Es bietet nahtlose Integrationen mit dem gen AI-Ökosystem.
Warum relevant: quarkus-docling ist ein nützliches Tool für die Dokumentverarbeitung, das gut in Java-basierte Systeme integriert werden kann. Es ist selbstgehostet und unterstützt lokale Modelle, was es für Unternehmen mit Java-Stacks interessant macht.
Quelle: GitHub Search API