Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten Entwicklungen im Bereich RAG-Systeme und Parser-Pipelines vor. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und dabei die Datenschutzbedenken der Nutzer berücksichtigen.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: NexusRAG ist ein hybrides RAG-System, das Vektorsuche, Wissensgraphen (LightRAG) und Cross-Encoder-Reranking kombiniert. Es verfügt über Docling-Dokumentverarbeitung, visuelle Intelligenz (Bild- und Tabellenbeschriftung), agentenbasierten Streaming-Chat und Inline-Zitate. Es wird von Gemini oder lokalen Ollama-Modellen unterstützt.
Warum relevant: NexusRAG ist ein umfassendes und innovatives System, das sowohl die RAG-Pipeline als auch die Dokumentverarbeitung abdeckt. Es ist lokal betriebsfähig und bietet eine hohe Anpassungsfähigkeit.
RustyRAG (8/10)
Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: RustyRAG ist ein RAG-API, das in Rust entwickelt wurde. Es kombiniert HNSW-dichte Vektoren und BM25-sparse Matching mit Cross-Encoder-Reranking und layoutbewusster Dokumentextraktion via Docling. Es erreicht 94.5% Genauigkeit auf der Open RAG Bench und wird von Cerebras, Groq, Milvus und Jina AI unterstützt.
Warum relevant: RustyRAG ist ein leistungsstarkes und produktionstaugliches RAG-System, das lokal betrieben werden kann. Es bietet eine hohe Genauigkeit und ist gut für die Verarbeitung komplexer Dokumente geeignet.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: LongParser ist ein datenschutzfreundliches Dokumentenintelligenz-Engine, das PDFs, DOCX, PPTX, XLSX und CSV in AI-fähige Chunks für RAG-Pipelines umwandelt. Es verfügt über eine HITL-Überprüfung, einen 3-Lagen-Speicher-Chat und einen produktionstauglichen FastAPI-Server.
Warum relevant: LongParser ist ein umfassendes Tool zur Dokumentverarbeitung, das lokal betrieben werden kann und eine hohe Anpassungsfähigkeit bietet. Es ist besonders für Unternehmen geeignet, die den Datenschutz ihrer Daten priorisieren.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: chunky ist ein Tool zur Konvertierung und Validierung von Markdown und zur Auswahl der besten Chunking-Strategie für RAG-Pipelines. Es unterstützt verschiedene Dokumentformate und bietet eine flexible Chunking-Logik.
Warum relevant: chunky ist ein nützliches Tool für die Vorbereitung von Dokumenten für RAG-Pipelines. Es ist lokal betriebsfähig und bietet eine hohe Anpassungsfähigkeit.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: quarkus-docling vereinfacht die Dokumentverarbeitung und unterstützt verschiedene Formate, einschließlich erweiterten PDF-Verständnisses. Es bietet nahtlose Integrationen mit dem gen AI-Ökosystem.
Warum relevant: quarkus-docling ist ein nützliches Tool für die Dokumentverarbeitung, das lokal betrieben werden kann und gut in bestehende Java-Anwendungen integriert werden kann.
Quelle: GitHub Search API