Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten und sind für Selfhosting geeignet.

flexible-graphrag (9/10)

Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 9/10
Was es macht: Ein flexibles RAG-System, das 15 Property Graph-, 4 RDF- und 10 Vector-Datenbanken unterstützt. Es verarbeitet 13 Datenquellen (9 automatisch synchronisiert), baut automatisch Wissensgraphen, verwendet Ontologien und LLMs, und bietet GraphRAG, RAG-only und Hybrid Search. Es verfügt über TypeScript, React, Vue und Angular-Frontends sowie einen FastAPI-REST-Backend und MCP-Server.
Warum relevant: Dieses Projekt ist hochgradig modular und erweiterbar, unterstützt eine Vielzahl von Datenbanken und Datenquellen und ist für Selfhosting optimiert. Es bietet eine umfassende Lösung für komplexe RAG-Anwendungen.

RustyRAG (8/10)

Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 8/10
Was es macht: Ein production-grade RAG-API, gebaut in Rust. Es verwendet HNSW-dichte Vektoren und BM25-sparse Matching, cross-encoder reranking, layout-aware Dokumentextraktion via Docling und erreicht 94.5% Genauigkeit auf der Open RAG Bench. Es wird von Cerebras, Groq, Milvus und Jina AI unterstützt.
Warum relevant: RustyRAG ist eine leistungsstarke und effiziente Lösung, die auf der neuesten Forschung basiert und für die Produktion optimiert ist. Es ist selbstgehostet und bietet hohe Genauigkeit und Skalierbarkeit.

LongParser (7/10)

Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: Ein privacy-first Dokumentenintelligenz-Engine, die PDFs, DOCX, PPTX, XLSX und CSV in AI-fähige Chunks für RAG-Pipelines konvertiert. Es bietet HITL-Review, 3-Layer-Memory-Chat und einen production-FastAPI-Server.
Warum relevant: LongParser ist eine umfassende Lösung für die Verarbeitung verschiedener Dokumentformate und bietet eine robuste RAG-Pipeline. Es ist für Selfhosting optimiert und bietet eine hohe Datenschutzstandards.

chunky (7/10)

Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: Ein Tool, um Markdown zu konvertieren und zu validieren, und die beste Chunking-Strategie für RAG-Pipelines zu wählen. Es unterstützt verschiedene Dokumentformate und bietet eine benutzerfreundliche Oberfläche.
Warum relevant: chunky ist ein nützliches Werkzeug für die Vorbereitung von Dokumenten für RAG-Pipelines. Es ist leicht zu verwenden und bietet Flexibilität bei der Wahl der Chunking-Strategie.

quarkus-docling (6/10)

Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: Docling vereinfacht die Dokumentverarbeitung und unterstützt verschiedene Formate, einschließlich erweiterten PDF-Verständnisses. Es bietet nahtlose Integrationen in das gen-AI-Ökosystem.
Warum relevant: quarkus-docling ist eine robuste Lösung für die Dokumentverarbeitung und bietet eine einfache Integration in bestehende Systeme. Es ist für Selfhosting geeignet und unterstützt eine Vielzahl von Dokumentformaten.

Quelle: GitHub Search API

👁 1 Aufrufe 👤 2 Leser