Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und dabei die Datenschutzbedenken der Nutzer berücksichtigen.
RustyRAG (9/10)
Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: RustyRAG ist ein hochgradig optimiertes RAG-API-System, das in Rust entwickelt wurde. Es kombiniert HNSW-Vektoren und BM25-sparse-Matching mit cross-encoder-Reranking und layout-aware-Dokumentextraktion. Das System erreicht eine Genauigkeit von 94,5% auf dem Open RAG Bench.
Warum relevant: RustyRAG ist ein leistungsstarkes und innovatives System, das lokal betrieben werden kann. Es nutzt moderne Technologien wie Cerebras, Groq und Milvus, um eine effiziente und genaue Dokumentverarbeitung zu gewährleisten.
LongParser (8/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: LongParser ist eine Datenschutz-freundliche Dokumentenintelligenz-Engine, die PDFs, DOCX, PPTX, XLSX und CSV-Dateien in AI-fähige Chunks für RAG-Pipelines konvertiert. Es bietet eine HITL-Überprüfung, eine dreischichtige Chat-Memory und einen produktionstauglichen FastAPI-Server.
Warum relevant: LongParser ist ein umfassendes System, das lokal betrieben werden kann und eine breite Palette von Dokumentformaten unterstützt. Es ist besonders nützlich für Unternehmen, die ihre eigenen Daten verarbeiten und schützen möchten.
chunky (8/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 8/10
Was es macht: chunky ist ein Tool, das Markdown-Dokumente konvertiert und validiert, um die beste Chunking-Strategie für RAG-Pipelines zu wählen. Es unterstützt verschiedene Chunking-Algorithmen und bietet eine benutzerfreundliche Schnittstelle.
Warum relevant: chunky ist ein innovatives Tool, das die Vorbereitung von Dokumenten für RAG-Pipelines vereinfacht. Es ist lokal betreibbar und bietet eine hohe Flexibilität bei der Wahl der Chunking-Strategie.
quarkus-docling (7/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: quarkus-docling ist eine Quarkus-Erweiterung, die die Verarbeitung und Analyse von Dokumenten vereinfacht. Es unterstützt verschiedene Dokumentformate und bietet nahtlose Integrationen in das gen-AI-Ökosystem.
Warum relevant: quarkus-docling ist ein nützliches Tool für Entwickler, die mit Quarkus arbeiten und eine robuste Dokumentenverarbeitung in ihre Anwendungen integrieren möchten. Es ist lokal betreibbar und bietet eine gute Unterstützung für verschiedene Dokumentformate.
Quelle: GitHub Search API