Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten und sind für Selfhosting geeignet.

flexible-graphrag (8/10)

Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: Ein flexibles RAG-System, das verschiedene Graph- und Vektordatenbanken unterstützt, einschließlich Property Graphs, RDF, und Vektordatenbanken wie OpenSearch und Elasticsearch. Es verarbeitet 13 Datenquellen, baut automatisch Wissensgraphen und bietet AI-Chat-Funktionalitäten.
Warum relevant: Das Projekt ist hochgradig anpassbar und bietet eine breite Palette von Datenquellen und Datenbanken. Es ist selbstgehostet und kann mit verschiedenen LLMs und Dokumentverarbeitungstools wie Docling oder LlamaParse verwendet werden.

RustyRAG (7/10)

Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein production-grade RAG-API, gebaut in Rust, die hybride Suche mit HNSW-Vektoren und BM25-sparse Matching unterstützt. Es verfügt über eine hohe Genauigkeit von 94.5% auf dem Open RAG Bench und nutzt Technologien wie Cerebras, Groq, Milvus und Jina AI.
Warum relevant: RustyRAG ist eine leistungsstarke und skalierbare Lösung, die für die Produktion optimiert ist. Es ist selbstgehostet und bietet eine hohe Genauigkeit in der Dokumentverarbeitung und Suchfunktion.

LongParser (7/10)

Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein privacy-first Document Intelligence Engine, das PDFs, DOCX, PPTX, XLSX und CSV-Dateien in AI-fähige Chunks aufteilt. Es unterstützt HITL-Review, 3-layer Memory Chat und verfügt über einen production-ready FastAPI-Server.
Warum relevant: LongParser ist eine umfassende Lösung für die Verarbeitung und Analyse von Dokumenten, die den Schutz der Privatsphäre im Vordergrund stellt. Es ist selbstgehostet und bietet eine breite Palette von Funktionen für die Dokumentverarbeitung.

chunky (7/10)

Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein Tool zur Konvertierung und Validierung von Markdown-Dokumenten, das die beste Chunking-Strategie für RAG-Pipelines auswählt. Es unterstützt verschiedene Dokumentformate und bietet eine benutzerfreundliche Oberfläche.
Warum relevant: Chunky ist ein nützliches Werkzeug für die Vorbereitung von Dokumenten für RAG-Pipelines. Es ist selbstgehostet und bietet eine intuitive Benutzeroberfläche, die die Chunking-Prozesse vereinfacht.

Quelle: GitHub Search API

👁 0 Aufrufe 👤 0 Leser