Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, oft in Kombination mit lokalen Betriebsmöglichkeiten und fortschrittlichen RAG-Techniken.

flexible-graphrag (9/10)

Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 9/10
Was es macht: Ein umfassendes RAG-System, das 13 Datenquellen unterstützt, darunter 15 Property Graph-DBs, 4 RDF-DBs und 10 Vektordatenbanken. Es bietet automatische Synchronisierung, Wissensgraphen, Ontologien, LLMs und verschiedene Frontends.
Warum relevant: Die Vielfalt der unterstützten Datenquellen und die Flexibilität in der Verarbeitung machen dieses Projekt zu einer hervorragenden Wahl für fortgeschrittene RAG-Anwendungen. Es ist selbstgehostet und kann lokal betrieben werden, was die Datensouveränität erhöht.

RustyRAG (8/10)

Repository: RustyRAG/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: Ein hochgradig optimiertes RAG-API-System in Rust, das hybride Suche mit HNSW-Vektoren und BM25-Sparse-Matching unterstützt. Es bietet layoutbewusste Dokumentenextraktion und eine hohe Genauigkeit auf dem Open RAG Bench.
Warum relevant: Die Performance-Optimierung und die Unterstützung verschiedener Vektordatenbanken machen RustyRAG zu einer robusten Wahl für produktionstaugliche RAG-Anwendungen. Es ist selbstgehostet und kann lokal betrieben werden, was die Datensicherheit erhöht.

LongParser (7/10)

Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein Datenschutz-freundliches Dokumentenintelligenz-Engine, das PDFs, DOCX, PPTX, XLSX und CSV in AI-fähige Chunks umwandelt. Es bietet eine HITL-Überprüfung, 3-Lagen-Speicher-Chat und einen produktionstauglichen FastAPI-Server.
Warum relevant: Die Unterstützung vielfältiger Dokumentformate und die integrierte HITL-Überprüfung machen LongParser zu einer nützlichen Wahl für Unternehmen, die eine hohe Datensicherheit und -integrität benötigen. Es ist selbstgehostet und kann lokal betrieben werden.

chunky (7/10)

Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: Ein Open-Source-Toolkit für RAG-Chunking, das Markdown-Dokumente konvertiert, validiert und optimiert. Es unterstützt die Visualisierung und Optimierung von Chunking-Strategien für LLM-Anwendungen.
Warum relevant: Die Fähigkeit, Chunking-Strategien zu optimieren und zu visualisieren, macht chunky zu einem wertvollen Werkzeug für Entwickler, die RAG-Pipelines feinabstimmen möchten. Es ist selbstgehostet und kann lokal betrieben werden.

quarkus-docling (6/10)

Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 1/1 = 6/10
Was es macht: Ein Quarkus-Extension, das die Verarbeitung und Parsen von Dokumenten vereinfacht, insbesondere für fortgeschrittene PDF-Verarbeitung. Es bietet nahtlose Integrationen in das gen-AI-Ökosystem.
Warum relevant: Die Integration in das Quarkus-Framework und die Unterstützung fortgeschrittener PDF-Verarbeitung machen quarkus-docling zu einer nützlichen Erweiterung für Java-Entwickler, die RAG-Funktionen in ihre Anwendungen integrieren möchten. Es ist selbstgehostet, aber die Lokalität ist begrenzt.

Quelle: GitHub Search API

👁 1 Aufrufe 👤 1 Leser