Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die von PDFs bis hin zu komplexen Datenformaten reichen.

flexible-graphrag (9/10)

Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: Ein umfassendes RAG-System, das 13 verschiedene Datenquellen unterstützt, darunter 15 Property Graphs, 4 RDFs und 10 Vektordatenbanken. Es bietet automatische Synchronisierung, automatisches Erstellen von Wissensgraphen, Ontologien, LLMs und Docling- oder LlamaParse-Dokumentverarbeitung. Die Anwendung ist in Python und Docker Compose geschrieben und verfügt über TypeScript React, Vue und Angular-Frontends sowie einen FastAPI-REST-Backend.
Warum relevant: Dieses Projekt ist besonders relevant für Entwickler, die ein flexibles und leistungsfähiges RAG-System suchen, das lokal betrieben werden kann und eine Vielzahl von Datenquellen unterstützt.

RustyRAG (8/10)

Repository: RustyRAG/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: Ein hochgradig optimiertes RAG-API-System, das in Rust entwickelt wurde. Es kombiniert HNSW-dichte Vektoren und BM25-sparse Matching mit Cross-Encoder-Reranking und layoutbewusster Dokumentextraktion via Docling. Das System erreicht eine Genauigkeit von 94.5% auf der Open RAG Bench und wird von Cerebras, Groq, Milvus und Jina AI unterstützt.
Warum relevant: RustyRAG ist eine leistungsstarke Option für Entwickler, die eine hochgradig optimierte und skalierbare RAG-Lösung suchen, die lokal betrieben werden kann.

LongParser (7/10)

Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 0/2 | Reife 0/1 = 7/10
Was es macht: Ein Datenschutz-freundliches Dokumentenintelligenz-Engine, das PDFs, DOCX, PPTX, XLSX und CSV-Dateien in AI-fähige Chunks für RAG-Pipelines konvertiert. Es bietet eine HITL-Überprüfung, eine dreischichtige Chat-Memory und einen produktionsfähigen FastAPI-Server.
Warum relevant: LongParser ist besonders relevant für Unternehmen, die eine robuste und datenschutzfreundliche Lösung für die Verarbeitung und Analyse von Dokumenten benötigen, die lokal betrieben werden kann.

chunky (7/10)

Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 0/2 | Reife 0/1 = 7/10
Was es macht: Ein Open-Source-Toolkit für RAG-Chunking, das Markdown-Dokumente konvertiert, validiert, visualisiert und optimiert. Es unterstützt die Erstellung von Chunks für LLM-Anwendungen und bietet Werkzeuge zur Verbesserung der Chunking-Strategien.
Warum relevant: chunky ist besonders nützlich für Entwickler, die ein flexibles und benutzerfreundliches Toolkit für die Verarbeitung und Optimierung von Dokumenten-Chunks benötigen, das lokal betrieben werden kann.

quarkus-docling (6/10)

Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: Ein Quarkus-Extension, das die Verarbeitung und Analyse von Dokumenten vereinfacht. Es unterstützt verschiedene Formate, darunter PDFs, und bietet nahtlose Integrationen in den gen-AI-Ökosystem.
Warum relevant: quarkus-docling ist besonders relevant für Entwickler, die eine Java-basierte Lösung für die Dokumentenverarbeitung suchen, die in Quarkus-Anwendungen integriert werden kann.

Quelle: GitHub Search API

👁 0 Aufrufe 👤 0 Leser