Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub entwickelt werden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die von PDFs bis hin zu Office-Dateien reichen.

flexible-graphrag (8/10)

Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 8/10
Was es macht: Ein umfassendes RAG-System, das 15 Property Graph-DBs, 4 RDF-DBs und 10 Vector-DBs unterstützt. Es verarbeitet 13 Datenquellen, baut automatisch Wissensgraphen auf, integriert Ontologien und bietet AI-Chat-Funktionen. Die Dokumentverarbeitung erfolgt mit Docling oder LlamaParse, und es unterstützt verschiedene Frontends (TypeScript React, Vue, Angular) sowie einen FastAPI-REST-Backend.
Warum relevant: Das Projekt ist hochgradig selfhostbar und bietet eine breite Palette von Funktionen, die es zu einer vielseitigen Lösung machen. Es ist ideal für Unternehmen, die ihre eigenen Daten lokal verwalten und verarbeiten möchten.

RustyRAG (7/10)

Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 7/10
Was es macht: Ein production-grade RAG-API, gebaut in Rust, die hybride Suche mit HNSW-dichten Vektoren und BM25-sparse Matching unterstützt. Es verfügt über Cross-Encoder-Reranking, layout-aware Document Extraction via Docling und erreicht 94.5% Genauigkeit auf dem Open RAG Bench. Die Technologie wird von Cerebras, Groq, Milvus und Jina AI unterstützt.
Warum relevant: RustyRAG ist eine leistungsstarke und innovative Lösung, die besonders für Unternehmen geeignet ist, die hohe Anforderungen an Performance und Genauigkeit haben. Es ist selfhostbar und bietet eine robuste API für die Integration in bestehende Systeme.

LongParser (6/10)

Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 6/10
Was es macht: Ein privacy-first Document Intelligence Engine, das PDFs, DOCX, PPTX, XLSX und CSV-Dateien in AI-ready Chunks für RAG-Pipelines verarbeitet. Es bietet eine HITL-Review-Funktion, 3-layer Memory Chat und einen production FastAPI-Server.
Warum relevant: LongParser ist eine umfassende Lösung für die Verarbeitung und Analyse von Dokumenten, die den Schutz der Privatsphäre im Vordergrund stellt. Es ist selfhostbar und bietet eine breite Palette von Funktionen, die es zu einer vielseitigen Wahl machen.

chunky (6/10)

Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 1/1 = 6/10
Was es macht: Ein Tool zur Konvertierung und Validierung von Markdown-Dokumenten, das die beste Chunking-Strategie für RAG-Pipelines wählt. Es unterstützt die Verarbeitung von Markdown, PDFs und anderen Textformaten.
Warum relevant: chunky ist eine nützliche Ergänzung für RAG-Pipelines, die speziell auf die Validierung und Optimierung von Dokumenten-Chunks abzielt. Es ist leicht zu integrieren und bietet eine gute Grundlage für die Verbesserung der RAG-Performance.

Quelle: GitHub Search API

👁 0 Aufrufe 👤 0 Leser