Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten und sind für Selfhosting geeignet.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 8/10
Was es macht: Ein umfassendes RAG-System, das 15 Property Graph-DBs, 4 RDF-DBs und 10 Vector-DBs unterstützt. Es verarbeitet 13 Datenquellen (9 automatisch synchronisiert), baut automatisch Knowledge Graphs, verwendet Ontologien und LLMs, und bietet GraphRAG, RAG-only und Hybrid Search. Es verfügt über TypeScript, React, Vue und Angular-Frontends sowie einen FastAPI-REST-Backend.
Warum relevant: Dieses Projekt ist hochgradig selfhostbar und ermöglicht es, eigene Daten in verschiedenen Formaten zu verarbeiten und zu analysieren. Es nutzt moderne Technologien wie LlamaIndex und LangChain, die sich gut mit lokalen LLMs wie Ollama integrieren lassen.
RustyRAG (7/10)
Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 7/10
Was es macht: Ein production-grade RAG-API, gebaut in Rust, die Hybrid Search mit HNSW dense vectors und BM25 sparse matching sowie cross-encoder reranking unterstützt. Es verwendet layout-aware document extraction via Docling und erreicht 94.5% Accuracy auf Open RAG Bench. Es wird von Cerebras, Groq, Milvus und Jina AI unterstützt.
Warum relevant: RustyRAG ist ein leistungsstarkes und effizientes RAG-System, das sich gut für die Verarbeitung großer Datenmengen eignet. Es ist selfhostbar und nutzt moderne Technologien, die sich gut in bestehende Infrastrukturen integrieren lassen.
LongParser (6/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 6/10
Was es macht: Ein privacy-first document intelligence engine, das PDFs, DOCX, PPTX, XLSX und CSV in AI-ready chunks für RAG-Pipelines verarbeitet. Es enthält HITL-Review, 3-layer memory chat und einen production FastAPI-Server.
Warum relevant: LongParser ist ein umfassendes Tool zur Verarbeitung verschiedener Dokumentformate und bietet eine robuste RAG-Pipeline. Es ist selfhostbar und bietet eine hohe Datenschutzstandards, was es für sensible Daten besonders geeignet macht.
chunky (6/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 6/10
Was es macht: Ein Tool zur Konvertierung und Validierung von Markdown und zur Auswahl der besten Chunking-Strategie für RAG-Pipelines. Es unterstützt verschiedene Dokumentformate und bietet semantische Chunking-Methoden.
Warum relevant: chunky ist ein nützliches Werkzeug zur Vorbereitung von Dokumenten für RAG-Pipelines. Es ist selfhostbar und bietet eine flexible Chunking-Strategie, die sich an die spezifischen Anforderungen anpassen lässt.
Quelle: GitHub Search API