Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und dabei die Datenschutzbedenken der Nutzer berücksichtigen.
RustyRAG (9/10)
Repository: RustyRAG/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: Ein production-grade RAG API, gebaut in Rust, mit Hybrid-Suche (HNSW dense vectors und BM25 sparse matching), Cross-Encoder-Reranking, layout-aware Document Extraction via Docling und 94.5% Accuracy auf dem Open RAG Bench. Unterstützt wird das Projekt von Cerebras, Groq, Milvus und Jina AI.
Warum relevant: RustyRAG ist eine leistungsstarke und innovative Lösung, die lokal betrieben werden kann und eine hohe Genauigkeit bietet. Es ist besonders geeignet für Unternehmen, die hohe Anforderungen an die Performance und Skalierbarkeit haben.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: Ein flexibles RAG-System, das 15 Property Graphs, 4 RDFs und 10 Vector-Datenbanken unterstützt. Es verarbeitet 13 Datenquellen (9 auto-sync), baut automatisch Knowledge Graphs, verwendet Ontologien, LLMs und Docling oder LlamaParse für die Dokumentverarbeitung. Es bietet auch GraphRAG, RAG-only und Hybrid Search sowie AI-Chat-Funktionalitäten. Die Frontends sind in TypeScript React, Vue und Angular, der Backend in FastAPI und MCP Server.
Warum relevant: Flexible-graphrag ist ein umfassendes und vielseitiges RAG-System, das lokal betrieben werden kann und eine breite Palette von Datenquellen und Datenbanken unterstützt. Es ist besonders geeignet für komplexe Anwendungen, die eine hohe Anpassungsfähigkeit erfordern.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein privacy-first Document Intelligence Engine, das PDFs, DOCX, PPTX, XLSX und CSV in AI-ready Chunks für RAG-Pipelines konvertiert. Es enthält auch eine HITL-Review-Funktion, einen 3-layer Memory Chat und einen production FastAPI Server.
Warum relevant: LongParser ist eine datenschutzfreundliche Lösung, die eine breite Palette von Dokumentformaten unterstützt und lokal betrieben werden kann. Es ist besonders geeignet für Unternehmen, die eine hohe Anforderung an Datenschutz und Anpassungsfähigkeit haben.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein Open-Source-Toolkit für RAG-Chunking, das Markdown, Dokumentvalidierung, Visualisierung und Optimierung von Chunking-Strategien sowie die Bereicherung von Ergebnissen für LLM-Anwendungen unterstützt.
Warum relevant: Chunky ist ein flexibles Toolkit, das die Chunking-Strategien für RAG-Pipelines optimieren kann. Es ist besonders nützlich für Entwickler, die tief in die Chunking-Logik einsteigen möchten und lokale Betriebbarkeit benötigen.
Quelle: GitHub Search API