Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten und die Integration von Retrieval-Augmented-Generation-Flows.
RustyRAG (9/10)
Repository: RustyRAG/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: Ein production-grade RAG API, gebaut in Rust, mit Hybrid-Suche (HNSW dense vectors und BM25 sparse matching), Cross-Encoder-Reranking, layout-aware Document Extraction via Docling und 94.5% Accuracy auf Open RAG Bench. Unterstützt wird das Projekt durch Cerebras, Groq, Milvus und Jina AI.
Warum relevant: RustyRAG ist eine leistungsstarke und innovative Lösung, die sich durch ihre hohe Genauigkeit und die Unterstützung verschiedener Technologien auszeichnet. Es ist selbsthostbar und bietet eine robuste API für die Integration in bestehende Systeme.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: Ein flexibles RAG-System, das 15 Property Graphs, 4 RDF, 10 Vector, OpenSearch und Elasticsearch unterstützt. Es verarbeitet 13 Datenquellen (9 auto-sync), baut automatisch Knowledge Graphs, verwendet Ontologien und LLMs, und bietet Docling oder LlamaParse für Dokumentverarbeitung. Es verfügt über TypeScript React, Vue, Angular Frontends und einen FastAPI REST-Backend.
Warum relevant: flexible-graphrag ist ein umfassendes und vielseitiges RAG-System, das sich durch seine Flexibilität und die Unterstützung vieler Datenquellen und Datenbanken auszeichnet. Es ist selbsthostbar und bietet eine breite Palette von Funktionen für die Dokumentverarbeitung und -analyse.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein privacy-first Document Intelligence Engine, das PDFs, DOCX, PPTX, XLSX und CSV in AI-ready Chunks für RAG-Pipelines konvertiert. Es bietet eine HITL-Review-Funktion, 3-layer Memory Chat und einen production FastAPI-Server.
Warum relevant: LongParser ist eine datenschutzfreundliche Lösung, die eine breite Palette von Dokumentformaten unterstützt. Es ist selbsthostbar und bietet nützliche Funktionen wie HITL-Review und Memory Chat, die die Dokumentverarbeitung und -analyse verbessern.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 2/2 | Reife 1/1 = 7/10
Was es macht: Ein Tool, das Markdown konvertiert und validiert, um die beste Chunking-Strategie für RAG-Pipelines zu wählen. Es unterstützt verschiedene Chunking-Algorithmen und bietet eine semantische Chunking-Funktion.
Warum relevant: chunky ist ein innovatives Tool, das die Chunking-Strategie für RAG-Pipelines optimiert. Es ist selbsthostbar und bietet eine benutzerfreundliche Schnittstelle für die Validierung und Konvertierung von Markdown-Dokumenten.
Quelle: GitHub Search API