Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In den folgenden Projekten finden Sie innovative Lösungen für Retrieval-Augmented-Generation (RAG) und Dokumentverarbeitung. Diese Projekte bieten verschiedene Ansätze, um Dokumente zu verarbeiten, in Chunks zu teilen, Embeddings zu erstellen und Antworten über LLMs zu generieren. Besonders hervorzuheben sind die Selfhosting-Möglichkeiten und die Unterstützung vielfältiger Dokumentformate.
flexible-graphrag (9/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 9/10
Was es macht: Ein flexibles RAG-System, das 13 Datenquellen (9 automatisch synchronisierend) unterstützt, Knowledge Graphs automatisch baut, Ontologien erstellt und LLMs nutzt. Es bietet eine Vielzahl von Datenbanken wie Property Graph, RDF, Vector, OpenSearch und Elasticsearch. Die Anwendung verfügt über TypeScript React, Vue und Angular Frontends sowie einen FastAPI REST-Backend.
Warum relevant: Das Projekt ist hochgradig selfhostbar und ermöglicht es, eigene Daten in verschiedenen Formaten zu verarbeiten und zu integrieren. Es nutzt moderne Technologien und ist sehr innovativ in seiner Anwendung von RAG und Knowledge Graphs.
RustyRAG (8/10)
Repository: RustyRAG/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: Ein production-grade RAG-API, gebaut in Rust, mit Hybrid-Suche (HNSW dense vectors und BM25 sparse matching), cross-encoder reranking und layout-aware document extraction via Docling. Es erreicht 94.5% Genauigkeit auf dem Open RAG Bench und wird von Cerebras, Groq, Milvus und Jina AI unterstützt.
Warum relevant: RustyRAG ist eine leistungsstarke und effiziente Lösung, die sich durch ihre hohe Genauigkeit und die Verwendung moderner Technologien auszeichnet. Es ist selfhostbar und unterstützt eine Vielzahl von Dokumentformaten.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: Ein privacy-first document intelligence engine, das PDFs, DOCX, PPTX, XLSX und CSV in AI-ready Chunks für RAG-Pipelines konvertiert. Es bietet HITL-Review, 3-layer memory chat und einen production FastAPI-Server.
Warum relevant: LongParser ist eine umfassende Lösung für die Verarbeitung und Analyse von Dokumenten, die den Schutz der Privatsphäre im Vordergrund stellt. Es ist selfhostbar und unterstützt eine Vielzahl von Dokumentformaten.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: Ein Open-Source-Toolkit für RAG-Chunking, das Markdown-Dokumente konvertiert, validiert, visualisiert und optimiert. Es bereichert die Ergebnisse für LLM-Anwendungen.
Warum relevant: chunky ist ein nützliches Werkzeug für die Chunking-Strategie in RAG-Pipelines. Es ist selfhostbar und unterstützt Markdown-Dokumente, was es zu einer wertvollen Ergänzung für bestehende RAG-Systeme macht.
quarkus-docling (5/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 1/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 1/1 = 5/10
Was es macht: Docling vereinfacht die Dokumentverarbeitung und unterstützt verschiedene Formate, einschließlich fortgeschrittener PDF-Verarbeitung. Es bietet nahtlose Integrationen mit dem gen AI-Ökosystem.
Warum relevant: quarkus-docling ist eine nützliche Erweiterung für Quarkus, die die Dokumentverarbeitung erleichtert. Es ist selfhostbar und integriert sich gut in bestehende Java-Anwendungen.
Quelle: GitHub Search API