Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die aktuellsten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, insbesondere im Kontext von Retrieval-Augmented-Generation (RAG).

flexible-graphrag (9/10)

Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: Ein umfassendes RAG-System, das 15 Property Graph-Datenbanken, 4 RDF-Datenbanken und 10 Vektordatenbanken unterstützt. Es verarbeitet 13 Datenquellen (9 automatisch synchronisiert), baut automatisch Wissensgraphen, verwendet Ontologien und LLMs, und bietet Docling oder LlamaParse für Dokumentverarbeitung. Es unterstützt GraphRAG, RAG-only und Hybrid Search, sowie AI-Chat. Die Anwendung bietet TypeScript, React, Vue und Angular-Frontends sowie einen FastAPI-REST-Backend und einen MCP-Server.
Warum relevant: Dieses Projekt ist sehr innovativ und bietet eine breite Palette von Funktionen, die es zu einer umfassenden Lösung für RAG machen. Es ist selfhostbar und unterstützt eine Vielzahl von Datenbanken und Datenquellen.

RustyRAG (8/10)

Repository: RustyRAG/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: Ein production-grade RAG-API, gebaut in Rust, die Hybrid Search mit HNSW dichten Vektoren und BM25 sparsamen Matching, Cross-Encoder-Reranking und layout-aware Document Extraction via Docling unterstützt. Es erreicht 94.5% Genauigkeit auf dem Open RAG Bench und wird von Cerebras, Groq, Milvus und Jina AI unterstützt.
Warum relevant: RustyRAG ist eine leistungsstarke und effiziente Lösung für RAG, die besonders für produktionsschwere Anwendungen geeignet ist. Es ist selfhostbar und bietet hohe Genauigkeit.

chunky (7/10)

Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein Open-Source-Toolkit für RAG-Chunking, das Markdown, PDFs und andere Dokumentformate verarbeitet, Dokumente validiert, Chunking-Strategien visualisiert und optimiert, und die Ergebnisse für LLM-Anwendungen bereichert.
Warum relevant: Chunky ist ein nützliches Werkzeug für die Optimierung von RAG-Pipelines, insbesondere bei der Verarbeitung und Validierung von Dokumenten. Es ist selfhostbar und bietet eine Vielzahl von Funktionen zur Chunking-Optimierung.

quarkus-docling (6/10)

Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: Docling vereinfacht die Dokumentverarbeitung und unterstützt das Parsen verschiedener Formate, einschließlich fortgeschrittener PDF-Verarbeitung, und bietet nahtlose Integrationen mit dem gen AI-Ökosystem.
Warum relevant: Quarkus-Docling ist ein nützliches Werkzeug für die Dokumentverarbeitung und kann leicht in Java-Anwendungen integriert werden. Es ist selfhostbar und bietet eine gute Unterstützung für verschiedene Dokumentformate.

Quelle: GitHub Search API

👁 0 Aufrufe 👤 0 Leser