Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir eine Auswahl der aktuellsten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub zu finden sind. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten und sind in der Regel selbstgehostet nutzbar.
flexible-graphrag (9/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: `flexible-graphrag` ist ein umfassendes System, das verschiedene Datenquellen (darunter PDFs, Markdown, Office-Dokumente) verarbeitet und in Graphen und Vektordatenbanken integriert. Es unterstützt RAG-Workflows, Knowledge Graphs, und AI-Chat-Funktionen. Die Plattform ist in Python geschrieben und kann mit Docker Compose lokal betrieben werden.
Warum relevant: Dieses Projekt ist besonders relevant, da es eine breite Palette von Datenquellen und Datenbanken unterstützt und eine vollständige RAG-Pipeline bietet. Es ist selbstgehostet nutzbar und innovativ in seiner Kombination von verschiedenen Technologien.
self-hosted-ai-stack (8/10)
Repository: hwdsl2/self-hosted-ai-stack
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 8/10
Was es macht: `self-hosted-ai-stack` ist eine Docker-Compose-basierte Lösung, die eine vollständige AI-Stack bereitstellt, einschließlich Ollama, LiteLLM, Whisper, WhisperLive, Kokoro, Embeddings, Docling und MCP Gateway. Es ist lokal betreibbar, privatsphäre-freundlich und unterstützt NVIDIA CUDA-Acceleration.
Warum relevant: Dieses Projekt ist ideal für Entwickler und Organisationen, die eine selbstgehostete, leistungsstarke AI-Infrastruktur benötigen. Es bietet eine breite Palette von Tools und ist leicht zu bereitstellen.
transmutation (7/10)
Repository: hivellm/transmutation
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: `transmutation` ist ein Rust-basiertes Modul zur Dokumentenkonvertierung, das verschiedene Dateiformate in optimierte Text- und Bildausgaben umwandelt. Es unterstützt PDFs, Markdown, Office-Dokumente und mehr. Das Modul ist Teil des HiveLLM Vectorizer Ökosystems und nutzt Docling für fortgeschrittene Dokumentenverarbeitung.
Warum relevant: Dieses Projekt ist besonders nützlich für die Vorbereitung von Dokumenten für RAG-Workflows und LLM-Verarbeitung. Es ist selbstgehostet nutzbar und bietet eine robuste Lösung für die Dokumentenverarbeitung.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 1/1 = 6/10
Was es macht: `quarkus-docling` ist eine Quarkus-Erweiterung, die die Verarbeitung und Parsen von Dokumenten vereinfacht. Es unterstützt verschiedene Formate, darunter PDFs, Markdown und Office-Dokumente, und bietet nahtlose Integrationen in das gen-AI-Ökosystem.
Warum relevant: Dieses Projekt ist besonders relevant für Entwickler, die Quarkus verwenden und eine robuste Dokumentenverarbeitung in ihre Anwendungen integrieren möchten. Es ist selbstgehostet nutzbar und bietet eine gute Grundlage für RAG-Workflows.
Quelle: GitHub Search API