Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten Entwicklungen im Bereich RAG-Systeme und Parser-Pipelines vor. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, wobei sie oft auf Selfhosting und lokale Betriebsumgebungen abzielen.
self-hosted-ai-stack (9/10)
Repository: hwdsl2/self-hosted-ai-stack
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 9/10
Was es macht: Dieses Projekt ermöglicht es, eine vollständige, lokal betriebene AI-Stack mit Docker Compose zu bereitstellen. Es umfasst verschiedene Komponenten wie Ollama, LiteLLM, Whisper, Kokoro, Embeddings, Docling und MCP Gateway. Es unterstützt NVIDIA CUDA-Acceleration und ist multi-architektur-fähig.
Warum relevant: Die lokale Betriebsumgebung und die Unterstützung von Ollama und anderen LLMs machen dieses Projekt besonders relevant für Nutzer, die ihre Daten privat und lokal verwalten möchten.
transmutation (7/10)
Repository: hivellm/transmutation
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: Transmutation ist ein Rust-basiertes Modul zur Dokumentenkonvertierung, das verschiedene Dateiformate in optimierte Text- und Bildausgaben für LLM-Verarbeitung und Vektorembeddings umwandelt. Es nutzt Docling für fortgeschrittene Dokumentenverarbeitung.
Warum relevant: Die Unterstützung vieler Dokumentformate und die Integration in das HiveLLM-Ökosystem machen dieses Projekt zu einer wertvollen Ergänzung für RAG-Pipelines.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: Docling vereinfacht die Dokumentenverarbeitung und unterstützt verschiedene Formate, einschließlich fortgeschrittene PDF-Verarbeitung. Es bietet nahtlose Integrationen mit dem gen-AI-Ökosystem.
Warum relevant: Die Unterstützung vieler Dokumentformate und die Integration in Quarkus machen dieses Projekt interessant für Entwickler, die auf Java und Quarkus arbeiten.
Quelle: GitHub Search API