Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten Entwicklungen im Bereich RAG-Systeme und Parser-Pipelines vor. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und dabei die Privatsphäre der Nutzer gewährleisten.
Chunky (8/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: Chunky ist ein Open-Source-Toolkit, das zuverlässige RAG-Pipelines ermöglicht. Es konvertiert PDFs in Markdown, bereinigt Dokumente, inspiziert Chunks, vergleicht Chunking-Strategien und bereichert Metadaten für LLM-Anwendungen.
Warum relevant: Chunky ist vollständig selfhostbar und bietet eine umfassende RAG-Pipeline, die es ideal für die lokale Verarbeitung und Analyse von Dokumenten macht.
Self-Hosted AI Stack (7/10)
Repository: hwdsl2/self-hosted-ai-stack
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Dieses Projekt ermöglicht es, eine vollständige self-hosted AI-Stack mit Docker Compose zu bereitstellen. Es umfasst Ollama, LiteLLM, AnythingLLM, Whisper, WhisperLive, Kokoro, Embeddings, Docling und MCP Gateway. Es ist lokal betriebsfähig, privat und unterstützt NVIDIA CUDA-Beschleunigung.
Warum relevant: Die Self-Hosted AI Stack ist eine umfassende Lösung, die es ermöglicht, eine breite Palette von AI-Tools lokal zu betreiben, was die Privatsphäre und die Kontrolle über die Daten maximiert.
Transmutation (6/10)
Repository: hivellm/transmutation
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: Transmutation ist ein Rust-basiertes Modul zur Dokumentenkonvertierung, das verschiedene Dateiformate in optimierte Text- und Bildausgaben für LLM-Verarbeitung und Vektorembeddings transformiert. Es nutzt Docling für erweiterte Dokumentenverarbeitung.
Warum relevant: Transmutation bietet eine robuste Lösung für die Konvertierung verschiedener Dokumentformate, die lokal betrieben werden kann und gut in die HiveLLM-Vektorisierungsekosystem integriert ist.
Quarkus Docling (5/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 5/10
Was es macht: Docling vereinfacht die Dokumentenverarbeitung und unterstützt die Verarbeitung verschiedener Formate, einschließlich erweiterter PDF-Verarbeitung. Es bietet nahtlose Integrationen mit dem gen AI-Ekosystem.
Warum relevant: Docling ist eine nützliche Erweiterung für Quarkus und eignet sich gut für die Verarbeitung und Analyse von Dokumenten in Java-Anwendungen.
Quelle: GitHub Search API