Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten Entwicklungen im Bereich RAG-Systeme und Parser-Pipelines vor. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und eine hohe Reife aufweisen.
flexible-graphrag (9/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 9/10
Was es macht: `flexible-graphrag` ist ein umfassendes System, das verschiedene Datenquellen (13 insgesamt, 9 mit automatischer Synchronisierung) unterstützt, um Wissensgraphen und Vektordatenbanken zu erstellen. Es nutzt LLMs, Docling oder LlamaParse für die Dokumentverarbeitung und bietet sowohl GraphRAG als auch Hybrid-Suche. Die Anwendung ist in Python geschrieben und kann lokal mit Docker Compose betrieben werden.
Warum relevant: Dieses Projekt ist besonders relevant, da es eine breite Palette von Datenquellen und Verarbeitungsmethoden unterstützt, was es zu einer vielseitigen und leistungsfähigen Lösung macht. Die Möglichkeit, es lokal zu betreiben, bietet zusätzliche Kontrolle über die Daten.
self-hosted-ai-stack (8/10)
Repository: hwdsl2/self-hosted-ai-stack
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: `self-hosted-ai-stack` ermöglicht es, eine vollständige, lokal betriebene AI-Stack mit Docker Compose zu bereitstellen. Es umfasst Ollama, LiteLLM, Whisper, WhisperLive, Kokoro, Embeddings, Docling und den MCP Gateway. Die Stack ist lokal-first, privat und unterstützt NVIDIA CUDA-Beschleunigung. Es ist für mehrere Architekturen (amd64, arm64) verfügbar.
Warum relevant: Dieses Projekt ist ideal für Entwickler und Organisationen, die eine vollständige, lokal betriebene AI-Infrastruktur benötigen. Die Unterstützung von CUDA-Beschleunigung und die Vielfalt der unterstützten Modelle machen es zu einer leistungsstarken Lösung.
GustoBot (8/10)
Repository: skygazer42/GustoBot
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 2/2 | Reife 1/1 = 8/10
Was es macht: `GustoBot` ist ein umfassendes Multi-Agenten-System für Kundendienstroboter. Es unterstützt txt2sql, txt2cypher, lightrag und mehr. Die Anwendung nutzt Langraph für die Verarbeitung von Dokumenten und die Erstellung von Wissensgraphen. Es ist in Python geschrieben und kann lokal betrieben werden.
Warum relevant: `GustoBot` ist besonders innovativ, da es eine breite Palette von Funktionen für die Verarbeitung und Analyse von Texten bietet. Die Unterstützung von Multi-Agenten-Systemen und die Integration von txt2sql und txt2cypher machen es zu einer vielseitigen Lösung für den Kundendienst.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: `quarkus-docling` vereinfacht die Verarbeitung von Dokumenten und unterstützt verschiedene Formate, einschließlich fortgeschrittene PDF-Verarbeitung. Es bietet nahtlose Integrationen mit dem gen AI-Ökosystem und kann als Quarkus-Erweiterung verwendet werden.
Warum relevant: Dieses Projekt ist besonders nützlich für Entwickler, die eine robuste Dokumentverarbeitung in ihre Quarkus-Anwendungen integrieren möchten. Die Unterstützung von fortgeschrittenen PDF-Verarbeitungen und die Integration in das gen AI-Ökosystem machen es zu einer wertvollen Ergänzung.
transmutation (6/10)
Repository: hivellm/transmutation
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: `transmutation` ist ein Rust-basiertes Modul zur Dokumentkonvertierung, das verschiedene Dateiformate in optimierte Text- und Bildausgaben für LLM-Verarbeitung und Vektorembeddings umwandelt. Es nutzt Docling für fortgeschrittene Dokumentverarbeitung.
Warum relevant: Dieses Projekt ist besonders relevant für Entwickler, die eine leistungsstarke und effiziente Dokumentkonvertierung benötigen. Die Unterstützung von verschiedenen Formaten und die Integration von Docling machen es zu einer robusten Lösung.
Quelle: GitHub Search API