Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir eine Auswahl der aktuellsten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub verfügbar sind. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und dabei auf moderne Technologien wie LLMs und Graph-Datenbanken setzen.
flexible-graphrag (9/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 9/10
Was es macht: Ein umfassendes RAG-System, das verschiedene Graph-Datenbanken (Property Graph, RDF, Vector) und 13 Datenquellen unterstützt. Es bietet automatische Synchronisierung, automatische Erstellung von Wissensgraphen, Ontologien, LLM-Integration und mehr. Die Anwendung verfügt über moderne Frontends (TypeScript, React, Vue, Angular) und einen FastAPI-REST-Backend.
Warum relevant: Dieses Projekt ist besonders relevant für Unternehmen, die eine flexible und leistungsstarke RAG-Infrastruktur benötigen, die lokal betrieben werden kann und dabei auf moderne Technologien wie Ollama und MCP-Server setzt.
chunky (8/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: Ein Open-Source-Toolkit für zuverlässige RAG-Pipelines. Es ermöglicht die Konvertierung von PDFs in Markdown, das Reinigen von Dokumenten, die Inspektion von Chunks, den Vergleich verschiedener Chunking-Strategien und die Bereicherung von Metadaten für LLM-Anwendungen.
Warum relevant: Chunky ist besonders relevant für Entwickler und Datenwissenschaftler, die eine robuste und flexible Pipeline für die Verarbeitung und Analyse von Dokumenten benötigen. Die Möglichkeit, verschiedene Chunking-Strategien zu vergleichen, ist ein wertvoller Pluspunkt.
self-hosted-ai-stack (7/10)
Repository: hwdsl2/self-hosted-ai-stack
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 7/10
Was es macht: Ein vollständiges, lokal betriebenes AI-Stack, das mit Docker Compose bereitgestellt werden kann. Es umfasst Ollama, LiteLLM, AnythingLLM, Whisper, WhisperLive, Kokoro, Embeddings, Docling und MCP Gateway. Die Anwendung ist lokal-first, privat per Default und unterstützt NVIDIA CUDA-Beschleunigung.
Warum relevant: Dieses Projekt ist ideal für Entwickler und Unternehmen, die eine umfassende, lokal betriebene AI-Infrastruktur benötigen, die auf modernen Technologien basiert und leicht zu bereitstellen ist.
quarkus-docling (5/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 1/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 1/1 = 5/10
Was es macht: Docling vereinfacht die Verarbeitung von Dokumenten und unterstützt verschiedene Formate, einschließlich fortgeschrittener PDF-Verarbeitung. Es bietet nahtlose Integrationen in das gen-AI-Ökosystem.
Warum relevant: Quarkus-Docling ist besonders relevant für Entwickler, die eine robuste und leicht integrierbare Lösung für die Verarbeitung von Dokumenten in Java-Anwendungen benötigen.
Quelle: GitHub Search API