Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die aktuellsten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, wobei sie oft auf Selfhosting und lokale Datenverarbeitung setzen.
flexible-graphrag (9/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: `flexible-graphrag` ist ein umfassendes System, das verschiedene Datenquellen (einschließlich Alfresco, ArcadeDB, FalkorDB, LadybugDB, Neo4j) und Dokumentformate (PDF, Markdown, Office, HTML) unterstützt. Es bietet eine Kombination aus Graph-RAG, Hybrid Search und AI-Chat-Funktionalitäten, wobei es LLMs wie LlamaIndex und LangChain nutzt.
Warum relevant: Das Projekt ist hochgradig innovativ und bietet eine breite Palette von Funktionen, die es zu einer vielseitigen Lösung für komplexe RAG-Anwendungen machen. Es ist self-hostbar und unterstützt lokale Datenverarbeitung, was es besonders für Unternehmen und Organisationen interessant macht, die ihre Daten privat halten möchten.
self-hosted-ai-stack (8/10)
Repository: hwdsl2/self-hosted-ai-stack
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 8/10
Was es macht: `self-hosted-ai-stack` ist eine Docker-Compose-basierte Lösung, die eine vollständige AI-Stack bereitstellt, einschließlich Ollama, LiteLLM, Whisper, WhisperLive, Kokoro, Embeddings, Docling und MCP Gateway. Es ist lokal betreibbar, privatsphärefreundlich und unterstützt NVIDIA CUDA-Acceleration.
Warum relevant: Dieses Projekt ist besonders relevant für Entwickler und Organisationen, die eine lokale, selbstgehostete AI-Infrastruktur aufbauen möchten. Es bietet eine breite Palette von Tools und Technologien, die nahtlos zusammenarbeiten und eine hohe Flexibilität bieten.
transmutation (7/10)
Repository: hivellm/transmutation
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: `transmutation` ist ein Rust-basiertes Modul zur Dokumentenkonvertierung, das verschiedene Dateiformate (PDF, Markdown, DOCX, PPTX) in optimierte Text- und Bildausgaben für LLM-Verarbeitung und Vektorembeddings umwandelt. Es nutzt Docling für erweiterte Dokumentenverarbeitung.
Warum relevant: Dieses Projekt ist besonders nützlich für Entwickler, die eine robuste und effiziente Dokumentenverarbeitung benötigen. Die Unterstützung verschiedener Dateiformate und die Integration mit Docling machen es zu einer wertvollen Ergänzung für RAG-Systeme.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: `quarkus-docling` ist eine Quarkus-Erweiterung, die die Verarbeitung und Parsen von Dokumenten vereinfacht. Es unterstützt verschiedene Formate (PDF, Markdown) und bietet nahtlose Integrationen in den gen-AI-Ökosystem.
Warum relevant: Dieses Projekt ist besonders relevant für Entwickler, die mit Quarkus arbeiten und eine robuste Dokumentenverarbeitung in ihre Anwendungen integrieren möchten. Die Unterstützung verschiedener Formate und die Integration in den gen-AI-Ökosystem machen es zu einer nützlichen Ergänzung.
Quelle: GitHub Search API