Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten und sind in verschiedenen Programmiersprachen und Technologien implementiert.
flexible-graphrag (9/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 9/10
Was es macht: `flexible-graphrag` ist ein umfassendes System, das verschiedene Datenquellen (darunter 13 automatisch synchronisierte) und Datenbanken (wie Property Graph, RDF, Vector, OpenSearch und Elasticsearch) integriert. Es unterstützt die automatische Erstellung von Wissensgraphen, Ontologien, LLMs und verschiedene Suchmethoden (GraphRAG, RAG, Hybrid Search). Die Anwendung bietet auch AI-Chat-Funktionen und ist in Python, TypeScript, React, Vue und Angular implementiert.
Warum relevant: Das Projekt ist hochgradig innovativ und bietet eine breite Palette von Funktionen. Es ist self-hostbar und kann lokal betrieben werden, was die Datensouveränität gewährleistet.
self-hosted-ai-stack (8/10)
Repository: hwdsl2/self-hosted-ai-stack
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: `self-hosted-ai-stack` ermöglicht es, eine vollständige AI-Stack mit Docker Compose lokal zu betreiben. Es umfasst verschiedene LLMs (Ollama, LiteLLM, AnythingLLM), Sprachverarbeitung (Whisper, WhisperLive, Kokoro), Dokumentverarbeitung (Docling) und einen MCP-Gateway. Die Stack ist leichtgewichtig, optional mit HTTPS und NVIDIA CUDA-Beschleunigung ausgestattet und unterstützt mehrere Architekturen (amd64, arm64).
Warum relevant: Dieses Projekt ist ideal für Entwickler und Organisationen, die eine private und lokal betriebene AI-Infrastruktur benötigen. Es bietet eine breite Palette von Tools und ist leicht zu installieren und zu betreiben.
GustoBot (7/10)
Repository: skygazer42/GustoBot
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 1/2 | Innovation 2/2 | Reife 1/1 = 7/10
Was es macht: `GustoBot` ist ein umfassendes Multi-Agent-System für Kundendienst-Roboter. Es unterstützt txt2sql, txt2cypher, lightrag und mehrere Modi. Die Anwendung ist in Python implementiert und nutzt langraph für die Verarbeitung von Texten und Graphen.
Warum relevant: Das Projekt ist innovativ und bietet eine breite Palette von Funktionen für die Automatisierung von Kundendienstprozessen. Es ist jedoch nicht vollständig self-hostbar, was die Anwendung in einigen Szenarien einschränken kann.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: `quarkus-docling` ist eine Quarkus-Erweiterung, die die Verarbeitung und Parsen von Dokumenten vereinfacht. Es unterstützt verschiedene Formate, einschließlich fortgeschrittene PDF-Verarbeitung, und bietet nahtlose Integrationen in das genAI-Ökosystem.
Warum relevant: Dieses Projekt ist nützlich für Entwickler, die in Java und Quarkus arbeiten und eine robuste Dokumentverarbeitung benötigen. Es ist jedoch weniger umfassend als andere RAG-Systeme und hat eine geringere Reife.
transmutation (5/10)
Repository: hivellm/transmutation
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 5/10
Was es macht: `transmutation` ist ein Rust-basiertes Modul zur Dokumentkonvertierung, das verschiedene Dateiformate in optimierte Text- und Bildausgaben für LLM-Verarbeitung und Vektorembeddings umwandelt. Es nutzt Docling für fortgeschrittene Dokumentverarbeitung.
Warum relevant: Dieses Projekt ist nützlich für Entwickler, die eine effiziente und performante Dokumentkonvertierung benötigen. Es ist jedoch weniger umfassend als andere RAG-Systeme und hat eine geringere Reife.
Quelle: GitHub Search API