Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und dabei die Privatsphäre der Nutzer gewährleisten.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 8/10
Was es macht: Ein flexibles RAG-System, das verschiedene Graph- und Vektordatenbanken unterstützt, um Wissensgraphen automatisch aufzubauen. Es verarbeitet 13 Datenquellen, darunter PDFs, Markdown und Office-Dokumente, und bietet eine REST-API für die Integration in bestehende Systeme.
Warum relevant: Das Projekt ist hochgradig anpassbar und bietet eine umfassende RAG-Pipeline, die lokal betrieben werden kann. Es ist besonders für Unternehmen und Organisationen interessant, die ihre eigenen Daten in einem privaten Umfeld verarbeiten möchten.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: Ein Toolkit zur Verarbeitung und Chunking von Dokumenten, insbesondere PDFs, die in Markdown konvertiert werden. Es bietet Funktionen zur Überprüfung und Optimierung der Chunks sowie zur Bereicherung von Metadaten für LLM-Anwendungen.
Warum relevant: Chunky ist ein nützliches Werkzeug für die Vorbereitung von Dokumenten für RAG-Pipelines. Es ist lokal betreibbar und unterstützt eine Vielzahl von Dokumentformaten, was es zu einer wertvollen Ergänzung für bestehende RAG-Systeme macht.
self-hosted-ai-stack (7/10)
Repository: hwdsl2/self-hosted-ai-stack
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 7/10
Was es macht: Ein vollständiger, lokal betriebbarer AI-Stack, der Ollama, LiteLLM, Whisper und andere Tools umfasst. Es bietet Funktionen zur Sprachverarbeitung, Text-to-Speech und Embeddings, und ist auf Docker Compose basiert.
Warum relevant: Dieses Projekt ist ideal für Entwickler und Organisationen, die eine umfassende, private AI-Infrastruktur aufbauen möchten. Es ist leicht zu installieren und bietet eine breite Palette von Funktionen, die lokal verwendet werden können.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 1/1 = 6/10
Was es macht: Eine Quarkus-Erweiterung, die die Verarbeitung und Parsen von Dokumenten vereinfacht, insbesondere PDFs. Es bietet nahtlose Integrationen in das gen-AI-Ökosystem.
Warum relevant: Quarkus-Docling ist besonders für Java-Entwickler interessant, die eine robuste und leistungsstarke Lösung für die Dokumentverarbeitung suchen. Es ist lokal betreibbar und bietet eine gute Grundlage für die Integration in bestehende Java-Anwendungen.
Quelle: GitHub Search API