Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir aktuelle GitHub-Repositories vor, die sich mit Retrieval-Augmented-Generation (RAG) und Parser-Pipelines beschäftigen. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten und sind in verschiedenen Entwicklungsstadien.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: Dieses Projekt bietet eine flexible RAG-Implementierung mit Unterstützung für 15 Property Graph-DBs, 4 RDF-DBs und 10 Vector-DBs. Es verarbeitet 13 Datenquellen (9 automatisch synchronisiert), baut automatisch Knowledge Graphs, verwendet Ontologien und unterstützt LLMs. Es bietet auch Docling oder LlamaParse für Dokumentverarbeitung, GraphRAG, RAG-only und Hybrid Search. Die Anwendung verfügt über TypeScript React, Vue und Angular Frontends sowie einen FastAPI REST-Backend und einen MCP-Server.
Warum relevant: Die Flexibilität in der Wahl der Datenbanken und die umfassende Unterstützung für verschiedene Datenquellen machen dieses Projekt zu einer starken Wahl für Selfhosting und die Verarbeitung eigener Daten. Es ist besonders nützlich für fortgeschrittene Anwendungen, die eine Kombination aus Graph- und Vektordatenbanken erfordern.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Chunky ist ein Open-Source-Toolkit für zuverlässige RAG-Pipelines. Es konvertiert PDFs in Markdown, bereinigt Dokumente, inspiziert Chunks, vergleicht Chunking-Strategien und bereichert Metadaten für LLM-Anwendungen.
Warum relevant: Chunky ist besonders nützlich für Entwickler, die eine robuste und flexible Chunking-Lösung für ihre RAG-Pipelines benötigen. Die Unterstützung für verschiedene Dokumentformate und die Möglichkeit, Chunking-Strategien zu vergleichen, macht es zu einer wertvollen Ressource.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: Docling vereinfacht die Dokumentverarbeitung und unterstützt verschiedene Formate, einschließlich fortgeschrittener PDF-Verarbeitung. Es bietet nahtlose Integrationen mit dem gen AI-Ökosystem.
Warum relevant: Quarkus-Docling ist eine gute Wahl für Entwickler, die in einem Java-Umfeld arbeiten und eine robuste Dokumentverarbeitung benötigen. Die Integration mit dem gen AI-Ökosystem macht es zu einer nützlichen Ergänzung für bestehende Java-Projekte.
Quelle: GitHub Search API