Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir aktuelle GitHub-Repositories vor, die sich mit Retrieval-Augmented-Generation (RAG) und Parser-Pipelines befassen. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und eine hohe Reife aufweisen.

flexible-graphrag (8/10)

Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 8/10
Was es macht: Dieses Projekt bietet eine flexible RAG-Implementierung mit Unterstützung für 15 Property Graph-DBs, 4 RDF-DBs, 10 Vektordatenbanken, OpenSearch, Elasticsearch und Alfresco. Es verarbeitet 13 Datenquellen (9 automatisch synchronisiert), baut automatisch Wissensgraphen, unterstützt Ontologien und LLMs, und bietet Frontends in TypeScript, React, Vue und Angular sowie einen FastAPI-REST-Backend.
Warum relevant: Die umfassende Unterstützung verschiedener Datenbanken und Datenquellen sowie die Möglichkeit, das System lokal zu betreiben, macht dieses Projekt zu einer vielseitigen und mächtigen Lösung für RAG-Anwendungen.

chunky (7/10)

Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: Chunky ist ein Open-Source-Toolkit für zuverlässige RAG-Pipelines. Es ermöglicht die Konvertierung von PDFs in Markdown, das Reinigen von Dokumenten, die Inspektion von Chunks, den Vergleich verschiedener Chunking-Strategien und die Bereicherung von Metadaten für LLM-Anwendungen.
Warum relevant: Die Fähigkeit, PDFs in Markdown zu konvertieren und Chunks zu inspizieren, macht Chunky zu einem wertvollen Werkzeug für die Vorbereitung und Verarbeitung von Dokumenten in RAG-Pipelines.

quarkus-docling (6/10)

Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 1/1 = 6/10
Was es macht: Docling vereinfacht die Verarbeitung von Dokumenten und das Parsen verschiedener Formate, einschließlich fortgeschrittener PDF-Verarbeitung. Es bietet nahtlose Integrationen in den gen-AI-Ökosystem.
Warum relevant: Die Unterstützung für verschiedene Dokumentformate und die Integration in den gen-AI-Ökosystem machen Docling zu einem nützlichen Werkzeug für die Vorbereitung von Daten für RAG-Anwendungen.

Quelle: GitHub Search API

👁 0 Aufrufe 👤 0 Leser