Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir aktuelle GitHub-Repositories vor, die sich mit Retrieval-Augmented-Generation (RAG) und Parser-Pipelines befassen. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, oft in Kombination mit lokalen Betriebsmöglichkeiten und fortschrittlichen Technologien.

flexible-graphrag (8/10)

Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 8/10
Was es macht: Dieses Projekt bietet eine flexible RAG-Implementierung mit Unterstützung für 15 Property Graph-Datenbanken, 4 RDF-Datenbanken und 10 Vektordatenbanken. Es verarbeitet 13 Datenquellen (9 davon automatisch synchronisiert), baut automatisch Wissensgraphen auf, integriert Ontologien und unterstützt verschiedene LLMs. Die Dokumentverarbeitung erfolgt mit Docling oder LlamaParse. Es bietet TypeScript, React, Vue und Angular-Frontends sowie einen FastAPI-REST-Backend und einen MCP-Server.
Warum relevant: Die Vielfalt der unterstützten Datenbanken und die Automatisierung von Wissensgraphen machen dieses Projekt besonders wertvoll für komplexe Anwendungen. Die Selfhosting-Möglichkeit und die Integration verschiedener Frontends und Backends bieten hohe Flexibilität.

chunky (7/10)

Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: Chunky ist ein Open-Source-Toolkit für zuverlässige RAG-Pipelines. Es konvertiert PDFs in Markdown, bereinigt Dokumente, inspiziert Chunks, vergleicht Chunking-Strategien und bereichert Metadaten für LLM-Anwendungen.
Warum relevant: Die Fähigkeit, PDFs in Markdown zu konvertieren und Chunks zu inspizieren, ist besonders nützlich für die Vorbereitung von Dokumenten für RAG-Pipelines. Die Selfhosting-Möglichkeit und die gut strukturierte Dokumentation machen es leicht, das Projekt in bestehende Workflows zu integrieren.

quarkus-docling (6/10)

Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 1/1 = 6/10
Was es macht: Docling vereinfacht die Dokumentverarbeitung und unterstützt verschiedene Formate, einschließlich fortgeschrittener PDF-Verarbeitung. Es bietet nahtlose Integrationen mit dem gen AI-Ökosystem.
Warum relevant: Die Unterstützung von verschiedenen Dokumentformaten und die Integration in das gen AI-Ökosystem machen Docling zu einem nützlichen Werkzeug für die Vorbereitung von Daten für RAG-Anwendungen. Die Selfhosting-Möglichkeit ist begrenzt, aber die Reife des Projekts und die gut strukturierte Dokumentation sind Vorteile.

Quelle: GitHub Search API

👁 0 Aufrufe 👤 0 Leser