Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten Entwicklungen im Bereich RAG-Systeme und Parser-Pipelines vor. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und eine hohe Reife aufweisen.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 8/10
Was es macht: Ein umfassendes RAG-System, das 13 verschiedene Datenquellen unterstützt, darunter 15 Property Graph-DBs, 4 RDF-DBs und 10 Vektordatenbanken. Es bietet automatische Synchronisation, automatische Erstellung von Wissensgraphen, Ontologien, LLM-Integration und mehr. Die Anwendung ist in Python geschrieben und kann lokal über Docker Compose betrieben werden.
Warum relevant: Dieses Projekt ist besonders relevant, da es eine breite Palette von Datenquellen und Datenbanken unterstützt, was es zu einer vielseitigen und leistungsfähigen Lösung für komplexe RAG-Anwendungen macht. Die Möglichkeit, es lokal zu betreiben, bietet eine hohe Flexibilität und Datensicherheit.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: Ein Open-Source-Toolkit für zuverlässige RAG-Pipelines. Es ermöglicht die Konvertierung von PDFs in Markdown, die Bereinigung von Dokumenten, die Inspektion von Chunks, den Vergleich verschiedener Chunking-Strategien und die Bereicherung von Metadaten für LLM-Anwendungen.
Warum relevant: Chunky ist ein nützliches Werkzeug für Entwickler, die RAG-Pipelines aufbauen möchten. Die Unterstützung von PDF- und Markdown-Dokumenten sowie die Möglichkeit, Chunking-Strategien zu vergleichen, macht es zu einer wertvollen Ressource für die Dokumentverarbeitung.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 1/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 1/1 = 6/10
Was es macht: Docling vereinfacht die Verarbeitung von Dokumenten und das Parsen verschiedener Formate, einschließlich fortgeschrittener PDF-Verarbeitung. Es bietet nahtlose Integrationen mit dem gen AI-Ökosystem.
Warum relevant: Quarkus-Docling ist besonders relevant für Entwickler, die Java und Quarkus verwenden. Die Unterstützung von verschiedenen Dokumentformaten und die Integration in das gen AI-Ökosystem machen es zu einer nützlichen Ergänzung für bestehende Java-Projekte.
Quelle: GitHub Search API