Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten Entwicklungen im Bereich RAG-Systeme und Parser-Pipelines vor. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und eine Vielzahl von Datenquellen unterstützen.

flexible-graphrag (8/10)

Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 8/10
Was es macht: Ein umfassendes System, das 15 Property Graph-, 4 RDF- und 10 Vektordatenbanken unterstützt. Es bietet 13 Datenquellen (9 automatisch synchronisierend), automatische Erstellung von Wissensgraphen, Ontologien, LLMs, Docling oder LlamaParse-Dokumentverarbeitung, GraphRAG, RAG-only und Hybrid-Suche. Es verfügt über TypeScript React, Vue und Angular-Frontends sowie einen FastAPI-REST-Backend und einen MCP-Server.
Warum relevant: Dieses Projekt ist besonders relevant, da es eine breite Palette von Datenquellen und Datenbanken unterstützt und lokal betrieben werden kann. Es bietet eine hohe Flexibilität und Innovation in der Verarbeitung und Analyse von Dokumenten.

chunky (7/10)

Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: Ein offenes Toolkit für zuverlässige RAG-Pipelines, das PDFs in Markdown konvertiert, Dokumente bereinigt, Chunks inspiziert, Chunking-Strategien vergleicht und Metadaten für LLM-Anwendungen bereichert.
Warum relevant: Chunky ist besonders relevant, da es eine umfassende Lösung für die Verarbeitung und Analyse von Dokumenten bietet, die lokal betrieben werden kann. Es unterstützt eine Vielzahl von Dokumentformaten und bietet nützliche Tools für die Optimierung von RAG-Pipelines.

quarkus-docling (6/10)

Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 1/1 = 6/10
Was es macht: Docling vereinfacht die Dokumentverarbeitung, indem es verschiedene Formate, einschließlich fortgeschrittene PDF-Verarbeitung, unterstützt und nahtlose Integrationen mit dem gen AI-Ökosystem bietet.
Warum relevant: Quarkus-Docling ist besonders relevant, da es eine robuste Lösung für die Verarbeitung verschiedener Dokumentformate bietet und in Java-Anwendungen leicht integriert werden kann. Es unterstützt die lokale Betriebbarkeit und bietet nützliche Funktionen für die Dokumentverarbeitung.

Quelle: GitHub Search API

👁 0 Aufrufe 👤 0 Leser