Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten Entwicklungen im Bereich RAG-Systeme und Parser-Pipelines vor. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und eine hohe Reife aufweisen.
flexible-graphrag (9/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 9/10
Was es macht: Ein umfassendes RAG-System, das verschiedene Graph-Datenbanken (wie Neo4j, Alfresco) und Vektordatenbanken unterstützt. Es bietet automatische Synchronisation von Datenquellen, automatische Erstellung von Wissensgraphen, Ontologien, und eine Vielzahl von Frontend-Optionen (TypeScript React, Vue, Angular) sowie einen FastAPI-REST-Backend.
Warum relevant: Dieses Projekt ist besonders relevant, da es eine breite Palette von Datenquellen und Datenbanken unterstützt und lokal betrieben werden kann. Es ist innovativ durch die Automatisierung von Prozessen und die Integration verschiedener Technologien.
RustyRAG (8/10)
Repository: RustyRAG/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: Ein hochperformantes RAG-API-System, gebaut in Rust, das hybride Suche mit dichten Vektoren und dünnen Matches unterstützt. Es verwendet HNSW für dichte Vektoren und BM25 für dünnere Matches, sowie Cross-Encoder-Reranking und layout-aware Document Extraction via Docling.
Warum relevant: RustyRAG ist eine robuste und leistungsstarke Lösung, die lokal betrieben werden kann und eine hohe Genauigkeit auf Benchmarks erzielt. Es ist besonders relevant für Entwickler, die eine performante und skalierbare RAG-Lösung suchen.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: Ein Open-Source-Toolkit für zuverlässige RAG-Pipelines, das PDFs in Markdown konvertiert, Dokumente bereinigt, Chunks inspiziert, Chunking-Strategien vergleicht und Metadaten für LLM-Anwendungen bereichert.
Warum relevant: Chunky ist besonders nützlich für Entwickler, die eine flexible und benutzerfreundliche Lösung für die Verarbeitung und Analyse von Dokumenten suchen. Es unterstützt eine Vielzahl von Dokumentformaten und bietet Werkzeuge zur Optimierung von RAG-Pipelines.
quarkus-docling (5/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 1/1 = 5/10
Was es macht: Docling vereinfacht die Verarbeitung von Dokumenten, indem es verschiedene Formate (einschließlich PDFs) verarbeitet und nahtlose Integrationen mit dem gen AI-Ökosystem bietet.
Warum relevant: Quarkus-Docling ist eine nützliche Erweiterung für Quarkus, die die Verarbeitung von Dokumenten erleichtert. Es ist besonders relevant für Entwickler, die in Java arbeiten und eine robuste Lösung für die Dokumentverarbeitung suchen.
Quelle: GitHub Search API