Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten und sind in der Regel selbstgehostet und gut dokumentiert.

flexible-graphrag (9/10)

Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: Ein flexibles RAG-System, das 13 verschiedene Datenquellen unterstützt, darunter 15 Property Graphs, 4 RDF-Graphen und 10 Vektordatenbanken. Es bietet automatische Synchronisierung, automatische Erstellung von Wissensgraphen, Ontologien, LLMs und verschiedene Frontends.
Warum relevant: Dieses Projekt ist besonders relevant, da es eine breite Palette von Datenquellen und Datenbanken unterstützt und somit eine umfassende Lösung für komplexe RAG-Anwendungen bietet. Es ist selbstgehostet und bietet eine hohe Innovationskraft.

RustyRAG (8/10)

Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 8/10
Was es macht: Ein hochgradig optimiertes RAG-API-System, gebaut in Rust, das hybride Suche mit HNSW-dichten Vektoren und BM25-sparse Matching unterstützt. Es bietet Cross-Encoder-Reranking, layout-aware Document Extraction und eine hohe Genauigkeit auf dem Open RAG Bench.
Warum relevant: RustyRAG ist eine leistungsstarke und effiziente Lösung für RAG-Anwendungen, die auf Performance und Genauigkeit abzielen. Es ist selbstgehostet und nutzt moderne Technologien wie Cerebras, Groq, Milvus und Jina AI.

LongParser (7/10)

Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Ein privacy-first Document Intelligence Engine, das PDFs, DOCX, PPTX, XLSX und CSV in AI-fähige Chunks für RAG-Pipelines konvertiert. Es bietet eine HITL-Review-Funktion, eine 3-Layer-Memory-Chat und einen produktionstauglichen FastAPI-Server.
Warum relevant: LongParser ist eine umfassende Lösung für die Verarbeitung und Analyse von Dokumenten, die den Schutz der Privatsphäre im Vordergrund stellt. Es ist selbstgehostet und bietet eine robuste Infrastruktur für RAG-Anwendungen.

chunky (7/10)

Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 2/2 | Reife 0/1 = 7/10
Was es macht: Ein Tool zur Konvertierung und Validierung von Markdown-Dokumenten, das die beste Chunking-Strategie für RAG-Pipelines ermittelt. Es unterstützt verschiedene Dokumentformate und bietet eine benutzerfreundliche Oberfläche.
Warum relevant: chunky ist ein nützliches Werkzeug für die Vorbereitung von Dokumenten für RAG-Pipelines. Es ist innovativ in seiner Fähigkeit, die beste Chunking-Strategie zu ermitteln und unterstützt verschiedene Dokumentformate.

quarkus-docling (6/10)

Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: Eine Quarkus-Erweiterung, die die Verarbeitung und Analyse von Dokumenten vereinfacht. Es unterstützt verschiedene Dokumentformate und bietet nahtlose Integrationen in den gen-AI-Ökosystem.
Warum relevant: quarkus-docling ist eine praktische Lösung für Entwickler, die in Java und Quarkus arbeiten und eine robuste Dokumentverarbeitung benötigen. Es ist selbstgehostet und bietet eine gute Integration in bestehende Java-Anwendungen.

Quelle: GitHub Search API

👁 0 Aufrufe 👤 0 Leser