Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub verfügbar sind. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, wobei sie auf Selbsthosting und die Verwendung eigener Daten fokussiert sind.

RustyRAG (9/10)

Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: RustyRAG ist ein hochgradig produktionstaugliches RAG-API-System, das in Rust entwickelt wurde. Es kombiniert HNSW-dichte Vektoren und BM25-sparse Matching, unterstützt durch Cross-Encoder-Reranking und layoutbewusste Dokumentenauswertung. Das System erreicht eine Genauigkeit von 94.5% auf der Open RAG Bench und nutzt Technologien von Cerebras, Groq, Milvus und Jina AI.
Warum relevant: RustyRAG ist eine innovative Lösung, die dank seiner robusten Architektur und hohen Genauigkeit ideal für Unternehmen ist, die hohe Anforderungen an die Dokumentenverarbeitung stellen. Es ist selbsthostbar und unterstützt eine Vielzahl von Dokumentformaten.

flexible-graphrag (8/10)

Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: Flexible-GraphRAG ist ein umfassendes System, das Python, LlamaIndex, LangChain und Docker Compose verwendet. Es unterstützt 15 Property Graphs, 4 RDF-Graphen, 10 Vektordatenbanken und OpenSearch/Elasticsearch. Es verarbeitet 13 Datensourcen (9 automatisch synchronisiert), baut Wissensgraphen automatisch auf, unterstützt Ontologien und LLMs, und bietet verschiedene Verarbeitungsoptionen für Dokumente (Docling oder LlamaParse). Es verfügt über TypeScript React, Vue und Angular-Frontends sowie einen FastAPI-REST-Backend und einen MCP-Server.
Warum relevant: Flexible-GraphRAG ist eine hochgradig flexible und mächtige Lösung, die dank seiner umfassenden Funktionen und Selbsthosting-Fähigkeit ideal für komplexe Anwendungen ist. Es ist besonders nützlich für Unternehmen, die eine breite Palette von Datenquellen und Verarbeitungsmethoden benötigen.

LongParser (7/10)

Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: LongParser ist ein Datenschutz-fokussiertes Dokumentenintelligenz-Engine, das PDFs, DOCX, PPTX, XLSX und CSV-Dateien in AI-fähige Chunks für RAG-Pipelines konvertiert. Es bietet eine HITL-Überprüfung, einen 3-Layer-Memory-Chat und einen produktionstauglichen FastAPI-Server.
Warum relevant: LongParser ist eine robuste Lösung für die Verarbeitung und Analyse von Dokumenten, die besonders für Unternehmen geeignet ist, die Datenschutz und Kontrolle über ihre Daten priorisieren. Es ist selbsthostbar und unterstützt eine Vielzahl von Dokumentformaten.

chunky (7/10)

Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 7/10
Was es macht: Chunky ist ein Tool, das Markdown-Dokumente konvertiert und validiert, um die beste Chunking-Strategie für RAG-Pipelines zu wählen. Es unterstützt verschiedene Chunking-Methoden und bietet eine benutzerfreundliche Schnittstelle.
Warum relevant: Chunky ist eine innovative Lösung, die die Vorbereitung von Dokumenten für RAG-Pipelines vereinfacht. Es ist selbsthostbar und bietet eine hohe Flexibilität bei der Wahl der Chunking-Strategie, was es besonders für Entwickler und Datenwissenschaftler attraktiv macht.

quarkus-docling (6/10)

Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 6/10
Was es macht: Quarkus-Docling ist eine Quarkus-Erweiterung, die die Verarbeitung und Analyse von Dokumenten vereinfacht. Es unterstützt verschiedene Dokumentformate, einschließlich PDFs, und bietet nahtlose Integrationen in das gen-AI-Ökosystem.
Warum relevant: Quarkus-Docling ist eine praktische Lösung für Java-Entwickler, die eine robuste Dokumentenverarbeitung in ihre Anwendungen integrieren möchten. Es ist selbsthostbar und bietet eine gute Integration in bestehende Quarkus-Projekte.

Quelle: GitHub Search API

👁 0 Aufrufe 👤 0 Leser