Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)
In diesem Artikel stellen wir aktuelle Retrieval-Augmented-Generation (RAG)-Systeme und Dokumentenverarbeitungs-Pipelines vor, die sowohl innovative Ansätze bieten als auch lokal betrieben werden können. Diese Projekte sind besonders für Benutzer relevant, die ihre eigenen Daten in KI-basierte Systeme integrieren möchten.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 9/10
Was es macht: NexusRAG ist ein hybrider RAG-System, das Kombinationen von Vektorsuche, Wissensgraph (LightRAG) und Cross-Erkenner-Reranking bietet. Es unterstützt Dokumentenverarbeitung mit Docling, visuelle Intelligenz (Bild-/Tabellen-Kapitelauszeichnung), agente Streamchat und Inline-Zitationen.
Warum relevant: Das Projekt ermöglicht es Benutzern, ihre eigenen Daten in KI-basierte Systeme zu integrieren und unterstützt sowohl Gemini als auch lokale Ollama-Modelle.
RustyRAG (8/10)
Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: RustyRAG ist ein Produktionsfähiges RAG-API, das in Rust gebaut wurde. Es bietet eine hybride Suche mit HNSW dichten Vektoren und BM25 sparsamen Matchings, Cross-Erkenner-Reranking sowie layout-bereites Dokumentenauszug über Docling.
Warum relevant: Das Projekt unterstützt Cerebras, Groq, Milvus und Jina AI und hat eine Genauigkeit von 94.5% auf dem Open RAG Bench.
pdfstract (7/10)
Repository: AKSarav/pdfstract
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: PDFStract ist ein Extraktions-, Chunking- und Embedding-Schicht für RAG-Pipelines, die sowohl als CLI, WEBUI und API verfügbar sind.
Warum relevant: Das Projekt ermöglicht Benutzern das Extrahieren, Chunken und Embedden von Daten aus PDF-Dokumenten in ihre eigenen RAG-Pipelines.
chunky (6/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: Chunky ist eine Bibliothek, die Markdown-Dokumente konvertiert und validiert, bevor sie in RAG-Pipelines integriert werden.
Warum relevant: Das Projekt bietet verschiedene Chunking-Strategien für RAG-Pipelines.
quarkus-docling (5/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 5/10
Was es macht: Quarkus-Docling vereinfacht die Verarbeitung von Dokumenten, einschließlich der Analyse verschiedener Formate und der Bereitstellung von integrierten Anbindungen an den gen AI-Ökosystem.
Warum relevant: Das Projekt unterstützt eine Vielzahl von Dokumentenformaten und bietet einfache Integration in RAG-Pipelines.
Quelle: GitHub Search API