Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten GitHub-Projekte im Bereich Retrieval-Augmented Generation (RAG) und Dokumentverarbeitung vor. Diese Projekte bieten innovative Lösungen für den Umgang mit eigenen Daten, sind oft selbsthostbar und integrieren fortschrittliche Technologien wie Vector-Suchsysteme und Knowledge-Graphs.

NexusRAG (9/10)

Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 9/10
Was es macht: NexusRAG ist ein Hybrid-RAG-System, das Vektorsuche, Knowledge-Graph (LightRAG) und Cross-Erkenner Reranking kombiniert. Es unterstützt Dokumentverarbeitung mit Docling sowie visuelle Intelligenz wie Bild-/Tabellenkennzeichnung und agente Streamchat-Funktionen.
Warum relevant: Das Projekt ist selbsthostbar, ermöglicht die Verwendung eigener Daten und kann lokal oder via Ollama Modelle betrieben werden.

RustyRAG (8/10)

Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 0/2 | Reife 1/1 = 8/10
Was es macht: RustyRAG ist ein Produktionsfähiges RAG-API, das in Rust geschrieben wurde. Es bietet hybride Suche mit HNSW dichten Vektoren und BM25 spärlicher Matchung sowie layout-bereites Dokumentenauszug via Docling.
Warum relevant: Das Projekt ermöglicht die Verwendung von Cerebras, Groq, Milvus und Jina AI und ist selbsthostbar.

flexible-graphrag (8/10)

Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 0/2 | Reife 1/1 = 8/10
Was es macht: Flexible GraphRAG bietet eine flexible Python-basierte Umgebung für Retrieval-Augmented Generation, die mit Docker Compose und verschiedenen Datenquellen arbeitet. Es unterstützt verschiedene Knowledge-Graphs und Vector-Datenbanken sowie automatisches Synchronisieren von Dokumenten.
Warum relevant: Das Projekt ist selbsthostbar und bietet eine Vielzahl an Frontend-Frameworks und Backend-APIs.

pdfstract (7/10)

Repository: AKSarav/pdfstract
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 0/2 | Reife 1/1 = 7/10
Was es macht: PDFStract ist ein Extraktions-, Chunking- und Embedding-Layer für RAG-Pipelines, der als CLI, WEBUI oder API verfügbar ist. Es unterstützt die Verarbeitung von PDF-Dokumenten.
Warum relevant: Das Projekt ermöglicht den selbsthostbaren Betrieb und bietet eine einfache Integration in bestehende RAG-Pipelines.

chunky (6/10)

Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 0/2 | Reife 0/1 = 6/10
Was es macht: Chunky ist ein Tool zur Validierung von Markdown-Chunks und Auswahl der besten Chunking-Strategie vor dem Indexieren.
Warum relevant: Das Projekt ermöglicht den selbsthostbaren Betrieb und bietet eine einfache Integration in bestehende RAG-Pipelines.

Quelle: GitHub Search API

👁 5 Aufrufe 👤 5 Leser