Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)
In diesem Artikel stellen wir die aktuellsten Retrieval-Augmented-Generation (RAG) Systeme und Dokumentenparser-Pipelines vor, die auf GitHub entwickelt werden. Diese Projekte bieten innovative Lösungen für den Umgang mit Dokumenten und ermöglichen es Benutzern, eigene Daten lokal zu verarbeiten.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 9/10
Was es macht: NexusRAG ist ein Hybrid-RAG-System, das Vektorsuche, Wissensgraph (LightRAG) und cross-encoder Reranking kombiniert. Es unterstützt Dokumentenverarbeitung mit Docling, visuelle Intelligenz für Bilder/Tafelbeschreibungen sowie agente Streamingschat und Inline-Zitate.
Warum relevant: Das Projekt ermöglicht es Benutzern, eigene Daten lokal zu verarbeiten und bietet eine Vielfalt an Funktionen wie Visual Intelligence und inline Citations.
RustyRAG (8/10)
Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: RustyRAG ist ein Produktionsfähiges RAG-API, das in Rust geschrieben wurde. Es kombiniert hybride Suche mit HNSW dichten Vektoren und BM25 sparsamen Matching sowie layout-bereiten Dokumentenauszug via Docling.
Warum relevant: Das Projekt bietet eine hohe Genauigkeit von 94,5% auf dem Open RAG Bench und unterstützt verschiedene Hardware-Architekturen wie Cerebras, Groq und Milvus.
flexible-graphrag (7/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Flexible GraphRAG bietet eine Python-basierte, Docker-Compose-konforme Lösung für die Verarbeitung von Dokumenten. Es unterstützt verschiedene Datenquellen und integriert LLMs sowie Docling oder LlamaParse-Dokumentverarbeitung.
Warum relevant: Das Projekt ermöglicht es Benutzern, eigene Daten lokal zu verarbeiten und bietet eine Vielzahl an Funktionen für die Verarbeitung von Dokumenten.
pdfstract (7/10)
Repository: AKSarav/pdfstract
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: PDFStract ist eine Extraktions-, Chunking- und Embedding-Schicht für RAG-Pipelines. Es bietet Unterstützung als CLI, WEBUI und API.
Warum relevant: Das Projekt ermöglicht es Benutzern, eigene Daten lokal zu verarbeiten und bietet eine einfache Schnittstelle zur Integration in bestehende RAG-Pipelines.
Quelle: GitHub Search API