Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)
In diesem Artikel stellen wir die aktuellsten GitHub-Projekte im Bereich Retrieval-Augmented Generation (RAG) und Dokumentenverarbeitung vor. Diese Projekte bieten innovative Lösungen für den Umgang mit eigenen Daten, sind oft selbsthostbar und integrieren moderne Sprachmodelle.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 9/10
Was es macht: NexusRAG ist ein Hybrid-RAG-System, das Vektorsuche, Wissensgraph (LightRAG) und cross-encoder Reranking kombiniert. Es nutzt Docling für Dokumentenverarbeitung und bietet visuelle Intelligenz wie Bild-/Tabellenkennungen sowie agente Streamingschat mit eingebetteten Zitaten.
Warum relevant: Das Projekt ist sowohl selbsthostbar als auch in der Lage, lokale Ollama-Modelle zu nutzen. Es kombiniert verschiedene innovative Techniken und bietet eine umfassende Lösung für den Umgang mit komplexen Dokumenten.
RustyRAG (8/10)
Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: RustyRAG ist ein Produktionsfähiges RAG-API, das in Rust geschrieben wurde. Es bietet eine hybride Suche mit HNSW dichten Vektoren und BM25 sparsamen Matching sowie layout-aware Dokumentenauszeichnung via Docling.
Warum relevant: Das Projekt unterstützt verschiedene Hardware-Accelerationen (Cerebras, Groq) und Datenbanken (Milvus), was es zu einer robusten Lösung für die Verarbeitung großer Datenmengen macht.
flexible-graphrag (7/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: Flexible GraphRAG ist ein Python-basiertes Projekt, das Docker Compose verwendet und eine Vielzahl von Datenquellen unterstützt. Es bietet Kombinationen aus Wissensgraphen, Vektordatenbanken, OpenSearch, Elasticsearch sowie Alfresco.
Warum relevant: Das Projekt ermöglicht es Benutzern, eigene Datenquellen zu integrieren und bietet eine breite Palette an Frontend-Technologien (React, Vue, Angular) und Backend-APIs.
pdfstract (6/10)
Repository: AKSarav/pdfstract
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: PDFStract ist ein Extraktions-, Chunking- und Embedding-Layer für RAG-Pipelines, der als CLI, WEBUI oder API verfügbar ist.
Warum relevant: Das Projekt bietet eine einfache Möglichkeit, PDF-Dokumente zu extrahieren und in einer RAG-Pipeline einzubetten. Es unterstützt verschiedene Dokumentformate und kann leicht selbst gehostet werden.
Quelle: GitHub Search API