Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)
In diesem Artikel stellen wir die aktuellsten und innovativsten Projekte im Bereich Retrieval-Augmented Generation (RAG) sowie Dokumentenverarbeitung vor. Diese Projekte kombinieren moderne Techniken zur Dokumentenanalyse mit maschinellem Lernen, um effiziente RAG-Pipelines zu erstellen.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 9/10
Was es macht: NexusRAG ist ein Hybrid-RAG-System, das Vektorsuche, Wissensgraphen (LightRAG) und Cross-Erkenner-Reranking kombiniert. Es unterstützt die Verarbeitung von Dokumenten mit Docling, bietet visuelle Intelligenz für Bilder und Tabellen sowie agente Streamchat-Funktionen.
Warum relevant: Das Projekt ermöglicht es Benutzern, eigene Daten zu verwenden und lokale Ollama-Modelle oder Google Gemini zu nutzen. Es ist vollständig selfhostbar.
RustyRAG (8/10)
Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: RustyRAG ist ein robustes, produktionsfähiges RAG-System in Rust. Es kombiniert hybride Suche (HNSW + BM25), Cross-Erkenner-Reranking und Dokumentenextraktion mit Docling.
Warum relevant: Das Projekt unterstützt Cerebras, Groq, Milvus und Jina AI und ist vollständig selfhostbar.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: Flexible GraphRAG bietet eine flexible Python-basierte Umgebung mit Docker Compose, die mehrere Graph- und Vektordatenbanken unterstützt. Es ermöglicht die Verarbeitung von Dokumenten mit Docling oder LlamaParse.
Warum relevant: Das Projekt ist vollständig selfhostbar und bietet Unterstützung für verschiedene Datenquellen und Frontends.
ClawRag (7/10)
Repository: 2dogsandanerd/ClawRag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: ClawRag kombiniert Docling zur Dokumentenverarbeitung mit ChromaDB für Vektorspeicher, um openclaw zu unterstützen.
Warum relevant: Das Projekt ermöglicht die Verwendung von eigenen Daten und ist vollständig selfhostbar.
pdfstract (7/10)
Repository: AKSarav/pdfstract
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: PDFStract ist ein Extraktions-, Chunking- und Embedding-Layer für RAG-Pipelines, der als CLI, WEBUI oder API verfügbar ist.
Warum relevant: Das Projekt ermöglicht die Verarbeitung von PDF-Dokumenten und ist vollständig selfhostbar.
Quelle: GitHub Search API