Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten Repositories vor, die sich mit Retrieval-Augmented-Generation (RAG) und Dokumentverarbeitung befassen. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, oft in Kombination mit lokalen LLMs und Selfhosting-Optionen.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: NexusRAG ist ein hybrides RAG-System, das Vektorsuche, Wissensgraphen (LightRAG) und Cross-Encoder-Reranking kombiniert. Es verarbeitet Dokumente mit Docling, bietet visuelle Intelligenz (Bild- und Tabellenbeschriftung), agente Chat-Streaming und Inline-Zitate. Unterstützt wird es von Gemini oder lokalen Ollama-Modellen.
Warum relevant: NexusRAG ist eine innovative Lösung, die verschiedene Technologien in einer robusten Pipeline vereint. Es ist selbstgehostet und ermöglicht die Verarbeitung eigener Daten mit lokalen LLMs.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: flexible-graphrag ist ein umfassendes RAG-System, das Python, LlamaIndex und LangChain verwendet. Es unterstützt 13 Datenquellen, automatische Synchronisierung, Wissensgraphen, LLMs, Dokumentverarbeitung und verschiedene Suchmethoden. Es bietet auch Frontends in TypeScript, React, Vue und Angular sowie einen FastAPI-REST-Backend und einen MCP-Server.
Warum relevant: Dieses Projekt ist sehr umfassend und flexibel, was es zu einer robusten Lösung für komplexe RAG-Anwendungen macht. Es ist selbstgehostet und unterstützt eine Vielzahl von Datenquellen und Technologien.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: LongParser ist ein privacy-first Dokumentenintelligenz-Engine, die PDFs, DOCX, PPTX, XLSX und CSV in AI-fähige Chunks für RAG-Pipelines umwandelt. Es bietet eine HITL-Überprüfung, 3-Layer-Memory-Chat und einen produktionsfähigen FastAPI-Server.
Warum relevant: LongParser ist eine umfassende Lösung für die Verarbeitung verschiedener Dokumentformate und bietet eine robuste RAG-Pipeline. Es ist selbstgehostet und bietet eine hohe Datenschutzstandards.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: chunky ist ein Tool, das Markdown konvertiert und validiert und die beste Chunking-Strategie für RAG-Pipelines auswählt. Es unterstützt verschiedene Dokumentformate und bietet eine robuste Chunking-Logik.
Warum relevant: chunky ist ein nützliches Tool für die Vorbereitung von Dokumenten für RAG-Pipelines. Es ist selbstgehostet und bietet eine einfache Integration in bestehende Workflows.
LightningRAG (7/10)
Repository: LightningRAG/LightningRAG
Bewertung: RAG-Kern 3/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: LightningRAG ist ein vollständiger Vue + Gin Starter, der eine dekuplierte Frontend- und Backend-Architektur bietet. Es enthält ein erweiterbares RAG-System mit Wissensbasen, Vektorsuche und Integrationen mit verschiedenen LLM- und Vektorspeicheranbietern.
Warum relevant: LightningRAG ist eine moderne, vollständige Lösung für RAG-Anwendungen, die eine flexible Architektur und eine breite Palette von Integrationsmöglichkeiten bietet. Es ist selbstgehostet und eignet sich gut für produktive Umgebungen.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 1/1 = 6/10
Was es macht: quarkus-docling vereinfacht die Dokumentverarbeitung und unterstützt verschiedene Formate, einschließlich fortgeschrittener PDF-Verarbeitung. Es bietet nahtlose Integrationen in das genAI-Ökosystem.
Warum relevant: quarkus-docling ist eine robuste Lösung für die Dokumentverarbeitung und eignet sich gut für Java-basierte Anwendungen. Es ist selbstgehostet und bietet eine breite Palette von Funktionen.
Quelle: GitHub Search API