Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten sowie die Integration von LLMs.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: NexusRAG ist ein hybrides RAG-System, das Vektorsuche, Wissensgraphen (LightRAG) und Cross-Encoder-Reranking kombiniert. Es verfügt über Docling-Dokumentverarbeitung, visuelle Intelligenz (Bild- und Tabellenbeschriftung), agentebasierten Streaming-Chat und Inline-Zitate. Es wird von Gemini oder lokalen Ollama-Modellen unterstützt.
Warum relevant: NexusRAG ist ein hochgradig innovatives System, das eine Vielzahl von Funktionen in einer selbstgehosteten Umgebung bietet. Es ist besonders relevant für Entwickler, die umfassende RAG-Fähigkeiten und lokale Datenverarbeitung benötigen.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: Flexible-GraphRAG ist ein umfassendes RAG-System, das Python, LlamaIndex und LangChain verwendet. Es unterstützt 13 Datenquellen, automatische Synchronisierung, Wissensgraphen, LLMs, Docling- oder LlamaParse-Dokumentverarbeitung, GraphRAG, RAG-only und Hybrid-Suche. Es verfügt über TypeScript-React, Vue und Angular-Frontends sowie einen FastAPI-REST-Backend und einen MCP-Server.
Warum relevant: Dieses Projekt ist besonders relevant für Entwickler, die eine flexible und erweiterbare RAG-Infrastruktur benötigen, die lokal betrieben werden kann. Die Unterstützung vieler Datenquellen und die Integration verschiedener Technologien machen es zu einer vielseitigen Lösung.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: LongParser ist ein privacy-first Dokumentenintelligenz-Engine, die PDFs, DOCX, PPTX, XLSX und CSV in AI-fähige Chunks für RAG-Pipelines konvertiert. Es enthält eine HITL-Überprüfung, einen 3-Layer-Memory-Chat und einen produktionstauglichen FastAPI-Server.
Warum relevant: LongParser ist besonders relevant für Entwickler, die eine datenschutzfreundliche Lösung für die Verarbeitung und Analyse von Dokumenten benötigen. Die Unterstützung verschiedener Dokumentformate und die Integration von RAG-Funktionen machen es zu einer nützlichen Wahl.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: Chunky ist ein Tool, das Markdown konvertiert und validiert, um die beste Chunking-Strategie für RAG-Pipelines zu wählen. Es unterstützt verschiedene Chunking-Algorithmen und bietet eine benutzerfreundliche Schnittstelle.
Warum relevant: Chunky ist besonders relevant für Entwickler, die eine robuste und flexible Chunking-Lösung für ihre RAG-Pipelines benötigen. Die Validierungsfunktionen und die Unterstützung verschiedener Chunking-Strategien machen es zu einer nützlichen Ergänzung.
LightningRAG (7/10)
Repository: LightningRAG/LightningRAG
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: LightningRAG ist ein vollständiger Vue + Gin-Starter, der eine dekuplierte Frontend- und Backend-Architektur bietet. Es verfügt über eingebaute, erweiterbare RAG-Funktionen, einschließlich Wissensbasen, Vektorsuche und Integrationen mit vielen LLM- und Vektordatenbank-Anbietern.
Warum relevant: LightningRAG ist besonders relevant für Entwickler, die eine moderne, erweiterbare RAG-Infrastruktur in einer vollständigen Webanwendung benötigen. Die Integration verschiedener Technologien und die dekuplierte Architektur machen es zu einer vielseitigen Lösung.
Quelle: GitHub Search API