Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir eine Auswahl der aktuellsten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub zu finden sind. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und dabei die volle Kontrolle über Ihre Daten gewährleisten.
NexusRAG (9/10)
Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 9/10
Was es macht: NexusRAG ist ein hybrides RAG-System, das Vektorsuche, Wissensgraphen (LightRAG) und Cross-Encoder-Reranking kombiniert. Es verfügt über Docling-Dokumentenverarbeitung, visuelle Intelligenz (Bild- und Tabellenbeschriftung), agenteingestützten Streaming-Chat und Inline-Zitate. Es wird von Gemini oder lokalen Ollama-Modellen unterstützt.
Warum relevant: NexusRAG bietet eine umfassende und innovative Lösung für die Dokumentenverarbeitung und -analyse, die lokal betrieben werden kann. Es ist besonders geeignet für Anwendungen, die eine hohe Genauigkeit und Performanz erfordern.
flexible-graphrag (8/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: flexible-graphrag ist ein flexibles RAG-System, das Python, LlamaIndex und LangChain verwendet. Es unterstützt 13 Datenquellen, automatische Synchronisierung, Wissensgraphen, LLMs und verschiedene Dokumentenverarbeitungsstrategien. Es verfügt über eine REST-API und mehrere Frontend-Optionen.
Warum relevant: Dieses Projekt ist besonders relevant für Entwickler, die eine flexible und erweiterbare RAG-Infrastruktur benötigen. Es bietet eine breite Palette von Funktionen und ist lokal betreibbar, was die Kontrolle über Ihre Daten gewährleistet.
LongParser (7/10)
Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: LongParser ist ein privacy-first Dokumentenintelligenz-Engine, die PDFs, DOCX, PPTX, XLSX und CSV-Dateien in AI-fähige Chunks für RAG-Pipelines verarbeitet. Es verfügt über eine HITL-Überprüfung, 3-Layer-Memory-Chat und einen produktionstauglichen FastAPI-Server.
Warum relevant: LongParser ist eine robuste Lösung für die Dokumentenverarbeitung, die den Schutz der Privatsphäre im Vordergrund stellt. Es ist lokal betreibbar und eignet sich gut für Unternehmen, die sensible Daten verarbeiten müssen.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: chunky ist ein Tool zur Konvertierung und Validierung von Markdown-Dokumenten, das die beste Chunking-Strategie für Ihre RAG-Pipeline auswählt. Es unterstützt verschiedene Dokumentformate und bietet eine Vielzahl von Chunking-Optionen.
Warum relevant: chunky ist besonders nützlich für Entwickler, die eine präzise und effiziente Chunking-Strategie für ihre RAG-Pipelines benötigen. Es ist lokal betreibbar und bietet eine flexible Lösung für die Dokumentenverarbeitung.
LightningRAG (7/10)
Repository: LightningRAG/LightningRAG
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: LightningRAG ist ein vollständiger Vue + Gin Starter, der ein dekoupliertes Frontend und Backend bietet. Es verfügt über integrierte, erweiterbare RAG-Funktionen, einschließlich Wissensbasen, Vektorsuche und Integrationen mit verschiedenen LLM- und Vektorspeicheranbietern.
Warum relevant: LightningRAG ist eine umfassende Lösung für die Entwicklung von RAG-Anwendungen, die eine moderne, dekouplierte Architektur verwenden. Es ist lokal betreibbar und eignet sich gut für Entwickler, die eine schnelle und flexible Entwicklung von RAG-Projekten benötigen.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 6/10
Was es macht: quarkus-docling vereinfacht die Dokumentenverarbeitung und unterstützt verschiedene Formate, einschließlich erweiterter PDF-Verarbeitung. Es bietet nahtlose Integrationen in das gen-AI-Ökosystem.
Warum relevant: quarkus-docling ist besonders relevant für Entwickler, die eine robuste und flexible Dokumentenverarbeitung in Java-Anwendungen integrieren möchten. Es ist lokal betreibbar und bietet eine gute Basis für die Erweiterung mit RAG-Funktionen.
Quelle: GitHub Search API