Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden können und dabei die Datenschutzbedenken der Nutzer berücksichtigen.

NexusRAG (9/10)

Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: NexusRAG ist ein hybrides RAG-System, das Vektorsuche, Wissensgraphen (LightRAG) und Cross-Encoder-Reranking kombiniert. Es verfügt über Docling-Dokumentverarbeitung, visuelle Intelligenz (Bild- und Tabellenbeschriftung), agentebasierten Streaming-Chat und Inline-Zitate. Es wird von Gemini oder lokalen Ollama-Modellen unterstützt.
Warum relevant: NexusRAG bietet eine umfassende und innovative Lösung für die Dokumentverarbeitung und RAG-Pipelines, die lokal betrieben werden kann. Es ist besonders geeignet für Nutzer, die hohe Anforderungen an Datenschutz und Leistung stellen.

RustyRAG (8/10)

Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: RustyRAG ist ein RAG-API-System, das in Rust entwickelt wurde. Es kombiniert HNSW-dichte Vektoren und BM25-sparse Matching mit Cross-Encoder-Reranking und layoutbewusster Dokumentextraktion. Es erreicht 94.5% Genauigkeit auf dem Open RAG Bench und wird von Cerebras, Groq, Milvus und Jina AI unterstützt.
Warum relevant: RustyRAG ist ein leistungsstarkes und produktionstaugliches RAG-System, das lokal betrieben werden kann. Es ist besonders geeignet für Unternehmen, die hohe Anforderungen an Performance und Skalierbarkeit haben.

LongParser (7/10)

Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: LongParser ist ein Datenschutz-freundliches Dokumentenintelligenz-Engine, das PDFs, DOCX, PPTX, XLSX und CSV in AI-fähige Chunks für RAG-Pipelines konvertiert. Es verfügt über eine HITL-Überprüfung, 3-Lagen-Speicher-Chat und einen produktionstauglichen FastAPI-Server.
Warum relevant: LongParser ist eine umfassende Lösung für die Dokumentverarbeitung, die den Datenschutz der Nutzer im Vordergrund stellt. Es ist besonders geeignet für Unternehmen, die sensible Daten verarbeiten und eine hohe Kontrolle über ihre Daten benötigen.

chunky (7/10)

Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: chunky ist ein Tool zur Konvertierung und Validierung von Markdown, das die beste Chunking-Strategie für RAG-Pipelines auswählt. Es unterstützt die Verarbeitung von Markdown, PDFs und anderen Dokumentformaten.
Warum relevant: chunky ist ein nützliches Tool für die Vorbereitung von Dokumenten für RAG-Pipelines. Es ist besonders geeignet für Entwickler, die eine flexible und benutzerdefinierte Chunking-Strategie benötigen.

LightningRAG (7/10)

Repository: LightningRAG/LightningRAG
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: LightningRAG ist ein vollständiger Vue + Gin-Stack mit einem dekouplierten Frontend und Backend. Es verfügt über eingebaute, erweiterbare RAG-Funktionen, einschließlich Wissensbasen, Vektorsuche und Integrationen mit verschiedenen LLM- und Vektorspeicheranbietern.
Warum relevant: LightningRAG bietet eine umfassende und erweiterbare Lösung für RAG-Pipelines, die lokal betrieben werden kann. Es ist besonders geeignet für Entwickler, die eine vollständige und flexibele RAG-Infrastruktur benötigen.

quarkus-docling (6/10)

Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: quarkus-docling vereinfacht die Dokumentverarbeitung und unterstützt die Verarbeitung verschiedener Formate, einschließlich fortgeschrittener PDF-Verarbeitung. Es bietet nahtlose Integrationen mit dem genAI-Ökosystem.
Warum relevant: quarkus-docling ist ein nützliches Tool für die Dokumentverarbeitung, das in Java-Anwendungen integriert werden kann. Es ist besonders geeignet für Entwickler, die eine robuste und flexible Dokumentverarbeitung in ihre Java-Anwendungen integrieren möchten.

Quelle: GitHub Search API

👁 1 Aufrufe 👤 1 Leser