Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten Entwicklungen im Bereich RAG-Systeme und Parser-Pipelines vor. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, wobei sie oft auf lokalen Systemen betrieben werden können.

NexusRAG (9/10)

Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 9/10
Was es macht: NexusRAG ist ein hybrides RAG-System, das Vektorsuche, Wissensgraphen (LightRAG) und Cross-Encoder-Reranking kombiniert. Es verfügt über Docling-Dokumentenparsing, visuelle Intelligenz (Bild- und Tabellenbeschriftung), agentenbasierten Streaming-Chat und Inline-Zitate. Es wird von Gemini oder lokalen Ollama-Modellen unterstützt.
Warum relevant: NexusRAG ist ein hochentwickeltes System, das sowohl lokale als auch cloudbasierte Modelle unterstützt. Es bietet umfassende Funktionen für die Dokumentenverarbeitung und ist ideal für Selfhosting-Szenarien.

RustyRAG (8/10)

Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: RustyRAG ist ein RAG-API-System, das in Rust entwickelt wurde. Es kombiniert HNSW-dichte Vektoren und BM25-sparse Matching mit Cross-Encoder-Reranking und layoutbewusstem Dokumentenextraktionsverfahren. Es erreicht 94.5% Genauigkeit auf der Open RAG Bench und wird von Cerebras, Groq, Milvus und Jina AI unterstützt.
Warum relevant: RustyRAG ist ein leistungsstarkes und reif entwickeltes System, das sowohl für lokale als auch für produktionsreife Anwendungen geeignet ist. Es bietet eine hohe Genauigkeit und ist gut dokumentiert.

LongParser (7/10)

Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: LongParser ist ein datenschutzfreundliches Dokumentenintelligenz-System, das PDFs, DOCX, PPTX, XLSX und CSV-Dateien in AI-fähige Chunks für RAG-Pipelines konvertiert. Es enthält eine HITL-Überprüfung, einen 3-Schichten-Speicher-Chat und einen produktionsbereiten FastAPI-Server.
Warum relevant: LongParser ist ein umfassendes System zur Dokumentenverarbeitung, das auf lokale Betriebsumgebungen abgestimmt ist. Es bietet eine Vielzahl von Funktionen und ist gut dokumentiert.

chunky (7/10)

Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 1/1 = 7/10
Was es macht: chunky ist ein Tool, das Markdown-Dokumente konvertiert und validiert, um die beste Chunking-Strategie für RAG-Pipelines zu wählen. Es unterstützt verschiedene Chunking-Algorithmen und bietet eine benutzerfreundliche Schnittstelle.
Warum relevant: chunky ist ein innovatives Tool, das die Vorbereitung von Dokumenten für RAG-Pipelines erleichtert. Es ist lokal betreibbar und bietet eine hohe Flexibilität in der Chunking-Strategie.

quarkus-docling (6/10)

Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 6/10
Was es macht: quarkus-docling vereinfacht die Dokumentenverarbeitung und das Parsen verschiedener Formate, einschließlich erweiterter PDF-Verarbeitung. Es bietet nahtlose Integrationen in den gen-AI-Ökosystem.
Warum relevant: quarkus-docling ist ein nützliches Tool für die Dokumentenverarbeitung, das gut in Java-basierte Anwendungen integriert werden kann. Es ist lokal betreibbar und bietet eine gute Dokumentation.

Quelle: GitHub Search API

👁 0 Aufrufe 👤 0 Leser