Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In den folgenden Projekten finden Sie innovative Lösungen für Retrieval-Augmented-Generation (RAG) und Dokumenten-Verarbeitung. Diese Projekte bieten verschiedene Ansätze, um Dokumente in AI-fähige Chunks zu verwandeln, sie zu speichern und abzurufen, um anschließend durch LLMs zu generierte Antworten zu erzeugen.

NexusRAG (9/10)

Repository: LeDat98/NexusRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: NexusRAG ist ein hybrides RAG-System, das Vektorsuche, Wissensgraphen (LightRAG) und Cross-Encoder-Reranking kombiniert. Es verfügt über Docling-Dokumentenparsing, visuelle Intelligenz (Bild- und Tabellenbeschriftung), agenztisches Streaming-Chat und Inline-Zitate. Es wird von Gemini oder lokalen Ollama-Modellen unterstützt.
Warum relevant: NexusRAG ist ein umfassendes und innovatives System, das sowohl selfhostbar als auch mit lokalen Modellen betrieben werden kann, was es zu einer hervorragenden Wahl für die Verarbeitung sensibler Daten macht.

RustyRAG (8/10)

Repository: AlphaCorp-AI/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: RustyRAG ist ein RAG-API-System in Rust, das hybride Suche mit HNSW-dichten Vektoren und BM25-sparse Matching sowie Cross-Encoder-Reranking bietet. Es verfügt über layoutbasiertes Dokumentenextraction mit Docling und erreicht 94.5% Genauigkeit auf dem Open RAG Bench. Es wird von Cerebras, Groq, Milvus und Jina AI unterstützt.
Warum relevant: RustyRAG ist ein leistungsstarkes und reifes System, das sowohl selfhostbar als auch mit verschiedenen Backends betrieben werden kann, was es zu einer robusten Wahl für produktionsreife Anwendungen macht.

LongParser (7/10)

Repository: ENDEVSOLS/LongParser
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: LongParser ist ein datenschutzfreundliches Dokumentenintelligenz-Engine, das PDFs, DOCX, PPTX, XLSX und CSV in AI-fähige Chunks für RAG-Pipelines umwandelt. Es verfügt über eine HITL-Überprüfung, 3-Lagen-Speicher-Chat und einen produktionsreifen FastAPI-Server.
Warum relevant: LongParser ist ein umfassendes System, das verschiedene Dokumentformate unterstützt und selfhostbar ist, was es zu einer guten Wahl für Unternehmen mit hohen Datenschutzanforderungen macht.

chunky (7/10)

Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: chunky ist ein Tool, das Markdown konvertiert und validiert, um die beste Chunking-Strategie für Ihre RAG-Pipeline zu wählen. Es unterstützt verschiedene Dokumentformate und bietet eine flexible Chunking-Logik.
Warum relevant: chunky ist ein nützliches Werkzeug, das die Vorbereitung von Dokumenten für RAG-Pipelines vereinfacht und selfhostbar ist, was es zu einer praktischen Wahl für Entwickler macht.

quarkus-docling (6/10)

Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: quarkus-docling vereinfacht die Dokumentenverarbeitung und das Parsen verschiedener Formate, einschließlich erweiterter PDF-Verarbeitung, und bietet nahtlose Integrationen in das gen-AI-Ökosystem.
Warum relevant: quarkus-docling ist ein nützliches Tool für die Dokumentenverarbeitung, das in Java-Anwendungen integriert werden kann und selfhostbar ist, was es zu einer guten Wahl für Java-Entwickler macht.

Quelle: GitHub Search API

👁 0 Aufrufe 👤 0 Leser