Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten und vielversprechendsten RAG-Systeme und Parser-Pipelines vor, die auf GitHub veröffentlicht wurden. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, die von verschiedenen Quellen stammen können.
flexible-graphrag (9/10)
Repository: stevereiner/flexible-graphrag
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 2/2 | Reife 0/1 = 9/10
Was es macht: `flexible-graphrag` ist ein umfassendes RAG-System, das verschiedene Graph-Datenbanken (wie Neo4j, Alfresco) und Vektordatenbanken (wie OpenSearch, Elasticsearch) unterstützt. Es verarbeitet 13 Datensourcen, baut automatisch Wissensgraphen auf, und bietet eine benutzerfreundliche Schnittstelle für AI-Chat und semantische Suche.
Warum relevant: Das Projekt ist vollständig self-hostbar und nutzt moderne Technologien wie LlamaIndex und LangChain. Es ist besonders innovativ durch die Kombination von Graph- und Vektordatenbanken sowie die automatische Synchronisation von Datenquellen.
RustyRAG (8/10)
Repository: RustyRAG/RustyRAG
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 8/10
Was es macht: `RustyRAG` ist ein leistungsstarkes RAG-API-System, das in Rust entwickelt wurde. Es verwendet hybride Suchmethoden (HNSW-Vektoren und BM25-sparse-Matching) und bietet eine hohe Genauigkeit bei der Dokumentenverarbeitung und -extraktion.
Warum relevant: Das Projekt ist vollständig self-hostbar und nutzt moderne Technologien wie Cerebras, Groq und Milvus. Es ist besonders relevant für Entwickler, die eine robuste und performante RAG-Lösung suchen.
chunky (7/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 2/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 7/10
Was es macht: `chunky` ist ein Open-Source-Toolkit für zuverlässige RAG-Pipelines. Es konvertiert PDFs in Markdown, bereinigt Dokumente, inspiziert Chunks, vergleicht Chunking-Strategien und bereichert Metadaten für LLM-Anwendungen.
Warum relevant: Das Projekt ist vollständig self-hostbar und bietet eine umfassende Sammlung von Werkzeugen für die Dokumentenverarbeitung. Es ist besonders nützlich für Entwickler, die eine detaillierte Kontrolle über die Chunking-Strategien benötigen.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 1/3 | Dokumente 2/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 1/1 = 6/10
Was es macht: `quarkus-docling` vereinfacht die Dokumentenverarbeitung und unterstützt verschiedene Formate, einschließlich fortgeschrittene PDF-Verarbeitung. Es bietet nahtlose Integrationen in das gen-AI-Ökosystem.
Warum relevant: Das Projekt ist als Quarkus-Erweiterung verfügbar und eignet sich gut für Java-Entwickler, die eine robuste Dokumentenverarbeitung in ihre Anwendungen integrieren möchten.
Quelle: GitHub Search API