Aktuelle RAG-Systeme und Parser-Pipelines (GitHub)

In diesem Artikel stellen wir die neuesten Entwicklungen im Bereich RAG-Systeme und Parser-Pipelines vor. Diese Projekte bieten innovative Lösungen für die Verarbeitung und Analyse von Dokumenten, wobei sie auf Selfhosting und die Verwendung lokaler LLMs wie Ollama setzen.
chunky (8/10)
Repository: GiovanniPasq/chunky
Bewertung: RAG-Kern 3/3 | Dokumente 2/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 0/1 = 8/10
Was es macht: chunky ist ein Open-Source-Toolkit, das zuverlässige RAG-Pipelines ermöglicht. Es konvertiert PDFs in Markdown, bereinigt Dokumente, inspiziert Chunks, vergleicht Chunking-Strategien und bereichert Metadaten für LLM-Anwendungen.
Warum relevant: chunky bietet eine umfassende Lösung für die Verarbeitung und Analyse von Dokumenten, die lokal betrieben werden kann. Es ist besonders nützlich für Entwickler, die ihre eigenen Daten schützen möchten und flexibel mit verschiedenen LLMs arbeiten wollen.
self-hosted-ai-stack (7/10)
Repository: hwdsl2/self-hosted-ai-stack
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 2/2 | Innovation 1/2 | Reife 1/1 = 7/10
Was es macht: self-hosted-ai-stack ermöglicht es, eine vollständige, lokal betriebene AI-Stack mit Docker Compose zu bereitstellen. Es umfasst Ollama, LiteLLM, Whisper, Embeddings, Docling und mehr. Die Stack ist leichtgewichtig, privat und unterstützt NVIDIA CUDA-Beschleunigung.
Warum relevant: Dieses Projekt ist ideal für Entwickler, die eine umfassende, lokal betriebene AI-Umgebung aufbauen möchten. Es bietet eine breite Palette von Tools und ist besonders nützlich für die Verarbeitung von Sprache und Text.
quarkus-docling (6/10)
Repository: quarkiverse/quarkus-docling
Bewertung: RAG-Kern 2/3 | Dokumente 1/2 | Selfhosting 1/2 | Innovation 1/2 | Reife 0/1 = 6/10
Was es macht: quarkus-docling vereinfacht die Verarbeitung von Dokumenten und das Parsen verschiedener Formate, einschließlich fortgeschrittener PDF-Verarbeitung. Es bietet nahtlose Integrationen mit dem gen AI-Ökosystem.
Warum relevant: quarkus-docling ist besonders nützlich für Entwickler, die in Java arbeiten und eine robuste Lösung für die Dokumentenverarbeitung suchen. Es ist leicht zu integrieren und erweitert die Funktionalität von Quarkus.
Quelle: GitHub Search API