Aktuelle RAG- und Parser-Neuentwicklungen (GitHub)
Hier sind einige der neuesten Projekte, die sich auf Retrieval-Augmented Generation (RAG) und Dokumenten-Parsing konzentrieren. Diese Tools bieten wichtige Funktionen für den Selfhosting-Bereich und können eigene Daten effizient verwalten.
Docling-Java
Repository: docling-project/docling-java
Was es macht:
Docling-Java ist eine Java-API, die Dokumenten-Retrieval und -Parsing unterstützt. Es ermöglicht den Zugriff auf verschiedene Dokumente wie PDFs, Markdown-Dateien und HTML-Dokumente.
Warum relevant: Die API eignet sich gut für Anwendungen, die eigene Datenbanken oder lokale Dateisysteme nutzen möchten, um Inhalte effizient zu durchsuchen und zu verwalten (z.B. Ollama).
Neug
Repository: alibaba/neug
Was es macht:
Neug ist ein eingebettetes Graphendatenbanksystem, das für Analyse und Echtzeittransaktionen optimiert ist. Es unterstützt die Verarbeitung von komplexen Graphdatenstrukturen.
Warum relevant: Als Knowledge-Graph-Datenbank eignet sich Neug gut zur Speicherung und Retrieval von Wissensgraphen aus Dokumenten, was für RAG-Anwendungen hilfreich ist.
Shodh-Memory
Repository: varun29ankuS/shodh-memory
Was es macht:
Shodh-Memory ist ein kognitives Gedächtnis für KI-Agenten, das lernen kann und relevante Informationen speichert. Es unterstützt die Verarbeitung von Text- und Dokumentendaten.
Warum relevant: Dieses Projekt eignet sich gut für Anwendungen, die lokale Daten verwalten und Retrieval von Wissensgraphen aus Dokumenten benötigen (z.B. Ollama).
Quelle: GitHub Search API