MLX-Community: Apple Silicon für lokale KI-Agenten

Das MLX-Projekt von Apple’s ML Research Team ist derzeit in hohem Tempo in Entwicklung. Es fokussiert sich auf die effiziente Ausführung von lokalen LLMs auf Apple Silicon, insbesondere für Anwendungen wie Claude Code, OpenClaw und Cursor. Die Community diskutiert aktuell Themen wie Modell-Integration, Performance-Optimierungen und verteilte Inferenz.

[oMLX – MLX inference server with paged SSD caching for coding agents on Apple Silicon] (8/10) — OpenCode-Fit: JA

Zur Discussion

Verdict (1 Satz): oMLX revolutioniert die lokale Inferenz auf Apple Silicon durch SSD-caching, was die Performance bei agenischen Workloads massiv verbessert.
Hardware: nicht im Post belegt
Modell: nicht im Post belegt
tok/s-Claim: TTFT von 30-90s auf 1-3s reduziert
Cluster-Bezug: Single-Node
Investment-Empfehlung: Mac Studio M3 Ultra 512 GB (~10.000 EUR)

Kontext (2-3 Saetze): oMLX ist ein MLX-basierter LLM-Inferenz-Server, der durch paged SSD caching die KV-Cache-Blöcke auf der Festplatte persistiert. Dies führt zu einer drastischen Reduzierung der Antwortzeiten bei wechselnden Prompt-Prefixen, was lokal agenische Workflows wie Claude Code, OpenClaw und Cursor stark verbessert.

[ASH-KV: Asynchronous Self-Healing Cache (Zero-Latency Metal Mask Injection)] (8/10) — OpenCode-Fit: JA

Zur Discussion

Verdict (1 Satz): ASH-KV verbessert die Zuverlässigkeit von MLX-Inferenz durch asynchrones Heilen von Halluzinationen, was für kritische Anwendungen wie klinische Triage wichtig ist.
Hardware: nicht im Post belegt
Modell: nicht im Post belegt
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single-Node
Investment-Empfehlung: Mac Studio M3 Ultra 512 GB (~10.000 EUR)

Kontext (2-3 Saetze): ASH-KV ist ein asynchroner Selbstheilungs-Cache, der Halluzinationen in MLX-Inferenz-Loops erkennen und korrigieren kann. Dies wird durch die Verwendung von Apple Silicon’s Unified Memory und Metal-Kernen erreicht, ohne Latenz oder Speicherneuzuweisung.

[📝 Integration Proposal: CAJAL — Scientific Paper Model for MLX] (7/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Verdict (1 Satz): CAJAL ist ein spezialisiertes Modell zur Erstellung von wissenschaftlichen Arbeiten, das auf Apple Silicon effizient läuft und für akademische Nutzer interessant sein könnte.
Hardware: nicht im Post belegt
Modell: CAJAL-4B-P2PCLAW
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single-Node
Investment-Empfehlung: Mac Studio M3 Ultra 256 GB (~6.000 EUR)

Kontext (2-3 Saetze): CAJAL ist ein 2GB-Modell, das speziell für die Erstellung von wissenschaftlichen Arbeiten entwickelt wurde. Es integriert sich nahtlos in MLX und nutzt die Effizienz von Apple Silicon. Für akademische Nutzer, die lokale, performante Papiergenerierung benötigen, ist dies eine interessante Option.

[Fused Metal kernels for SSM (Mamba) and GLA recurrence — MLX-Recurrence] (7/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Verdict (1 Satz): MLX-Recurrence optimiert die Performance von SSM und GLA-Modellen durch eingebettete Metal-Kerne, was die Trainingseffizienz auf Apple Silicon erheblich verbessert.
Hardware: nicht im Post belegt
Modell: SSM (Mamba), GLA
tok/s-Claim: SSM: 19x schneller, GLA: 31.8x schneller
Cluster-Bezug: Single-Node
Investment-Empfehlung: Mac Studio M3 Ultra 512 GB (~10.000 EUR)

Kontext (2-3 Saetze): MLX-Recurrence bietet eingebettete Metal-Kerne für SSM und GLA-Modelle, die die Performance bei sequenziellen Scans erheblich verbessern. Dies führt zu einer durchschnittlichen Trainingseffizienzsteigerung von 3x, was für fortgeschrittene Anwendungen wie Mamba und GLA von Vorteil ist.

[Guide: RDMA file transfer over Thunderbolt 5 with JACCL (3.5+ GB/s)] (6/10) — OpenCode-Fit: NEIN

Zur Discussion

Verdict (1 Satz): Dieser Guide zeigt, wie man RDMA über Thunderbolt 5 für hochgeschwindige Dateiübertragungen nutzt, was für verteilte Systeme auf Apple Silicon nützlich sein kann.
Hardware: Mac Studio M3 Ultra (macOS 26.3.1)
Modell: nicht im Post belegt
tok/s-Claim: 3.5–3.8 GB/s
Cluster-Bezug: Multi-Node
Investment-Empfehlung: 2x Mac Studio M3 Ultra 512 GB (~20.000 EUR)

Kontext (2-3 Saetze): Der Guide beschreibt, wie man RDMA über Thunderbolt 5 für Dateiübertragungen nutzt, um eine durchschnittliche Geschwindigkeit von 3.5–3.8 GB/s zu erreichen. Dies ist besonders nützlich für verteilte Systeme, die große Datenmengen schnell austauschen müssen.

[Eco-Metal — 63 Modular Plugins for Advanced LLM Inference natively on MSL] (6/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Verdict (1 Satz): Eco-Metal bietet eine Sammlung von 63 modularen AI-Komponenten, die speziell für Apple Silicon optimiert sind und die Performance von LLMs erheblich verbessern.
Hardware: nicht im Post belegt
Modell: nicht im Post belegt
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single-Node
Investment-Empfehlung: Mac Studio M3 Ultra 512 GB (~10.000 EUR)

Kontext (2-3 Saetze): Eco-Metal ist eine Sammlung von 63 modularen AI-Komponenten, die auf Metal Shading Language (MSL) basieren und speziell für Apple Silicon optimiert sind. Es bietet Funktionen wie paged attention, extreme Quantisierung und tri-attention, die die Performance von LLMs erheblich verbessern.

Weitere Diskussionen:

– Custom callable function from within the C++ API
– Can you stop gradients for part of a tensor?
– Showcase / question: a board-proven offline language runtime on ESP32-C3
– MLX for scientific and molecular computing and special functions?
– Loading models with mmap
– Question about tokenization artifacts with some MLX models
– Question about metal gemm
– C++ or Swift equivalents of this python indexing/slicing code?
– MLX Community Projects

👁 1 Aufrufe 👤 1 Leser