MLX-Community: Apple Silicon für lokale KI-Agenten

Das MLX-Projekt von Apple steht aktuell im Fokus der Community, insbesondere hinsichtlich der Unterstützung neuer Modelle, der Optimierung der Performance und der Integration in verteilte Systeme. Für Nutzer, die OpenCode-Workloads auf Apple Silicon betreiben möchten, sind aktuelle Entwicklungen in Bereichen wie Modell-Support, Quantisierung, Performance und verteilte Architekturen von besonderer Relevanz.

MLX Community Projects (5/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Verdict: Diese Diskussion bietet eine Übersicht über verschiedene Community-Projekte, die MLX nutzen. Für den Kauf eines Mac Studio oder eines EXO-Clusters ist dies eher ein Informationswert, da es keine spezifischen Benchmarks oder Hardware-Tests enthält.

Hardware: nicht im Post belegt
Modell: nicht im Post belegt
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: nicht im Post belegt
Investment-Empfehlung: nicht aus Titel ableitbar

Kontext: Der Leser sollte die Projekte durchgehen, um zu sehen, welche Anwendungen bereits existieren und ob sie für seine spezifischen Anforderungen geeignet sind.

4-bit `gather_qmm` weight-reuse GEMM tops out ~80 GB/s at small MoE M on M5 Pro – is tile tuning of `gather_qmm_rhs_nax` feasible? (8/10) — OpenCode-Fit: NEIN

Zur Discussion

Verdict: Diese Diskussion ist für Entwickler relevant, die die Performance von 4-bit Quantisierung und MoE-Modellen auf Apple Silicon optimieren möchten. Für den Kauf eines Mac Studio oder EXO-Clusters bietet sie wertvolle Einblicke in die aktuellen Limitierungen.

Hardware: M5 Pro
Modell: MoE-Modelle
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single-Node
Investment-Empfehlung: nicht aus Titel ableitbar

Kontext: Der Leser sollte die Benchmarks und die Diskussion über die Performance-Optimierung lesen, um zu verstehen, welche Hardware- und Software-Optimierungen notwendig sind, um die gewünschte Performance zu erreichen.

mlx-chronos: benchmark suite and leaderboard for MLX inference engines (9/10) — OpenCode-Fit: JA

Zur Discussion

Verdict: mlx-chronos ist ein Benchmark-Suite, die es ermöglicht, verschiedene MLX-Inferenz-Engines auf Apple Silicon zu vergleichen. Dies ist besonders nützlich für Nutzer, die die Performance verschiedener Modelle und Mac-Konfigurationen bewerten möchten.

Hardware: Apple Silicon Macs
Modell: verschiedene Modelle
tok/s-Claim: TTFT, Request Throughput, Sustained Throughput
Cluster-Bezug: Single-Node
Investment-Empfehlung: nicht aus Titel ableitbar

Kontext: Der Leser sollte die Benchmarks und den Leaderboard durchgehen, um eine fundierte Entscheidung für die Hardware- und Software-Konfiguration zu treffen.

Mixed-stack home lab: ~7× throughput meshing MLX/oMLX + LM Studio + llama.cpp + vLLM (8/10) — OpenCode-Fit: JA

Zur Discussion

Verdict: Diese Diskussion zeigt, wie man eine gemischte Home-Lab-Umgebung mit Apple Silicon und Linux einrichten kann, um die Throughput-Leistung zu steigern. Für Nutzer, die mehrere Maschinen verwenden, ist dies eine wertvolle Ressource.

Hardware: 2× Linux, 3× Apple Silicon Macs
Modell: verschiedene Modelle
tok/s-Claim: ~7× Throughput
Cluster-Bezug: Multi-Node
Investment-Empfehlung: nicht aus Titel ableitbar

Kontext: Der Leser sollte die Einrichtung und Konfiguration des llm-swarm-router durchgehen, um zu verstehen, wie man die Performance in einer verteilten Umgebung optimieren kann.

Patterns for capturing intermediate layer outputs (forward hooks equivalent) (7/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Verdict: Diese Diskussion bietet Lösungen für die Erfassung von Zwischenergebnissen in Transformer-Layern, was für die Entwicklung von Monitoring-Tools und der Analyse von Modell-Verhalten nützlich sein kann.

Hardware: M4 Pro
Modell: Qwen2.5-7B-4bit
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single-Node
Investment-Empfehlung: nicht aus Titel ableitbar

Kontext: Der Leser sollte die vorgeschlagenen Muster und Workarounds lesen, um zu verstehen, wie man Zwischenergebnisse effektiv erfassen kann.

MacProvider — making mlx-lm endpoints addressable over the internet, with verifiable inference (8/10) — OpenCode-Fit: JA

Zur Discussion

Verdict: MacProvider ermöglicht es, MLX-Endpoints über das Internet zu erreichen und bietet verifizierbare Inferenz. Dies ist besonders nützlich für Anwendungen, die lokal betrieben werden, aber von externen Geräten oder Diensten erreicht werden müssen.

Hardware: Apple Silicon Macs
Modell: nicht im Post belegt
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single-Node
Investment-Empfehlung: nicht aus Titel ableitbar

Kontext: Der Leser sollte die Funktionsweise und die Sicherheitsaspekte von MacProvider durchgehen, um zu verstehen, wie man lokale MLX-Endpoints sicher über das Internet verfügbar machen kann.

WCER: run a Mixture-of-Experts using only the experts your workload uses (8/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Verdict: WCER ist eine Methode, um die Speicherverwendung von MoE-Modellen zu optimieren, indem nur die tatsächlich genutzten Experten im Speicher gehalten werden. Dies kann die Performance und Effizienz von großen Modellen erheblich verbessern.

Hardware: nicht im Post belegt
Modell: verschiedene MoE-Modelle
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single-Node
Investment-Empfehlung: nicht aus Titel ableitbar

Kontext: Der Leser sollte die Ergebnisse der Studie und die Implementierung von WCER lesen, um zu verstehen, wie man die Speicherverwendung und Performance von MoE-Modellen optimieren kann.

docker_mlx_cpp — Give any Docker container Metal GPU access (107 ops) (8/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Verdict: docker_mlx_cpp ermöglicht es, Docker-Containern auf Apple Silicon den Zugriff auf die Metal-GPU zu ermöglichen. Dies ist besonders nützlich für Entwickler, die ML-Workloads in Containern betreiben möchten.

Hardware: M5, 24GB
Modell: nicht im Post belegt
tok/s-Claim: ~95 TFLOPS (Matmul 1024×1024), 1.6ms (Flash Attention), 0.4ms (Conv2d), 0.5ms (FFT2)
Cluster-Bezug: Single-Node
Investment-Empfehlung: nicht aus Titel ableitbar

Kontext: Der Leser sollte die Installation und die Benchmarks durchgehen, um zu verstehen, wie man Docker-Containern auf Apple Silicon den Zugriff auf die Metal-GPU ermöglichen kann.

Weitere Diskussionen:

– The module ‚mlx.core.metal‘ has no attribute ‚device_info‘?
– Can you stop gradients for part of a tensor?
– metal RWKV
– Sparse array primitives and linalg for MLX
– RFC: Read-only Metal storage export view for evaluated arrays

👁 1 Aufrufe 👤 1 Leser