MLX-Community: Apple Silicon für lokale KI-Agenten

Das MLX-Projekt von Apple ist derzeit in hohem Tempo weiterentwickelt, um lokale LLMs auf Apple Silicon zu optimieren. Besonders interessant für den Einsatz von OpenCode und ähnlichen Agenten-Tools sind die Fortschritte im Bereich der Modell-Unterstützung, Quantisierung und Performance-Optimierung. Die Community diskutiert aktuell, wie man die Claude-Opus-Nähe auf Mac Studio erreichen kann, und welche Hardware-Konfigurationen dafür am besten geeignet sind.

[MLX Community Projects] (6/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Verdict: Diese Diskussion sammelt verschiedene Community-Projekte, die MLX nutzen. Für den Einsatz von OpenCode sind einige Projekte relevant, insbesondere die, die sich mit Tool-Calling und langen Kontexten befassen.

Hardware: nicht im Post belegt
Modell: nicht im Post belegt
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: nicht im Post belegt
Investment-Empfehlung: nicht aus Titel ableitbar

Kontext: Der Leser sollte die Projekte durchgehen, die sich mit Tool-Calling und langen Kontexten befassen, um zu sehen, welche bereits für OpenCode geeignet sind.

[WCER: run a Mixture-of-Experts using only the experts your workload uses] (8/10) — OpenCode-Fit: JA

Zur Discussion

Verdict: WCER ermöglicht es, nur die für die Workload relevanten Experten in der Speicher zu behalten, was die Speicherverwendung reduziert und die Performance verbessert. Dies ist besonders nützlich für OpenCode, da es die Effizienz von großen Modellen erhöht.

Hardware: nicht im Post belegt
Modell: Mixtral-8x7B, OLMoE-1B-7B, DeepSeek-V2-Lite, Qwen3-30B-A3B, DeepSeek-V4-Flash
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: nicht im Post belegt
Investment-Empfehlung: nicht aus Titel ableitbar

Kontext: Der Leser sollte die Savings-Tabellen und die Trace-Methoden prüfen, um zu verstehen, wie viel Speicher und Performance durch WCER gewonnen werden können.

[mlx-chronos: benchmark suite and leaderboard for MLX inference engines] (7/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Verdict: mlx-chronos bietet eine Benchmark-Suite, um verschiedene MLX-Inferenz-Engines zu vergleichen. Dies ist hilfreich, um die beste Engine für OpenCode zu finden, aber es gibt keine spezifischen Benchmarks für OpenCode-Workloads.

Hardware: nicht im Post belegt
Modell: nicht im Post belegt
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: nicht im Post belegt
Investment-Empfehlung: nicht aus Titel ableitbar

Kontext: Der Leser sollte die Benchmark-Ergebnisse prüfen, um die besten Engines für seine spezifischen Workloads zu identifizieren.

[MacProvider — making mlx-lm endpoints addressable over the internet, with verifiable inference] (7/10) — OpenCode-Fit: JA

Zur Discussion

Verdict: MacProvider ermöglicht es, MLX-Endpoints über das Internet zu erreichen, was für die Integration von OpenCode in verteilte Systeme sehr nützlich ist. Die verifizierbare Inference ist ein zusätzlicher Vorteil.

Hardware: nicht im Post belegt
Modell: nicht im Post belegt
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: nicht im Post belegt
Investment-Empfehlung: nicht aus Titel ableitbar

Kontext: Der Leser sollte die Installation und die Verifizierungs-Mechanismen prüfen, um zu sehen, wie gut MacProvider in sein Setup passt.

[Mixed-stack home lab: ~7× throughput meshing MLX/oMLX + LM Studio + llama.cpp + vLLM] (7/10) — OpenCode-Fit: JA

Zur Discussion

Verdict: llm-swarm-router ermöglicht es, mehrere Maschinen zu einem Mesh zu verbinden, was die Throughput-Performance erheblich verbessert. Dies ist besonders nützlich für OpenCode, da es die Skalierbarkeit erhöht.

Hardware: 2× Linux, 3× Apple Silicon Macs, M4 Max 64 GB
Modell: nicht im Post belegt
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Multi-Node
Investment-Empfehlung: nicht aus Titel ableitbar

Kontext: Der Leser sollte die Konfiguration und die Performance-Verbesserungen prüfen, um zu sehen, wie gut llm-swarm-router in sein Setup passt.

[4-bit `gather_qmm` weight-reuse GEMM tops out ~80 GB/s at small MoE M on M5 Pro – is tile tuning of `gather_qmm_rhs_nax` feasible?] (6/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Verdict: Diese Diskussion geht auf die Performance-Optimierung von 4-bit Quantisierung bei MoE-Modellen ein. Für OpenCode ist dies relevant, da es die Effizienz von großen Modellen verbessert.

Hardware: M5 Pro (48 GB, macOS 27 beta)
Modell: diffusiongemma-26B-A4B-it-4bit
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single-Node
Investment-Empfehlung: nicht aus Titel ableitbar

Kontext: Der Leser sollte die Benchmarks und die Optimierungsmöglichkeiten prüfen, um zu verstehen, wie die Performance verbessert werden kann.

[Sparse array primitives and linalg for MLX] (6/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Verdict: mlx-sparse bietet Sparse-Array-Primitiven und lineare Algebra-Operationen für MLX. Dies ist relevant für OpenCode, insbesondere für die Effizienz bei der Verarbeitung von dünn besetzten Daten.

Hardware: nicht im Post belegt
Modell: nicht im Post belegt
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: nicht im Post belegt
Investment-Empfehlung: nicht aus Titel ableitbar

Kontext: Der Leser sollte die verfügbaren Operationen und die Performance-Tests prüfen, um zu sehen, wie gut mlx-sparse für seine Anwendungen geeignet ist.

Weitere Diskussionen:

– MLX Community Projects
– Patterns for capturing intermediate layer outputs (forward hooks equivalent)
– Question about metal gemm
– The module ‚mlx.core.metal‘ has no attribute ‚device_info‘?
– Can you stop gradients for part of a tensor?
– metal RWKV
– docker_mlx_cpp — Give any Docker container Metal GPU access (107 ops)

👁 0 Aufrufe 👤 0 Leser