Reddit Apple-Silicon-Lagebild: Mac Studio, MLX und Cluster
Einleitung: In diesem Lagebild analysieren wir aktuelle Reddit-Beiträge zu Apple-Silicon, insbesondere den Mac Studio, MLX und Cluster-Setups. Das Ziel ist es, den Leser bei der Entscheidung für einen Apple-Silicon-Cluster zu unterstützen, um Claude-Opus-Nähe für OpenCode zu erreichen.
Local voice assistants (3/10) — OpenCode-Fit: NEIN

Verdict (1 Satz): Der Beitrag fokussiert sich auf Voice-Assistants und hat keinen direkten Bezug zu Apple-Silicon-Clustern oder OpenCode.
Hardware: M2 Mac, 3090x
Modell: nicht belegt
tok/s-Claim: nicht belegt
Cluster-Bezug: Single
Investment-Empfehlung: „kein Bezug“
Kontext (2-3 Saetze): Der Beitrag diskutiert die besten Setup-Optionen für lokale Voice-Assistants, wobei der Fokus auf Voice-Cloning und Latenz liegt. Es gibt keine direkten Benchmarks oder Vergleiche zu Apple-Silicon-Clustern.
Intel Mac Pro with Vega II useable ? (4/10) — OpenCode-Fit: NEIN

Verdict (1 Satz): Der Beitrag diskutiert die Möglichkeiten eines Intel Mac Pro mit Vega II, aber es gibt keine direkten Benchmarks oder Vergleiche zu Apple-Silicon-Clustern.
Hardware: Intel Mac Pro, Vega II
Modell: nicht belegt
tok/s-Claim: 15-25 t/s (7B-13B)
Cluster-Bezug: Single
Investment-Empfehlung: „kein Bezug“
Kontext (2-3 Saetze): Der Beitrag diskutiert die Möglichkeiten eines Intel Mac Pro mit Vega II für lokale LLMs. Es wird empfohlen, Windows oder Linux zu verwenden, da die native Mac-Unterstützung begrenzt ist. Die Performance liegt bei 15-25 t/s für 7B-13B-Modelle.
Thinking of buying a mac to get into local LLMs (5/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Der Beitrag gibt Empfehlungen für den RAM-Bedarf bei Macs für LLMs, aber es fehlen konkrete Benchmarks oder Vergleiche zu Apple-Silicon-Clustern.
Hardware: MacBook Pro M5, 32 GB RAM
Modell: nicht belegt
tok/s-Claim: nicht belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Beitrag diskutiert die Mindestanforderungen an einen Mac für lokale LLMs. Es wird empfohlen, mindestens 48 GB RAM zu haben, da 32 GB RAM als zu wenig angesehen werden. Die Performance von dichteren Modellen ist auf 32 GB RAM sehr langsam.
Kimi K2.6 helping me uninstall macOS apps (6/10) — OpenCode-Fit: BEDINGT

Verdict (1 Satz): Der Beitrag zeigt, wie ein LLM wie Kimi K2.6 auf einem Mac verwendet werden kann, um Apps zu deinstallieren, aber es gibt keine direkten Benchmarks oder Vergleiche zu Apple-Silicon-Clustern.
Hardware: Mac
Modell: Kimi K2.6
tok/s-Claim: nicht belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Beitrag beschreibt, wie der Autor Kimi K2.6 verwendet, um Apps auf einem Mac zu deinstallieren. Es wird erwähnt, dass die Performance bei der Deinstallation von Apps verbessert werden konnte, indem die Rekursion reduziert wurde. Es gibt jedoch keine direkten Benchmarks oder Vergleiche zu Apple-Silicon-Clustern.
Gemma-4 MLX reasoning? (7/10) — OpenCode-Fit: JA
Verdict (1 Satz): Der Beitrag diskutiert die Vorteile von MLX-Versionen von Gemma-4 auf Apple-Silicon, insbesondere die bessere Speicherverwaltung und schnellere Prompt-Verarbeitung.
Hardware: MacBook M5
Modell: Gemma-4-26B-A4B-MLX-8bit
tok/s-Claim: 3-4x schneller als GGUF
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Saetze): Der Beitrag beschreibt die Vorteile von MLX-Versionen von Gemma-4 auf Apple-Silicon, insbesondere die bessere Speicherverwaltung und schnellere Prompt-Verarbeitung. Es wird erwähnt, dass die MLX-Version trotz ähnlicher Token-Produktion bei komplexen Aufgaben schneller ist. Es gibt jedoch ein Problem mit der Reasoning-Funktion, das durch die Anpassung der Template-Dateien behoben werden kann.
Gemma4-31B-3bit-mlx · Hugging Face: 3 & 5 mixed quant for RAM poor Mac users. (8/10) — OpenCode-Fit: JA

Verdict (1 Satz): Der Beitrag stellt eine 3&5 gemischte Quantisierung für RAM-schwache Macs vor, die bessere Performance und Speicherverwaltung bietet.
Hardware: Mac
Modell: Gemma4-31B-3bit-mlx
tok/s-Claim: 25% schneller als andere 3-bit-MLX
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Saetze): Der Beitrag stellt eine 3&5 gemischte Quantisierung für Gemma4-31B-3bit-mlx vor, die speziell für RAM-schwache Macs entwickelt wurde. Es wird beschrieben, dass diese Version 25% schneller ist als andere 3-bit-MLX-Versionen und 6 GB kleiner. Es gibt auch Empfehlungen für die beste Inferenz-Konfiguration.
Qwen 3.6-35B-A3B KV cache bench: f16 vs q8_0 vs turbo3 vs turbo4 from 0 to 1M context on M5 Max (9/10) — OpenCode-Fit: JA
Verdict (1 Satz): Der Beitrag bietet detaillierte Benchmarks für Qwen 3.6-35B-A3B auf einem M5 Max, was wertvolle Informationen für die Wahl der Cache-Typen bei verschiedenen Kontextgrößen liefert.
Hardware: MacBook Pro M5 Max, 128 GB unified memory
Modell: Qwen 3.6-35B-A3B
tok/s-Claim: konkrete Zahlen für verschiedene Cache-Typen und Kontextgrößen
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Saetze): Der Beitrag bietet detaillierte Benchmarks für Qwen 3.6-35B-A3B auf einem M5 Max, wobei verschiedene Cache-Typen (f16, q8_0, turbo3, turbo4) und Kontextgrößen von 0 bis 1M getestet wurden. Es wird beschrieben, wie die Performance bei verschiedenen Phasen (prefill, decode) und Kontextgrößen variiert, was wertvolle Informationen für die Wahl der Cache-Typen liefert.
Built a tiny CLI for Apple’s local AI runtime on Mac (5/10) — OpenCode-Fit: NEIN
Verdict (1 Satz): Der Beitrag stellt eine kleine Swift-CLI vor, die Apple’s local AI stack nutzt, aber es gibt keine direkten Benchmarks oder Vergleiche zu Apple-Silicon-Clustern.
Hardware: Mac
Modell: nicht belegt
tok/s-Claim: nicht belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Beitrag stellt eine kleine Swift-CLI vor, die Apple’s local AI stack nutzt, um lokale Prompts, Chat und Strukturierte Ausgaben zu verarbeiten. Es gibt jedoch keine direkten Benchmarks oder Vergleiche zu Apple-Silicon-Clustern.
Humanity’s Last Hackathon – Use Codex from OpenAI to build Mac Metal kernels (5/10) — OpenCode-Fit: NEIN

Verdict (1 Satz): Der Beitrag beschreibt ein Hackathon, bei dem Codex von OpenAI verwendet wird, um Mac Metal-Kernels zu optimieren, aber es gibt keine direkten Benchmarks oder Vergleiche zu Apple-Silicon-Clustern.
Hardware: Mac
Modell: nicht belegt
tok/s-Claim: nicht belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Beitrag beschreibt ein Hackathon, bei dem Codex von OpenAI verwendet wird, um Mac Metal-Kernels zu optimieren. Es gibt jedoch keine direkten Benchmarks oder Vergleiche zu Apple-Silicon-Clustern.
An attempt to unify all compute devices at one’s disposal and run local models – smolcluster (7/10) — OpenCode-Fit: JA

Verdict (1 Satz): Der Beitrag stellt ein Projekt vor, das verschiedene Compute-Devices vereint, um lokale Modelle zu trainieren und zu inferieren, was für Apple-Silicon-Clustern relevant ist.
Hardware: Mac Minis, NVIDIA GPUs, Tablets, Phones
Modell: nicht belegt
tok/s-Claim: nicht belegt
Cluster-Bezug: Multi
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Saetze): Der Beitrag stellt das Projekt „smolcluster“ vor, das verschiedene Compute-Devices (Mac Minis, NVIDIA GPUs, Tablets, Phones) vereint, um lokale Modelle zu trainieren und zu inferieren. Es wird beschrieben, wie diese Systeme von Grund auf implementiert wurden, um die Kommunikation, Synchronisation und Skalierung explizit und verständlich zu gestalten.
Qwen 35B-A3B as an always-on agentic loop on a 16GB Mac M4: disk became the bottleneck before RAM (8/10) — OpenCode-Fit: JA
Verdict (1 Satz): Der Beitrag beschreibt die Herausforderungen bei der Nutzung von Qwen 35B-A3B als immer-eingeschaltetes agentliches System auf einem 16 GB Mac M4, wobei der SSD der Halsabschneider wurde.
Hardware: Mac Mini M4, 16 GB unified memory
Modell: Qwen 35B-A3B
tok/s-Claim: ~17 tok/s (decode)
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Beitrag beschreibt die Herausforderungen bei der Nutzung von Qwen 35B-A3B als immer-eingeschaltetes agentliches System auf einem 16 GB Mac M4. Es wird erwähnt, dass der SSD der Halsabschneider wurde, bevor der RAM ein Problem darstellte. Es gibt auch Empfehlungen für eine stabile Konfiguration, die den SSD-Druck reduziert.
Weitere Beiträge:
– Local voice assistants
– Intel Mac Pro with Vega II useable ?
– Thinking of buying a mac to get into local LLMs
– Kimi K2.6 helping me uninstall macOS apps
– Gemma-4 MLX reasoning?
– Gemma4-31B-3bit-mlx · Hugging Face: 3 & 5 mixed quant for RAM poor Mac users.
– [Qwen 3.6-35B-A3B KV cache bench: f16 vs q8_0 vs turbo3 vs turbo4 from 0 to 1