Reddit Apple-Silicon-Lagebild: Mac Studio, MLX und Cluster
Einleitung: Diese Zusammenfassung bietet einen Überblick über aktuelle Diskussionen und Erfahrungen im Reddit-Forum r/LocalLLaMA, die sich auf Apple-Silicon-Hardware, insbesondere Mac Studio, MLX und EXO-Cluster beziehen. Der Fokus liegt auf der Eignung dieser Systeme für die lokale Ausführung von großen Sprachmodellen, insbesondere im Kontext von OpenCode.
[DS4: a DeepSeek 4 flash specific inference engine for 128gb MacBooks] (5/10) — OpenCode-Fit: BEDINGT

Verdict (1 Satz): DS4 ist spezifisch für 128 GB MacBooks und eignet sich weniger für Mac Studio, aber es zeigt die Leistungsfähigkeit von kleineren Modellen auf Apple Silicon.
Hardware: MacBook Pro M5Max
Modell: DeepSeek V4 Flash
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Sätze): Der Post diskutiert die Leistung von DS4 auf 128 GB MacBooks und vergleicht es mit anderen Modellen. Es gibt keine direkten Benchmarks für Mac Studio, aber es zeigt die Potenzial von kleineren Modellen auf Apple Silicon.
[Mac Studio local loadout – May 2026] (8/10) — OpenCode-Fit: JA
Verdict (1 Satz): Der Mac Studio M3 Ultra 512 GB ist eine ausgezeichnete Wahl für die lokale Ausführung von großen Modellen wie GLM 5.1 und Kimi K2.6, insbesondere für OpenCode.
Hardware: Mac Studio M3 Ultra 512 GB
Modell: GLM 5.1, Kimi K2.6, Minimax 2.7, Qwen 3.5 9B
tok/s-Claim: GLM 5.1: 190 tps prefill, 17 tps decode; Kimi K2.6: 220 tps prefill, 21 tps decode
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Sätze): Der Benutzer teilt seine Erfahrungen mit verschiedenen Modellen auf einem Mac Studio M3 Ultra 512 GB. GLM 5.1 und Kimi K2.6 sind besonders hervorgehoben, wobei GLM 5.1 in der Praxis besser abschneidet.
[2.5x faster inference with Qwen 3.6 27B using MTP – Finally a viable option for local agentic coding – 262k context on 48GB – Fixed chat template – Drop-in OpenAI and Anthropic API endpoints] (9/10) — OpenCode-Fit: JA
Verdict (1 Satz): MTP-Unterstützung für Qwen 3.6 27B auf Apple Silicon führt zu einer erheblichen Leistungssteigerung, was es zu einer vielfältig einsetzbaren Option für OpenCode macht.
Hardware: Mac M2 Max 96 GB
Modell: Qwen 3.6 27B
tok/s-Claim: 28 tok/s
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Sätze): Der Post beschreibt die Implementierung von MTP für Qwen 3.6 27B, die die Inferenzgeschwindigkeit um 2.5x erhöht. Es werden verschiedene Quantisierungsvarianten und ein fixierter Chat-Template vorgestellt.
[Strix Halo Clustering (Hardware Setup Discussion)] (7/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Clustering von Strix Halo-Systemen kann die Modellgröße erweitern, aber Thunderbolt-Networking hat Latenzprobleme. Für Apple Silicon sind EXO-Cluster eine bessere Option.
Hardware: Strix Halo (bosgame m5)
Modell: Minimax 2.7, GLM 4.7, Qwen 3.5
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Multi
Investment-Empfehlung: „Warten“
Kontext (2-3 Sätze): Der Benutzer diskutiert die Möglichkeit, Strix Halo-Systeme zu clustern, um größere Modelle laufen zu lassen. Es werden verschiedene Clustering-Methoden und deren Vor- und Nachteile besprochen.
[Fine-tuned Qwen3.6-35B-A3B DeltaNet experiment] (6/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Die Feinabstimmung von Qwen3.6-35B-A3B auf Apple Silicon zeigt, dass DeltaNet-Modelle lokal lauffähig sind, aber die Ergebnisse sind noch nicht überzeugend.
Hardware: Mac Studio M4 Max 128 GB
Modell: Qwen3.6-35B-A3B
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Sätze): Der Benutzer beschreibt die Feinabstimmung von Qwen3.6-35B-A3B auf Apple Silicon. Es werden die Herausforderungen bei der LoRA-Zielsetzung und die Ergebnisse der Feinabstimmung detailliert erläutert.
[Get faster qwen 3.6 27b] (8/10) — OpenCode-Fit: JA
Verdict (1 Satz): Die Verwendung von MTP und GGUF-Quantisierung für Qwen 3.6 27B auf Apple Silicon führt zu einer erheblichen Leistungssteigerung, was es zu einer guten Wahl für OpenCode macht.
Hardware: RTX 3090, Mac (via Homebrew)
Modell: Qwen 3.6 27B
tok/s-Claim: 50 tok/s (NVIDIA), 110 tok/s (RTX 4090)
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Sätze): Der Post beschreibt, wie man Qwen 3.6 27B mit MTP und GGUF-Quantisierung auf Apple Silicon laufen lassen kann. Es werden die Schritte zur Installation und Konfiguration detailliert erläutert.
[Why people cares token/s in decoding more?] (6/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Die Diskussion zeigt, dass die Bottlenecks bei der lokalen Ausführung von LLMs oft in der Prompt-Verarbeitung liegen, was die Bedeutung von MTP und anderen Optimierungen unterstreicht.
Hardware: Mac Mini
Modell: Qwen 3.6 27B, Qwen 3.6 35B A3B
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Sätze): Der Benutzer diskutiert, warum die Token-Verarbeitungsgeschwindigkeit bei der lokalen Ausführung von LLMs wichtig ist. Es werden verschiedene Szenarien und Erfahrungen von anderen Benutzern besprochen.
[Bad news: Apple drops high-memory Mac Studio configs] (5/10) — OpenCode-Fit: NEIN

Verdict (1 Satz): Apple hat die höheren Speicheroptionen für den Mac Studio eingestellt, was die Verfügbarkeit von Systemen mit großem Unified Memory einschränkt.
Hardware: Mac Studio M3 Ultra
Modell: nicht spezifiziert
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Sätze): Der Post informiert über die Einstellung höherer Speicheroptionen für den Mac Studio durch Apple. Dies ist ein Rückschritt für Benutzer, die große Modelle lokal ausführen möchten.
Weitere Beiträge:
– THE UNDERPRIVILEGED AI FOUNDATION Because every little model deserves a chance
– Multi-Token Prediction (MTP) for LLaMA.cpp – Gemma 4 speedup by 40%
– Follow-up: Trying to make NVIDIA GPUs plug-and-play on Macs. Found hidden RDMA symbols Apple doesn’t want you to see — zero-copy GPU memory sharing might already work.
– I am trying to replace Claude in an agentic TDD pipeline with local LLM