Reddit Apple-Silicon-Lagebild: Mac Studio, MLX und Cluster
In diesem Reddit-Überblick analysieren wir aktuelle Diskussionen und Erfahrungsberichte zur Verwendung von Apple-Silicon-Systemen, insbesondere Mac Studio und MLX, für die lokale Ausführung von großen Sprachmodellen (LLMs). Der Fokus liegt auf der Frage, ob und wie gut diese Systeme für die lokale Ausführung von Claude-Opus-ähnlichen Modellen geeignet sind, insbesondere im Kontext von OpenCode.
[GLM 5.2 on Mac Studio Speedup PR] (8/10) — OpenCode-Fit: JA
Verdict (1 Satz): GLM 5.2 bringt signifikante Geschwindigkeitsverbesserungen auf Mac Studio, was es zu einer interessanten Option für OpenCode macht.
Hardware: Mac Studio M3 Ultra 512 GB
Modell: GLM 5.2
tok/s-Claim: 100 t/s bei 100k+ Kontext
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Sätze): Der PR von oMLX-Entwickler verbessert die Prefill-Geschwindigkeit und ermöglicht die Ausführung von 4-bit-Quantisierungen bei sehr großen Kontexten. Dies ist besonders relevant für OpenCode, da es hohe Kontextgrößen erfordert.
[Ooollama you are slow: ggrun v3 is 65% faster] (7/10) — OpenCode-Fit: BEDINGT

Verdict (1 Satz): ggrun v3 bringt erhebliche Geschwindigkeitsverbesserungen und verbesserte Modell-Empfehlungen, was es für die lokale Ausführung von Modellen auf Apple-Silicon interessant macht.
Hardware: RTX 3090 Ti 24G + RTX 3060 12G + RTX 4070 12G, 125 GB RAM
Modell: Qwen3.5-4B, Qwen3.6-27B, Qwen3.5-122B-A10B
tok/s-Claim: +43% bis +77% Geschwindigkeitssteigerung
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Sätze): ggrun v3 ist eine vollständige Go-CLI-Anwendung, die auf verschiedenen Plattformen läuft und die Modell-Empfehlungen verbessert. Die Geschwindigkeitsverbesserungen sind beachtlich, aber die Apple-Silicon-Unterstützung ist noch begrenzt.
[Multi Tier MoE Caching] (6/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Multi-Tier-MoE-Caching könnte die Performance von großen Modellen auf Apple-Silicon verbessern, aber es ist noch in der Frühphase.
Hardware: 128 GB DDR5, 24 GB GDDR6X
Modell: Qwen3.6-35B
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Sätze): Die Idee des Multi-Tier-MoE-Caching ist, die häufigsten Experten in schnelleren Speicher zu platzieren, um die Performance zu optimieren. Es gibt bereits einige praktische Implementierungen, aber die Apple-Silicon-Unterstützung ist noch begrenzt.
[Top-N-Sigma: Remove unconditional softmax+sort by TimNN · Pull Request #22645 · ggml-org/llama.cpp] (7/10) — OpenCode-Fit: JA

Verdict (1 Satz): Die Optimierung des Top-N-Sigma-Samplers kann die Geschwindigkeit auf Apple-Silicon-Systemen erheblich steigern, was es für OpenCode interessant macht.
Hardware: M3 Max MacBook Pro
Modell: google_gemma-4-E4B-it-Q8_0
tok/s-Claim: 50% Geschwindigkeitssteigerung von ~30t/s auf ~45t/s
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Sätze): Die PR entfernt unnötige Berechnungen, was die Geschwindigkeit um 50% steigert. Dies ist besonders relevant für Modelle mit hohen Kontextgrößen wie OpenCode.
[NEX-N2-mini: „There is no Pareto frontier. I am Pareto“. This Qwen3.5-MoE fine tune fixed 3.5 and 3.6 overthinking apparently on my tests.] (6/10) — OpenCode-Fit: BEDINGT

Verdict (1 Satz): NEX-N2-mini bietet eine Verbesserung der Reasong-Kapazität bei reduzierten Tokenverbrauch, was es für OpenCode interessant macht, aber die Apple-Silicon-Unterstützung ist noch begrenzt.
Hardware: Mac
Modell: NEX-N2-mini
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Sätze): NEX-N2-mini ist ein feingetrimmtes Modell, das die Reasong-Kapazität verbessert und den Tokenverbrauch reduziert. Es ist besonders relevant für die lokale Ausführung auf Apple-Silicon, aber die Unterstützung ist noch in der Entwicklung.
[local code agent using qwen 3.6 35b] (5/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Qwen 3.6 35B kann lokal auf einem Mac Pro mit SSD-Offload ausgeführt werden, was es für OpenCode interessant macht, aber die Performance ist begrenzt.
Hardware: 24 GB Mac Pro
Modell: Qwen 3.6 35B
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Sätze): Der Entwickler hat einen lokalen Code-Agenten mit Qwen 3.6 35B auf einem Mac Pro mit SSD-Offload erstellt. Die Performance ist akzeptabel, aber für OpenCode könnte mehr Speicher und eine bessere Hardware notwendig sein.
[Can I realistically get close to Claude/Codex capabilities locally?] (5/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Ein Mac Studio M3 Ultra mit 96 GB Unified Memory könnte eine gute Option sein, um Claude/Codex-ähnliche Fähigkeiten lokal zu erreichen, aber die Performance ist abhängig von der spezifischen Anwendung.
Hardware: 32 GB Nvidia GPUs
Modell: Opus 4.8, Qwen3.6-27B
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Sätze): Der Nutzer fragt, ob es möglich ist, Claude/Codex-ähnliche Fähigkeiten lokal zu erreichen. Ein Mac Studio M3 Ultra mit 96 GB Unified Memory könnte eine gute Option sein, aber die Performance ist abhängig von der spezifischen Anwendung und den Modellen.
[It’s time to decentralize model distribution! Introducing Noema Atlas] (4/10) — OpenCode-Fit: NEIN
Verdict (1 Satz): Noema Atlas ist ein interessantes Projekt zur dezentralen Modellverteilung, aber es hat keinen direkten Bezug zur lokalen Ausführung von Modellen auf Apple-Silicon.
Hardware: nicht im Post belegt
Modell: nicht im Post belegt
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: nicht klar
Investment-Empfehlung: „Rechnet sich nicht“
Kontext (2-3 Sätze): Noema Atlas ist eine Peer-to-Peer-Software zur dezentralen Modellverteilung. Es ist ein interessantes Projekt, aber es hat keinen direkten Bezug zur lokalen Ausführung von Modellen auf Apple-Silicon.
[Reluctantly rehoming my 192 GB M2 Ultra, and in need of “adoption agency” recommendations.] (4/10) — OpenCode-Fit: NEIN
Verdict (1 Satz): Der Nutzer sucht nach Möglichkeiten, seinen 192 GB M2 Ultra zu verkaufen, aber der Post hat keinen direkten Bezug zur lokalen Ausführung von Modellen auf Apple-Silicon.
Hardware: Mac Studio M2 Ultra 192 GB
Modell: nicht im Post belegt
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Rechnet sich nicht“
Kontext (2-3 Sätze): Der Nutzer möchte seinen 192 GB M2 Ultra verkaufen und sucht nach Empfehlungen, wo er das tun kann. Der Post hat keinen direkten Bezug zur lokalen Ausführung von Modellen auf Apple-Silicon.
[Qwen code companion on vscode marketplace – thoughts] (5/10) — OpenCode-Fit: BEDINGT

Verdict (1 Satz): Qwen Code Companion ist eine interessante Erweiterung für VSCode, die lokal auf Apple-Silicon ausgeführt werden kann, aber die Performance ist begrenzt.
Hardware: M1 Mac Pro 16 GB
Modell: Gemma 4 E4B MLX
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Sätze): Die Qwen Code Companion-Erweiterung für VSCode ist eine gute Option für die lokale Ausführung von Modellen auf Apple-Silicon, aber die Performance ist begrenzt, insbesondere bei großen Kontextgrößen.
[You can now convert EXL3 quants on Apple Silicon Mac] (6/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Die Möglichkeit, EXL3-Quantisierungen auf Apple-Silicon zu konvertieren, erweitert die Optionen für die lokale Ausführung von Modellen, aber die Performance ist noch begrenzt.
Hardware: 64 GB+ Apple-Silicon
Modell: MiniCPM5, Qwen3.6-27B
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Sätze): Die Konvertierung von EXL3-Quantisierungen auf Apple-Silicon erweitert die Optionen für die lokale Ausführung von Modellen, aber die Performance ist noch begrenzt. Es ist eine interessante Entwicklung, die die Apple-Silicon-Ökosystem erweitert.
[Can you use an SSD to extend your memory without using the SWAP volume?] (4/10) — OpenCode-Fit: NEIN
Verdict (1 Satz): Der Nutzer fragt, ob es möglich ist, einen SSD als Erweiterungsspeicher zu verwenden, ohne SWAP zu verwenden, aber der Post hat keinen direkten Bezug zur lokalen Ausführung von Modellen auf Apple-Silicon.
Hardware: Mac Mini M4 24 GB
Modell: GPT OSS 120B
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Rechnet sich nicht“
Kontext (2-3 Sätze): Der Nutzer versucht, einen SSD als Erweiterungsspeicher zu verwenden, um große MOE-Modelle auf einem Mac Mini M4 mit 24 GB Unified Memory auszuführen. Der Post hat keinen direkten Bezug zur lokalen Ausführung von Modellen auf Apple-Silicon.
Weitere Beiträge:
– GLM 5.2 on Mac Studio Speedup PR
– Ooollama you are slow: ggrun v3 is 65% faster
– Multi Tier MoE Caching
– Top-N-Sigma: Remove unconditional softmax+sort by TimNN · Pull Request #22645 · ggml-org/llama.cpp
– NEX-N2-mini: „There is no Pareto frontier. I am Pareto“. This Qwen3.5-MoE fine tune fixed 3.5 and 3.6 overthinking apparently on my tests.
– local code agent using qwen 3.6 35b
– Can I realistically get close to Claude/Codex capabilities locally?
– It’s time to decentralize model distribution! Introducing Noema Atlas
– [Reluctantly rehoming my