Reddit Apple-Silicon-Lagebild: Mac Studio, MLX und Cluster
In dieser Zusammenfassung analysieren wir aktuelle Reddit-Beiträge zu Apple-Silicon, insbesondere den Mac Studio, MLX und Clustern. Der Fokus liegt auf der Eignung dieser Hardware für OpenCode und Claude-Opus-Nähe.
[I have macbook m4 16’ 48GB. I use claude code and want to try local one] (3/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Ein MacBook Pro M4 mit 48 GB RAM ist für OpenCode nicht optimal, aber es kann als Einstieg geeignet sein.
Hardware: MacBook Pro M4 (16″), 48 GB RAM
Modell: Qwen 3.6 (27B)
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der User möchte Claude Code lokal betreiben und sucht nach dem besten Modell für seinen MacBook Pro M4. LM Studio wird als einfache Schnittstelle empfohlen, und Qwen 3.6 (27B) als gutes Modell für Coding-Aufgaben.
[What workstation to get for ~13k EUR?] (7/10) — OpenCode-Fit: JA
Verdict (1 Satz): Ein M5 Ultra Mac Studio mit 256 GB Unified Memory ist eine ausgezeichnete Wahl für OpenCode und Claude-Opus-Nähe.
Hardware: M5 Ultra Mac Studio, 256 GB Unified Memory, 4 TB Storage
Modell: DeepSeek-V4-Flash, MiniMax-M2.7
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Saetze): Der User sucht eine Workstation im Budget von 13.000 EUR für LLM-Tests und andere CS-Aufgaben. Ein M5 Ultra Mac Studio wird als optimale Wahl empfohlen, da es genügend Speicher für 262k-Token-Kontexte und 30B-35B-Modelle bietet.
[Qwen3.6-35B-A3B-Uncensored-Genesis-APEX-MTP] (8/10) — OpenCode-Fit: JA
Verdict (1 Satz): Qwen3.6-35B-A3B ist ein leistungsstarkes Modell für OpenCode, das gut auf Apple-Silicon läuft.
Hardware: Beelink gtr9 pro + Strix Halo
Modell: Qwen3.6-35B-A3B
tok/s-Claim: 200k Kontext, 5 Sessions ohne Glitches
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Saetze): Der Post beschreibt die Testergebnisse von Qwen3.6-35B-A3B auf Apple-Silicon. Es wird empfohlen, APEX-Quantisierung und MTP zu verwenden, um die Leistung zu optimieren. Das Modell läuft stabil mit 200k Kontexten.
[TTS Benchmark Comparison (all known TTS up until May 2026)] (4/10) — OpenCode-Fit: NEIN
Verdict (1 Satz): Der Benchmark ist interessant, aber nicht direkt relevant für OpenCode oder Apple-Silicon.
Hardware: nicht belegt
Modell: nicht belegt
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: nicht klar
Investment-Empfehlung: „kein Bezug“
Kontext (2-3 Saetze): Der User hat einen Benchmark für Text-to-Speech-Modelle erstellt, der sowohl Windows- als auch Mac-Ergebnisse enthält. Es werden verschiedene Modelle verglichen, aber der Fokus liegt nicht auf Apple-Silicon oder OpenCode.
[I added native MTP to exo for Qwen3.6 MLX models; here are the exactness and speed results] (9/10) — OpenCode-Fit: JA
Zum Original | img:https://preview.redd.it/czd9obvkzv2h1.png?width=140&height=84&auto=webp&s=a6e432b90efda423894710e53dbb08bf403a1b81
Verdict (1 Satz): Native MTP-Unterstützung in exo verbessert die Leistung von Qwen3.6-MLX-Modellen auf Apple-Silicon erheblich.
Hardware: Mac Studio
Modell: Qwen3.6-27B, Qwen3.6-35B-A3B
tok/s-Claim: 27B: 1.71x-1.97x, 35B-A3B: 1.16x-0.95x
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Saetze): Der User hat native MTP-Unterstützung für Qwen3.6-MLX-Modelle in exo implementiert. Die Ergebnisse zeigen, dass die Leistung bei 27B-Modellen um das Doppelte steigt, während 35B-A3B-Modelle eine moderate Verbesserung erfahren.
[I’ve done it!!! FINALLY I have become a (quasi-local) summoner!!! AMA [imtiredboss.jpg]] (5/10) — OpenCode-Fit: BEDINGT
Zum Original | img:https://preview.redd.it/sa7biv71hm2h1.png?width=140&height=78&auto=webp&s=bd46b9feabdd2166fe9bd82579e73a9c150292ff
Verdict (1 Satz): Der User hat ein lokales AI-Setup aufgebaut, das für OpenCode nützlich sein kann, aber nicht die volle Claude-Opus-Nähe bietet.
Hardware: nicht belegt
Modell: nicht belegt
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: nicht klar
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der User beschreibt, wie er ein lokales AI-Setup aufgebaut hat, das verschiedene Endpunkte umfasst. Es ist ein guter Einstieg, aber nicht optimal für OpenCode mit 128k-Kontexten.
[Strix Halo 128GB vs M5 pro 64GB] (6/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Der Strix Halo 128GB ist für größere Modelle besser geeignet, aber der M5 Pro 64GB bietet bessere MacOS-Integration.
Hardware: Strix Halo 128GB, M5 Pro 64GB
Modell: Nemotron Super, Qwen3.5 122B, MiniMax M2.7
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der User vergleicht den Strix Halo 128GB mit dem M5 Pro 64GB. Der Strix Halo ist besser für große Modelle geeignet, aber der M5 Pro bietet bessere MacOS-Integration und ist für 30B-Modelle ausreichend.
[LlamaStation v0.9 — llama.cpp GUI for Windows with multi-backend support, TurboQuant, MTP and more] (5/10) — OpenCode-Fit: NEIN
Verdict (1 Satz): LlamaStation ist eine nützliche GUI für Windows, aber nicht direkt relevant für Apple-Silicon oder OpenCode.
Hardware: Dual RTX 3060, Ryzen 7 5700X, 32GB DDR4
Modell: Qwen3.6 27B
tok/s-Claim: 177k Kontext, 29-22 tok/s
Cluster-Bezug: Single
Investment-Empfehlung: „kein Bezug“
Kontext (2-3 Saetze): Der User stellt LlamaStation vor, eine GUI für Windows, die verschiedene Backends unterstützt, darunter llama.cpp, TurboQuant und MTP. Es ist eine nützliche Tool für Windows-Nutzer, aber nicht direkt relevant für Apple-Silicon.
[24GB M4 Mac – is Qwen 9B only option while system is running?] (3/10) — OpenCode-Fit: NEIN
Verdict (1 Satz): Ein 24GB M4 Mac ist für OpenCode mit 64k-Kontexten nicht ausreichend.
Hardware: 24GB M4 Mac
Modell: Qwen 9B
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der User fragt, ob ein 24GB M4 Mac ausreichend ist, um Qwen 9B mit 64k-Kontexten zu betreiben. Es wird empfohlen, auf eine leistungsstärkere Hardware zu warten.
[At wits end for optimizing settings in llama.cpp for 100k context] (6/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Optimierung von llama.cpp-Einstellungen für 100k-Kontexte ist herausfordernd, aber notwendig für OpenCode.
Hardware: nicht belegt
Modell: Qwen3.5-35B-A3B
tok/s-Claim: 1500 tok/s für Prompt-Processing, 35-50 tok/s für Inference
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der User sucht nach Möglichkeiten, llama.cpp-Einstellungen für 100k-Kontexte zu optimieren. Es wird empfohlen, spezifische Tools wie llama-optimus zu verwenden, um die Leistung zu verbessern.
[AWS secures rare Mac Studios while ordinary Apple customers remain completely locked out] (4/10) — OpenCode-Fit: NEIN
Verdict (1 Satz): AWS hat Mac Studios gesichert, was die Verfügbarkeit für private Kunden erschwert.
Hardware: Mac Studio
Modell: nicht belegt
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: nicht klar
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der User berichtet, dass AWS Mac Studios gesichert hat, während private Kunden darauf warten müssen. Dies wirft Fragen nach der Verfügbarkeit auf.
[PrivateScribe.ai – Fully local, MIT licensed, free AI transcription built with HIPAA/legal safeguards in mind – One Year Update!] (5/10) — OpenCode-Fit: NEIN
Zum Original | img:https://external-preview.redd.it/XuZ6oTaNeSXUEvX5g6dvz5oZ_Rktfyi3QUth1G6-IMA.png?width=640&crop=smart&auto=webp&s=286cf144b7f7e5579ac4c7993f4f74d326cbaeac
Verdict (1 Satz): PrivateScribe.ai ist eine interessante Lösung für lokale Transkription, aber nicht direkt relevant für OpenCode oder Apple-Silicon.
Hardware: nicht belegt
Modell: nicht belegt
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: nicht klar
Investment-Empfehlung: „kein Bezug“
Kontext (2-3 Saetze): Der User stellt PrivateScribe.ai vor, eine lokale, open-source Transkriptionsplattform mit Schwerpunkt auf Datenschutz und HIPAA-Konformität. Es ist eine nützliche Lösung, aber nicht direkt relevant für OpenCode.
Weitere Beiträge:
– I have macbook m4 16’ 48GB. I use claude code and want to try local one
– What workstation to get for ~13k EUR?
– Qwen3.6-35B-A3B-Uncensored-Genesis-APEX-MTP
– TTS Benchmark Comparison (all known TTS up until May 2026)
– I added native MTP to exo for Qwen3.6 MLX models; here are the exactness and speed results
– [I’ve done it!!! FINALLY I have become a (quasi-local) summoner!!! AMA [imtiredboss.jpg]](https://old.reddit.com/r/LocalLLaMA/comments/1tk9uml/ive_done_it_finally_i_have_become_a_quasilocal/)
– Strix Halo 128GB vs M5 pro 64GB
– LlamaStation v0.9 — llama.cpp GUI for Windows with multi-backend support, TurboQuant, MTP and more
– [24GB M4 Mac – is Qwen 9B only option while system is running?](https://old.reddit.com/r/LocalLLaMA/comments/1tiuern/24gb_m4_mac_is_qwen