Reddit Apple-Silicon-Lagebild: Mac Studio, MLX und Cluster
Einleitung: In diesem Lagebild analysieren wir aktuelle Reddit-Beiträge zu Apple-Silicon, insbesondere den Mac Studio, MLX und Clustern. Der Fokus liegt auf der Eignung dieser Hardware für die lokale Ausführung von großen Sprachmodellen (LLMs) und insbesondere für OpenCode, einem Framework für agentebasierte Workflows.
Purchase advice needed (4/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Der Mac Studio M4 ist eine gute Wahl, aber der M5 Ultra könnte eine bessere Investition sein.
Hardware: Mac Studio M4
Modell: nicht spezifiziert
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Nutzer erwägt eine Investition in einen Mac Studio M4 oder M5 Ultra für die lokale Ausführung von LLMs. Er ist auch offen für den DGX Spark, aber findet wenig Informationen dazu. Die Entscheidung hängt von der Verfügbarkeit und den spezifischen Anforderungen ab.
Reachy Mini, amazing to build with the kid, painful experience with the applications (3/10) — OpenCode-Fit: NEIN
Verdict (1 Satz): Der Reachy Mini ist ein interessantes DIY-Projekt, aber die Software-Integration auf dem Mac Studio ist problematisch.
Hardware: Mac Studio M4
Modell: nicht spezifiziert
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Rechnet sich nicht“
Kontext (2-3 Saetze): Der Nutzer beschreibt seine Erfahrungen mit dem Reachy Mini-Roboter, den er mit seinem Kind zusammen aufgebaut hat. Die Hardware war einfach zu montieren, aber die Software-Integration auf dem Mac Studio war sehr frustrierend, insbesondere wegen der Notwendigkeit, einen VPN zu verwenden und Problemen mit der Hugging Face-Integration.
Question about llama.cpp and OpenCode (6/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): llama.cpp ist eine gute Wahl für die lokale Ausführung von LLMs auf Apple Silicon, insbesondere für OpenCode.
Hardware: MacBook M4 Pro 48GB
Modell: Qwen3.6-35B
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Saetze): Der Nutzer fragt, warum viele Menschen llama.cpp anstelle von LM Studio oder Ollama verwenden. Die Kommentare zeigen, dass llama.cpp eine bessere Verteilung der VRAM und eine höhere Leistung bietet, insbesondere bei der lokalen Ausführung von LLMs auf Apple Silicon.
Anyone tried using a Thunderbolt connection between a Mac studio M3 Ultra and an Nvidia PC for LLM inference? (5/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Ein Thunderbolt-Setup zwischen Mac Studio und NVIDIA könnte die Leistung verbessern, aber es ist komplex und möglicherweise nicht wirtschaftlich.
Hardware: Mac Studio M3 Ultra 512GB, NVIDIA RTX 3090
Modell: nicht spezifiziert
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Multi
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Nutzer fragt, ob ein Thunderbolt-Setup zwischen einem Mac Studio M3 Ultra und einem NVIDIA-PC die Leistung der LLM-Inferenz verbessern könnte. Die Kommentare deuten darauf hin, dass dies technisch möglich ist, aber die Latenz und die Komplexität könnten Probleme bereiten.
RTX PRO 4500 vs 5000 vs 6000, where does VRAM actually become a problem? (4/10) — OpenCode-Fit: NEIN
Verdict (1 Satz): 48GB VRAM reichen für die meisten Anwendungen, aber 96GB bieten mehr Flexibilität für zukünftige Anforderungen.
Hardware: RTX PRO 4500 (32GB), 5000 (48GB), 6000 (96GB)
Modell: nicht spezifiziert
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Nutzer vergleicht verschiedene RTX-Modelle und fragt, ab wann VRAM ein Problem wird. Die Kommentare zeigen, dass 48GB VRAM für viele Anwendungen ausreichen, aber 96GB mehr Flexibilität bieten, insbesondere für zukünftige Anforderungen.
Should you shut off thinking when you are coding on say Qwen3.6 35B (5/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Das Deaktivieren des „Denkens“ kann die Leistung verbessern, aber es hängt von der spezifischen Anwendung ab.
Hardware: Mac
Modell: Qwen3.6-35B
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Saetze): Der Nutzer fragt, ob das „Denken“ des Modells deaktiviert werden sollte, um die Leistung zu verbessern. Die Kommentare zeigen, dass das Deaktivieren des „Denkens“ in vielen Fällen die Leistung verbessert, aber es hängt von der spezifischen Anwendung ab.
Gemma 4 26B on Apple M5 – MLX or GGUF (bartowski)? (6/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): MLX oder GGUF können beide gute Optionen sein, aber MLX bietet möglicherweise bessere Leistung.
Hardware: MacBook Pro M5 (32GB)
Modell: Gemma 4 26B
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Saetze): Der Nutzer fragt, ob er MLX oder GGUF für die lokale Ausführung von Gemma 4 26B auf einem MacBook Pro M5 verwenden sollte. Die Kommentare zeigen, dass MLX bessere Leistung bieten kann, insbesondere bei der Verwendung von quantisierten Modellen.
Looking for a mini PC recommendation for local Whisper transcription + LLM summarization of meeting recordings (5/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Ein Mini-PC mit 32GB RAM und einer modernen iGPU ist eine gute Wahl für die lokale Transkription und Zusammenfassung von Meetings.
Hardware: Mini-PC (z.B. Beelink, Minisforum)
Modell: Whisper, LLM (7B-13B)
tok/s-Claim: 10-15 tok/s (7B), 5-8 tok/s (13B)
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Saetze): Der Nutzer sucht eine Empfehlung für einen Mini-PC, der Whisper und LLMs lokal ausführen kann, um Meetings zu transkribieren und zusammenzufassen. Die Kommentare zeigen, dass ein Mini-PC mit 32GB RAM und einer modernen iGPU eine gute Wahl ist, insbesondere für die lokale Ausführung von Whisper und kleineren LLMs.
Qwen3.6-35B works perfectly in CLI but completely stuck in OpenCode and Claude Code — first time setting this up (6/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Probleme mit Qwen3.6-35B in OpenCode und Claude Code können durch die Konfiguration oder den Kontextfenster-Modus behoben werden.
Hardware: MacBook M5 48GB
Modell: Qwen3.6-35B
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Saetze): Der Nutzer berichtet, dass Qwen3.6-35B in der CLI gut funktioniert, aber in OpenCode und Claude Code nicht antwortet. Die Kommentare deuten darauf hin, dass dies durch die Konfiguration oder den Kontextfenster-Modus behoben werden kann.
Prefix Caching: How I Cut TTFT From 22s to 2s Running Qwen3.5-397B on Mac Studio (PLUS an SSM cache gotcha nobody documented) (8/10) — OpenCode-Fit: JA

Verdict (1 Satz): Prefix Caching kann die Leistung von Qwen3.5-397B auf dem Mac Studio M3 Ultra 512GB erheblich verbessern.
Hardware: Mac Studio M3 Ultra 512GB
Modell: Qwen3.5-397B
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Saetze): Der Nutzer beschreibt, wie er die TTFT (Time to First Token) von 22 Sekunden auf 2 Sekunden reduziert hat, indem er Prefix Caching verwendet. Die Kommentare zeigen, dass mlx-vlm 0.4.4 bessere Ergebnisse liefert als vMLX.
Hardware advice. M5 Max vs AMD Ryzen AI Max+ 395 (6/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Der MacBook Pro M5 Max ist eine gute Wahl, insbesondere für die lokale Ausführung von LLMs, aber die AMD-Optionen sind ebenfalls interessant.
Hardware: MacBook Pro M5 Max 128GB, AMD Ryzen AI Max+ 395
Modell: nicht spezifiziert
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Saetze): Der Nutzer sucht Hardware-Ratschläge für die lokale Ausführung von LLMs. Die Kommentare zeigen, dass der MacBook Pro M5 Max eine gute Wahl ist, insbesondere für die lokale Ausführung von LLMs, aber die AMD-Optionen bieten ebenfalls interessante Vorteile.
[[New Model] micro-kiki-v3 — Qwen3.5-35B-A3B + 35 domain LoRAs + router + negotiator + Aeon memory for embedded engineering](https://old.reddit.com/r/LocalLLaMA/comments/1solmgf/new_model_microkikiv3_qwen3535ba3b_35_domain/) (8/10) — OpenCode-Fit: JA

Verdict (1 Satz): micro-kiki-v3 ist ein leistungsstarkes Modell für eingebettete Ingenieur-Aufgaben und kann auf Apple Silicon effizient ausgeführt werden.
Hardware: Mac Studio
Modell: Qwen3.5-35B-A3B, micro-kiki-v3
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Saetze): Der Nutzer stellt micro-kiki-v3 vor, ein Modell, das auf Qwen3.5-35B-A3B basiert und speziell für eingebettete Ingenieur-Aufgaben optimiert ist. Die Architektur umfasst 35 Domänen, einen Domain-Router, LoRAs, einen Negotiator und Aeon Memory. Die Leistung und die Flexibilität machen es zu einer interessanten Option für Apple Silicon.
Weitere Beiträge:
– Reachy Mini, amazing to build with the kid, painful experience with the applications
– RTX PRO 4500 vs 5000 vs 6000, where does VRAM actually become a problem?
– Should you shut off thinking when you are coding on say Qwen3.6 35B