Reddit Apple-Silicon-Lagebild: Mac Studio, MLX und Cluster
Einleitung: In diesem Lagebild analysieren wir aktuelle Reddit-Beiträge zu Apple-Silicon, insbesondere den Mac Studio und MLX, im Kontext von LLM-Clustern und OpenCode. Der Fokus liegt auf der Frage, ob ein Apple-Silicon-Cluster als Investition für die Claude-Opus-Nähe geeignet ist.
[RTX 3090 vs 4090 vs 5090 vs Mac M5 Max: Qwen3.6-35B-A3B Local AI Benchmark using llama.cpp](8/10) — OpenCode-Fit: BEDINGT

Verdict (1 Satz): Der Mac M5 Max ist langsamer als NVIDIA-GPUs, aber die Unified Memory bietet Vorteile für große Kontexte.
Hardware: Mac M5 Max 128GB, RTX 3090, 4090, 5090
Modell: Qwen3.6-35B-A3B
tok/s-Claim: Mac M5 Max: 81-95 t/s, RTX 5090: 220-240 t/s, RTX 4090: 168-180 t/s, RTX 3090: 137-144 t/s
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“ (auf M3 Ultra 512GB)
Kontext (2-3 Saetze): Der Beitrag vergleicht die Performance von Qwen3.6-35B-A3B auf verschiedenen Hardware-Setups. Der Mac M5 Max ist langsamer als NVIDIA-GPUs, aber die Unified Memory bietet Vorteile für große Kontexte.
[Is anyone getting real coding work done with Qwen3.6-35B-A3B-UD-Q4_K_M on a 32GB Mac in opencode, claude code or similar?](6/10) — OpenCode-Fit: NEIN
Verdict (1 Satz): 32GB RAM sind für Qwen3.6-35B-A3B-UD-Q4_K_M in OpenCode nicht ausreichend; ein Upgrade auf 128GB oder mehr wird benötigt.
Hardware: M2 Macbook Pro 32GB
Modell: Qwen3.6-35B-A3B-UD-Q4_K_M
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“ (auf 128GB oder mehr)
Kontext (2-3 Saetze): Der Beitrag beschreibt die Erfahrungen des Autors mit Qwen3.6-35B-A3B-UD-Q4_K_M auf einem M2 Macbook Pro mit 32GB RAM. Die Performance reicht nicht aus, um komplexe Coding-Aufgaben zu lösen, insbesondere bei der Verarbeitung großer Kontexte.
[RTX 5090 or Mac Studio?](7/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Für die parallele Ausführung von vielen Agenten ist die RTX 5090 die bessere Wahl, aber der Mac Studio ist leiser und einfacher zu handhaben.
Hardware: RTX 5090, Mac Studio
Modell: Gemma 4 31B dense
tok/s-Claim: M5 Max: 28 t/s (1 Agent), 22 t/s (2 Agenten)
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“ (auf M3 Ultra 512GB)
Kontext (2-3 Saetze): Der Beitrag diskutiert die Entscheidung zwischen einem RTX 5090-Setup und einem Mac Studio für die parallele Ausführung von LLM-Agenten. Die RTX 5090 bietet bessere Performance, aber der Mac Studio ist leiser und einfacher zu warten.
[Am I going about this RAG Perplexity-on-crack Jarvis project the wrong way?](5/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Der Ansatz des Autors ist sinnvoll, aber die Hardware- und Software-Stacks könnten optimiert werden.
Hardware: Unraid box, AMD RX 7900 XT 20GB, MacBook Pro M3 Max 36GB
Modell: Qwen3.6-35B-A3B, Qwen3.6 IQ3_XXS, Qwen3-Embedding-4B
tok/s-Claim: Qwen3.6-35B-A3B: 108 t/s, Qwen3.6 IQ3_XXS: 112 t/s
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“ (auf M3 Ultra 512GB)
Kontext (2-3 Saetze): Der Beitrag beschreibt ein umfangreiches RAG-Projekt, das als persönlicher Jarvis dienen soll. Der Autor verwendet eine Kombination aus verschiedenen Modellen und Hardware-Setups, aber die Performance könnte durch bessere Hardware verbessert werden.
[Bloomberg: No Mac Studios until at least October](4/10) — OpenCode-Fit: NEIN
Verdict (1 Satz): Die Verfügbarkeit von Mac Studios ist ungewiss, was die Planung erschwert.
Hardware: M3 Ultra 512GB
Modell: Deepseek 3.2
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“ (auf M5 Ultra)
Kontext (2-3 Saetze): Der Beitrag berichtet über die Verzögerung der Mac Studio-Veröffentlichung. Dies wirft Fragen auf, ob die M5 Ultra eine bessere Wahl sein könnte, wenn sie verfügbar ist.
[Model recommendation for M1 Max 64GB?](5/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Für den M1 Max 64GB sind Modelle wie Gemma-4-26B-A3B oder Qwen3.6-35B-A3B geeignet, aber die Performance ist begrenzt.
Hardware: MacBook Pro M1 Max 64GB
Modell: Gemma-4-31B, Gemma-4-26B-A3B, Qwen3.6-35B-A3B
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“ (auf M3 Ultra 512GB)
Kontext (2-3 Saetze): Der Beitrag fragt nach Empfehlungen für Modelle, die auf einem M1 Max 64GB laufen. Die Community empfiehlt Modelle wie Gemma-4-26B-A3B, die eine gute Balance zwischen Performance und RAM-Anforderungen bieten.
[Qwen3.6-35B-A3B running on a Mac mini M4 16GB](4/10) — OpenCode-Fit: NEIN
Verdict (1 Satz): Qwen3.6-35B-A3B läuft auf einem Mac mini M4 16GB, aber die Performance ist begrenzt.
Hardware: Mac mini M4 16GB
Modell: Qwen3.6-35B-A3B
tok/s-Claim: 6 t/s
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“ (auf M3 Ultra 512GB)
Kontext (2-3 Saetze): Der Beitrag beschreibt, wie Qwen3.6-35B-A3B auf einem Mac mini M4 16GB läuft, aber die Performance ist begrenzt. Die Community rät davon ab, diese Konfiguration für produktive Aufgaben zu verwenden.
[omlx 10t/s slower than LM Studio (qwen3.6 35Ba3) on token generation](6/10) — OpenCode-Fit: BEDINGT

Verdict (1 Satz): oMLX ist langsamer als LM Studio bei der Token-Generierung, aber es bietet zusätzliche Funktionen.
Hardware: M3 Pro
Modell: Qwen3.6-35B-A3B
tok/s-Claim: oMLX: 38 t/s, LM Studio: 49 t/s
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“ (auf M3 Ultra 512GB)
Kontext (2-3 Saetze): Der Beitrag vergleicht die Performance von oMLX und LM Studio bei der Token-Generierung. Obwohl oMLX langsamer ist, bietet es zusätzliche Funktionen wie turboquant und dflash.
[RTX PRO 5000 (48GB) vs MacBook Pro M5 MAX (128GB RAM) – The choice for fine-tuning & agentic coding](7/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Für die Feinabstimmung und agente Code-Arbeit ist die RTX PRO 5000 die bessere Wahl, aber der MacBook Pro M5 Max bietet mehr Unified Memory.
Hardware: RTX PRO 5000 48GB, MacBook Pro M5 Max 128GB
Modell: nicht spezifisch
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“ (auf M3 Ultra 512GB)
Kontext (2-3 Saetze): Der Beitrag diskutiert die Wahl zwischen einem RTX PRO 5000 und einem MacBook Pro M5 Max für die Feinabstimmung und agente Code-Arbeit. Die RTX PRO 5000 bietet bessere Bandbreite, aber der MacBook Pro M5 Max hat mehr Unified Memory.
Weitere Beiträge:
– Why isn’t ebay doing anything to stop those scams?
– Best open source model that can run on Mac air 32 gb m4
– I tested 8 LLMs as tabletop GMs – a 27B model beat the 405B on narrative quality