Reddit Apple-Silicon-Lagebild: Mac Studio, MLX und Cluster
Einleitung: In diesem Reddit-Überblick analysieren wir Beiträge, die sich auf Apple-Silicon-Hardware, insbesondere Mac Studio und MLX, sowie Cluster-Setups konzentrieren. Der Fokus liegt auf der Eignung dieser Systeme für die lokale Ausführung von großen Sprachmodellen (LLMs) und insbesondere auf der Frage, ob sie für OpenCode-Anwendungen geeignet sind.
[Qwen 3.6 35b a3b Q4 vs qwen 3.6 27b q6, on m5 pro 64gb] (6/10) — OpenCode-Fit: BEDINGT

Verdict (1 Satz): Die 35B A3B-Version ist schneller und besser für Coding-Aufgaben geeignet, aber die 27B-Version bietet höhere Präzision.
Hardware: MacBook Pro M5 Pro 18-core, 64GB unified memory
Modell: Qwen 3.6 35B A3B, Qwen 3.6 27B UD
tok/s-Claim: 35B A3B: ~72 tok/s, 27B UD: ~9 tok/s
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“ (auf bessere Quantisierungsoptionen)
Kontext (2-3 Saetze): Der Beitrag vergleicht die Performance und Qualität der Qwen 3.6 35B A3B und 27B UD-Modelle auf einem MacBook Pro M5 Pro mit 64GB RAM. Die 35B-Version ist deutlich schneller, aber die 27B-Version zeigt bessere Ergebnisse in komplexen Coding-Aufgaben.
[Field report: coding with Qwen 3.6 35B-A3B on an M2 Macbook Pro with 32GB RAM] (7/10) — OpenCode-Fit: JA

Verdict (1 Satz): Der Qwen 3.6 35B-A3B läuft gut auf einem M2 Macbook Pro mit 32GB RAM, aber es erfordert sorgfältige Ressourcenverwaltung.
Hardware: M2 Macbook Pro, 32GB RAM
Modell: Qwen 3.6 35B-A3B
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“ (für diejenigen, die eine portable Lösung benötigen)
Kontext (2-3 Saetze): Der Beitrag beschreibt, wie man den Qwen 3.6 35B-A3B-Model auf einem M2 Macbook Pro mit 32GB RAM einrichtet und verwendet. Es enthält eine detaillierte Anleitung und Tipps zur Optimierung der Performance.
[I built a full macOS AI assistant that runs 100% local with Ollama — 170+ tools, voice control, memory system that dreams!] (8/10) — OpenCode-Fit: JA
Verdict (1 Satz): Ein beeindruckendes Beispiel für die Nutzung von Apple-Silicon-Hardware für komplexe AI-Assistenten, die lokal laufen.
Hardware: Mac
Modell: Qwen2.5:14B, Qwen3:1.7B
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“ (für fortgeschrittene Benutzer)
Kontext (2-3 Saetze): Der Beitrag präsentiert ein eigenes macOS-AI-Assistenten-Projekt namens Finn, das komplett lokal läuft und eine Vielzahl von Tools, eine Memory-System und Sprachsteuerung unterstützt. Es zeigt, wie mächtig Apple-Silicon-Hardware für solche Anwendungen sein kann.
[My 12-agent Qwen 35B stack on Ollama died at 500 tokens every single time. Raw MLX fixed it and broke 4 other things I didn’t see coming.] (7/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): MLX bietet bessere Performance und Kontrolle, aber die Konfiguration ist komplexer.
Hardware: M1 Max, 64GB unified memory
Modell: Qwen 3.6 35B-A3B
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“ (auf bessere MLX-Tools)
Kontext (2-3 Saetze): Der Beitrag beschreibt die Erfahrungen eines Benutzers, der von Ollama zu MLX gewechselt hat, um Probleme mit der Wiederholung von Tokens zu beheben. MLX bietet bessere Performance, aber die Konfiguration ist anspruchsvoller.
[Hard freakin‘ decision..Blackwell 96G or Mac Studio 256G] (6/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Der Mac Studio ist die bessere Wahl für Apple-Silicon-Anwendungen, aber die Investition ist hoch.
Hardware: Mac Studio M3 Ultra, 256GB unified memory
Modell: nicht spezifisch
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“ (auf Preisentwicklung)
Kontext (2-3 Saetze): Der Beitrag diskutiert die Entscheidung zwischen einem RTX Pro 6000 96GB und einem Mac Studio M3 Ultra mit 256GB RAM. Der Mac Studio wird als die bessere Wahl für Apple-Silicon-Anwendungen empfohlen, aber die Investition ist hoch.
[Severe instability and looping issues with local LLMs (Qwen, Zen4, llama.cpp)] (5/10) — OpenCode-Fit: NEIN
Verdict (1 Satz): Stabilitätsprobleme mit lokalen LLMs auf Apple-Silicon-Hardware können die Nutzung erschweren.
Hardware: Mac Studio M2 Ultra, 128GB unified memory
Modell: Qwen 3.6 35B, Qwen 3.6 27B, Zen4 Coder
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“ (auf bessere Stabilität)
Kontext (2-3 Saetze): Der Beitrag beschreibt Stabilitäts- und Looping-Probleme bei der Nutzung verschiedener LLMs auf einem Mac Studio M2 Ultra. Die Probleme treten sowohl mit MLX als auch mit llama.cpp auf.
[Compared QWEN 3.6 35B with QWEN 3.6 27B for coding primitives] (7/10) — OpenCode-Fit: BEDINGT

Verdict (1 Satz): Die 35B-Version ist schneller, aber die 27B-Version bietet präzisere Ergebnisse.
Hardware: MacBook Pro M5 MAX, 64GB RAM
Modell: Qwen 3.6 35B, Qwen 3.6 27B
tok/s-Claim: 35B: ~72 tok/s, 27B: ~18 tok/s
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“ (auf bessere Modelle)
Kontext (2-3 Saetze): Der Beitrag vergleicht die Performance und Qualität der Qwen 3.6 35B und 27B-Modelle bei der Erstellung von Coding-Primitiven. Die 35B-Version ist schneller, aber die 27B-Version liefert präzisere Ergebnisse.
Weitere Beiträge:
– Best local gui setup Mac
– This is where we are right now, LocalLLaMA
– Qwen 3.6 35b a3b Q4 tips
– MLX + Turboquant, how to run?
– MacBook Pro M3 Max 128gb ram – what models to run?