Reddit Apple-Silicon-Lagebild: Mac Studio, MLX und Cluster
Einleitung: In diesem Lagebild analysieren wir aktuelle Reddit-Beiträge zu Apple-Silicon, insbesondere den Mac Studio, MLX und Cluster-Setups. Der Fokus liegt auf der Eignung dieser Hardware für OpenCode und agente Workflows, insbesondere bei der Verarbeitung großer Kontexte und der Ausführung komplexer Modelle.
[Local LLMs on Refurb M4 Max vs new M5 Max] (4/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Der M5 Max bietet eine bessere Performance, aber der Preisunterschied ist signifikant. Für OpenCode könnte der M4 Max ausreichen, aber der M5 Max ist die bessere Wahl für langfristige Investitionen.
Hardware: M4 Max, M5 Max
Modell: Gemma 4 31B, Qwen3.6-27B
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“ / „Jetzt kaufen“ (abhängig von Budget)
Kontext (2-3 Saetze): Der Beitrag diskutiert die Vorteile und Nachteile des Refurb M4 Max und des neuen M5 Max für die Ausführung von LLMs. Der M5 Max bietet eine 12.5% höhere Bandbreite, was die Performance verbessert, aber der Preisunterschied beträgt $1,120.
[260K-param LLM running on an emulated 90s CPU inside an 18-year-old RTOS] (3/10) — OpenCode-Fit: NEIN

Verdict (1 Satz): Dieses Projekt ist ein interessantes Experiment, aber nicht relevant für die Ausführung von OpenCode auf moderner Apple-Silicon-Hardware.
Hardware: Emulierter 90er-Jahre-CPU
Modell: TinyStories 260K
tok/s-Claim: 2-4 sek/tok
Cluster-Bezug: Single
Investment-Empfehlung: „Rechnet sich nicht“
Kontext (2-3 Saetze): Der Beitrag beschreibt, wie ein kleines LLM auf einem emulierten 90er-Jahre-CPU innerhalb eines 18-jährigen RTOS läuft. Obwohl es technisch beeindruckend ist, ist es für praktische Anwendungen wie OpenCode nicht geeignet.
[Is a 128 GB MacBook Pro M5 Max actually too slow for large-context local LLM coding workflows?] (7/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Der M5 Max 128 GB kann für viele OpenCode-Aufgaben ausreichen, aber bei sehr großen Kontexten und intensiven Workflows könnte die Performance limitiert sein.
Hardware: MacBook Pro M5 Max 128 GB
Modell: Qwen 3.5 / 3.6 / 3.7
tok/s-Claim: 25 t/s (DeepSeek 4 Flash), 70-90 t/s (Qwen3.6 35A3B)
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“ / „Jetzt kaufen“ (abhängig von Anforderungen)
Kontext (2-3 Saetze): Der Beitrag diskutiert die Performance des MacBook Pro M5 Max 128 GB bei der Ausführung von LLMs mit großen Kontexten. Es wird berichtet, dass DeepSeek 4 Flash bei 100k+ Kontexten gut funktioniert, aber die Performance bei 300k+ Kontexten noch nicht getestet wurde.
[Feedback Wanted: Building for easier local AI] (5/10) — OpenCode-Fit: BEDINGT

Verdict (1 Satz): Das Projekt zur Vereinfachung der lokalen AI-Ausführung ist interessant, aber es fehlen spezifische Benchmarks für Apple-Silicon.
Hardware: Mac, Linux, Windows
Modell: nicht spezifiziert
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single / Multi
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Beitrag stellt ein Projekt vor, das die lokale AI-Ausführung vereinfachen soll. Es bietet eine benutzerfreundliche UI und automatische GPU-Koordination, aber es fehlen spezifische Benchmarks für Apple-Silicon-Hardware.
[Output Length Constrained Summarization using GRPO on tiny LLMs | smolcluster] (6/10) — OpenCode-Fit: BEDINGT

Verdict (1 Satz): Das Projekt zeigt, wie man kleine LLMs auf Apple-Silicon-Clustern für spezifische Aufgaben wie Summarization einsetzen kann, aber es ist nicht direkt auf OpenCode zugeschnitten.
Hardware: 3x Mac mini M4 (16 GB each)
Modell: Qwen2.5-0.5B-Instruct, LFM-2.5-350M
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Multi
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Beitrag beschreibt ein Forschungsprojekt zur Länge-bedingten Summarization mit kleinen LLMs auf einem 3x Mac mini M4 Cluster. Es verwendet MLX für das Training und vLLM für die Inference.
[Running on a macbook, and having issues with crashing? Maybe this will help…] (7/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Der Beitrag bietet wertvolle Tipps zur Stabilität von LLMs auf MacBooks, was für OpenCode-Nutzer hilfreich sein kann.
Hardware: MacBook Pro M2 Max 64 GB
Model: Qwen3.6 35b A3B
tok/s-Claim: 49 t/s (generation), 3-40 t/s (prompt processing)
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Saetze): Der Beitrag beschreibt, wie man Stabilitätsprobleme bei der Ausführung von LLMs auf MacBooks beheben kann. Es werden spezifische Einstellungen und Optimierungen vorgeschlagen, die die Performance und Stabilität verbessern.
[Added direct model downloads right from the UI in Anubis OSS – if anyone would help test that would be great] (5/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Anubis OSS bietet eine benutzerfreundliche UI für die Verwaltung von LLMs, aber es fehlen spezifische Benchmarks für Apple-Silicon.
Hardware: Apple Silicon Mac
Modell: Ollama, LM Studio, MLX, Apple Intelligence
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Beitrag stellt Anubis OSS vor, eine Apple-Silicon-App zur Verwaltung und Benchmarking von LLMs. Es bietet eine benutzerfreundliche UI und die Möglichkeit, Modelle direkt aus dem UI herunterzuladen.
[AI content detector based on Qwen 0.8b fine-tuned on Pangram dataset] (4/10) — OpenCode-Fit: NEIN

Verdict (1 Satz): Das Projekt zur Erkennung von AI-generiertem Inhalt ist interessant, aber nicht direkt relevant für OpenCode.
Hardware: M1 MacBook Pro
Modell: Qwen 3.5 0.8B
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Rechnet sich nicht“
Kontext (2-3 Saetze): Der Beitrag stellt ein Chrome-Extension-Projekt vor, das Qwen 3.5 0.8B verwendet, um AI-generiertes Inhalt zu erkennen. Es ist ein interessantes Experiment, aber nicht direkt auf OpenCode zugeschnitten.
[Sharing my ‚Local-LLM-Toolkit‘ repo] (5/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Das ‚Local-LLM-Toolkit‘ ist eine nützliche Ressource für die Ausführung von LLMs auf Apple-Silicon, aber es fehlen spezifische Benchmarks für OpenCode.
Hardware: Mac Studio M4 Max 128 GB
Modell: nicht spezifiziert
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Beitrag stellt ein GitHub-Repo vor, das Wissen und Techniken zur Optimierung der LLM-Ausführung auf Apple-Silicon zusammenfasst. Es ist eine wertvolle Ressource, aber es fehlen spezifische Benchmarks für OpenCode.
[Old Mac Pro still proving its worth] (6/10) — OpenCode-Fit: BEDINGT

Verdict (1 Satz): Der alte Mac Pro kann immer noch nützliche LLM-Aufgaben durchführen, aber für OpenCode ist modernere Hardware besser geeignet.
Hardware: Mac Pro (2013), 64 GB RAM, 2x D700 GPUs
Modell: Qwen 3.5 9B Q4 MTP, Qwen 2.5 coder q4
tok/s-Claim: 11 t/s (Qwen 3.5 9B Q4 MTP), 22 t/s (Qwen 2.5 coder q4)
Cluster-Bezug: Single
Investment-Empfehlung: „Rechnet sich nicht“
Kontext (2-3 Saetze): Der Beitrag zeigt, wie ein alter Mac Pro (2013) mit 64 GB RAM und 2x D700 GPUs immer noch nützliche LLM-Aufgaben durchführen kann. Es wird berichtet, dass Qwen 3.5 9B Q4 MTP bei 70k Kontexten 11 t/s erreicht.
[I have macbook m4 16’ 48GB. I use claude code and want to try local one] (4/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Der MacBook Pro M4 48 GB kann für einfache OpenCode-Aufgaben ausreichen, aber für komplexe Workflows ist mehr Speicher und eine stärkere CPU erforderlich.
Hardware: MacBook Pro M4 48 GB
Modell: nicht spezifiziert
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Beitrag diskutiert die Wahl des besten LLMs für einen MacBook Pro M4 48 GB. Es werden verschiedene Optionen wie MLX, llama.cpp und LM Studio erwähnt, aber es fehlen spezifische Benchmarks.
[What workstation to get for ~13k EUR?] (8/10) — OpenCode-Fit: JA
Verdict (1 Satz): Der M5 Ultra Mac Studio ist eine ausgezeichnete Wahl für OpenCode, obwohl die GPU-Optionen bei vergleichbarem Budget auch überzeugen können.
Hardware: M5 Ultra Mac Studio 256 GB, RTX PRO 5000 (48 GB)
Modell: DeepSeek-V4-Flash, MiniMax-M2.7
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Saetze): Der Beitrag diskutiert die Wahl eines Workstations für ~13k EUR, speziell für die Ausführung von LLMs. Der M5 Ultra Mac Studio wird als eine ausgezeichnete Option empfohlen, obwohl auch eine GPU-basierte Lösung wie der RTX PRO 5000 überzeugen kann.
Weitere Beiträge:
– Local LLMs on Refurb M4 Max vs new M5 Max
– 260K-param LLM running on an emulated 90s CPU inside an 18-year-old RTOS
– Is a 128 GB MacBook Pro M5 Max actually too slow for large-context local LLM coding workflows?
– Feedback Wanted: Building for easier local AI
– [Output Length Constrained Summarization using GRPO on tiny LLMs | smolcluster](https://old.reddit.com/r/LocalLLaMA/comments/1to33wz/output_length_constrained_summarization_using