Reddit Apple-Silicon-Lagebild: Mac Studio, MLX und Cluster
Einleitung: In diesem Lagebild analysieren wir aktuelle Reddit-Beiträge zu Apple-Silicon-Systemen, insbesondere Mac Studio, MLX und EXO-Cluster, im Kontext von lokalen LLMs und OpenCode. Die Beiträge werden nach ihrer Relevanz für den Einsatz von Apple-Silicon in hochperformanten LLM-Setups bewertet.
OpenClaw + oMLX shows 0 cached tokens, but Hermes uses cache fine with the same local model, what am I missing? (4/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Der Beitrag zeigt Probleme mit dem Cache in OpenClaw, was für den Einsatz von Mac Studio in OpenCode-Workflows relevant sein kann.
Hardware: Mac Studio M3 Ultra
Modell: Qwen3.6-35B-A3B-RotorQuant-MLX-4bit
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Benutzer beschreibt, dass OpenClaw bei der Verwendung des gleichen Modells wie Hermes keine Cache-Tokens verwendet, was zu ineffizienten Workflows führt. Es wird empfohlen, die Konfiguration zu überprüfen und eventuell auf andere Tools wie Hermes zu wechseln.
As of today, what’s the *most stable* model to run on a 32Gb RAM Mac w/ 256k context? (6/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Der Beitrag bietet wertvolle Tipps zur Konfiguration von LLMs auf Macs mit 32 GB RAM, was für den Einsatz in OpenCode-Workflows hilfreich sein kann.
Hardware: MacBook Pro M2 Max
Modell: Gemma4, Qwen3.6
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Benutzer sucht nach der stabilsten Konfiguration für LLMs auf einem Mac mit 32 GB RAM und 256k Kontext. Ein Kommentar gibt Tipps zur Optimierung der Konfiguration, insbesondere zur Verwendung von q4_1 KV-Quantisierung und Reduzierung der Kontext-Checkpoints.
DS4 (5/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Der Beitrag stellt DS4 vor, ein Projekt zur Ausführung von DeepSeek V4 Flash auf Apple-Silicon, was für den Einsatz in OpenCode-Workflows interessant sein kann.
Hardware: Mac Studio M3 Ultra
Modell: DeepSeek V4 Flash
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): DS4 ermöglicht die Ausführung von DeepSeek V4 Flash mit 1M Kontextfenster auf Apple-Silicon. Der Beitrag diskutiert die Möglichkeiten, das Projekt auf Macs mit geringerem Speicher zu skalieren und die Leistung zu optimieren.
Homelab setup (7/10) — OpenCode-Fit: JA
Verdict (1 Satz): Der Beitrag diskutiert die Vorteile und Nachteile von Apple-Silicon im Vergleich zu NVIDIA-GPUs für den Einsatz in OpenCode-Workflows.
Hardware: MacBook Pro M3 Max, RTX 3090
Modell: verschiedene LLMs
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single / Multi
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Benutzer überlegt, ob er ein weiteres MacBook Pro M3 Max oder NVIDIA-GPUs für seinen Homelab-Setup kaufen soll. Die Kommentare diskutieren die Vorteile von NVIDIA-GPUs in Bezug auf Durchsatz und Skalierbarkeit, insbesondere für agente Workflows.
Exactly a year ago, I started working on an MCP server I launched on reddit that became by far my most active open source project! (6/10) — OpenCode-Fit: BEDINGT

Verdict (1 Satz): Der Beitrag reflektiert die Entwicklung von MCP-Servern im letzten Jahr und diskutiert die Verbesserungen in der lokalen Modell-Tool-Calling.
Hardware: Mac Mini
Modell: Gemma4, Qwen3.6
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Autor diskutiert die Entwicklung von MCP-Servern und die Verbesserungen in der lokalen Modell-Tool-Calling. Es wird erwähnt, dass native Tool-Calling die Hauptprobleme bei Web-Extraktion-Workflows gelöst hat.
ds4 webui (6/10) — OpenCode-Fit: BEDINGT

Verdict (1 Satz): Der Beitrag stellt eine Web-UI für DS4 vor, die auf einem Mac Studio M3 Ultra 256GB ausgeführt wird, was für den Einsatz in OpenCode-Workflows interessant sein kann.
Hardware: Mac Studio M3 Ultra
Modell: DS4 (kleineres Modell)
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Benutzer stellt eine Web-UI für DS4 vor, die auf einem Mac Studio M3 Ultra 256GB ausgeführt wird. Die Leistung wird als überraschend gut beschrieben, aber es wird erwähnt, dass 128GB Speicher mindestens erforderlich sind.
Optimizing workflow concurrency on Mac/omlx? (7/10) — OpenCode-Fit: JA
Verdict (1 Satz): Der Beitrag diskutiert die Optimierung der Workflow-Konkurrenz auf Apple-Silicon, was für den Einsatz in OpenCode-Workflows relevant sein kann.
Hardware: Mac Studio M3 Max
Modell: Qwen3.6-35B
tok/s-Claim: 70t/s (Qwen3.6-35B)
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Benutzer beschreibt Probleme bei der parallelen Ausführung von Workflows auf Apple-Silicon und diskutiert, wie die Konkurrenz optimiert werden kann. Es wird erwähnt, dass die Prompt-Processing-Geschwindigkeit auf Apple-Silicon langsamer ist, aber die Token-Generierung gut skaliert.
Apple Removes 256GB M3 Ultra Mac Studio Model From Online Store (5/10) — OpenCode-Fit: BEDINGT

Verdict (1 Satz): Der Beitrag berichtet über die Entfernung des 256GB M3 Ultra Mac Studio-Modells vom Online-Shop, was für den Kaufentscheid relevant sein kann.
Hardware: Mac Studio M3 Ultra
Modell: nicht spezifisch
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Apple hat das 256GB M3 Ultra Mac Studio-Modell aus dem Online-Shop entfernt, was Sorgen hinsichtlich der Verfügbarkeit von hochspeicherigen Mac Studios aufkommen lässt. Die Kommentare diskutieren mögliche Gründe und Alternativen.
Does llama-swap actually work with mlx_lm.server / MLX models on macOS? (4/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Der Beitrag diskutiert die Kompatibilität von llama-swap mit MLX-Modellen auf macOS, was für den Einsatz in OpenCode-Workflows relevant sein kann.
Hardware: MacBook Pro M2 Max
Modell: Qwen3.5-27B-8bit
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Benutzer fragt, ob llama-swap mit MLX-Modellen auf macOS funktioniert. Es wird beschrieben, dass das Setup nicht wie erwartet funktioniert, und es wird nach Lösungen gesucht.
buying mac vs building PC for running local LLM (6/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Der Beitrag diskutiert die Vorteile und Nachteile von Apple-Silicon im Vergleich zu selbst gebauten PCs für den Einsatz von lokalen LLMs.
Hardware: MacBook Pro M5 Max, PC
Modell: verschiedene LLMs
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Benutzer überlegt, ob er ein MacBook Pro M5 Max oder einen selbst gebauten PC für den Einsatz von lokalen LLMs kaufen soll. Die Kommentare diskutieren die Vorteile und Nachteile beider Optionen, insbesondere in Bezug auf Leistung, Kosten und Flexibilität.
Is Qwen3-coder the best kept secret out there? (7/10) — OpenCode-Fit: JA
Verdict (1 Satz): Der Beitrag lobt Qwen3-coder-next als eines der schnellsten und besten Modelle für Apple-Silicon, was für den Einsatz in OpenCode-Workflows sehr relevant ist.
Hardware: Mac Studio M3 Ultra
Modell: Qwen3-coder-next
tok/s-Claim: 943s (Qwen3-Coder-Next-4bit)
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Saetze): Der Benutzer beschreibt, dass Qwen3-coder-next eines der schnellsten und besten Modelle für Apple-Silicon ist, insbesondere in Bezug auf Leistung und Ausgabequalität. Es wird empfohlen, dieses Modell für OpenCode-Workflows zu verwenden.
You can do CUDA inference on an Apple Silicon Mac with PCI Passthrough (6/10) — OpenCode-Fit: BEDINGT

Verdict (1 Satz): Der Beitrag zeigt, wie CUDA-Inferenz auf Apple-Silicon-Macs durch PCI-Passthrough ermöglicht werden kann, was für den Einsatz in OpenCode-Workflows interessant sein kann.
Hardware: Mac Studio M3 Ultra
Modell: verschiedene LLMs
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Benutzer beschreibt, wie er CUDA-Inferenz auf einem Apple-Silicon-Mac durch PCI-Passthrough in einem Linux-VM ermöglicht hat. Es werden auch Benchmarks und Herausforderungen diskutiert.
Weitere Beiträge:
– Apple Silicon LLM Performance
– MLX vs llama.cpp: Performance Comparison
– EXO Cluster Setup Guide