Reddit Apple-Silicon-Lagebild: Mac Studio, MLX und Cluster
In diesem Reddit-Feed finden wir verschiedene Diskussionen und Erfahrungsberichte zu Apple-Silicon-Hardware, insbesondere Mac Studio und MLX, sowie deren Einsatz in Clustern. Der Fokus liegt auf der Frage, ob und wie diese Hardware für den Betrieb von lokalen LLMs (Large Language Models) geeignet ist, insbesondere im Kontext von OpenCode und Claude-Opus-Nähe.
mistral.rs support for Gemma 4 12B – multimodal, agentic, and MTP integration (6/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): mistral.rs bietet eine interessante Alternative für die Lokal-Inferenz von multimodalen Modellen, aber es fehlt an spezifischen Benchmarks für Apple-Silicon.
Hardware: nicht spezifiziert
Modell: Gemma 4 12B
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: nicht klar
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Post beschreibt die Installation und Nutzung von mistral.rs für multimodale Modelle wie Gemma 4 12B. Es wird die Möglichkeit der Web-Suche und sicherer, sandboxierter Code-Execution erwähnt, aber es fehlen konkrete Benchmarks für Apple-Silicon-Hardware.
Thunderbolt/USB4 High-Bandwidth Interconnect (>40 Gbps) for local AI inference/training/homelab? (7/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Thunderbolt 4-5 bietet hohe Bandbreite für Clusteraufbau, aber es fehlen praktische Beispiele und Benchmarks.
Hardware: Mac Mini, Mac Studio, DGX Spark, AMD Strix
Modell: nicht spezifiziert
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Multi
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Post diskutiert die Möglichkeit, Macs und andere Geräte über Thunderbolt 4-5 zu vernetzen, um einen lokalen AI-Cluster aufzubauen. Es wird die hohe Bandbreite von Thunderbolt 4-5 gegenüber Ethernet betont, aber es fehlen konkrete Beispiele und Benchmarks.
I turned an Android phone into a Vulkan-accelerated local LLM node (GGUF + LiteLLM + Tailscale) (8/10) — OpenCode-Fit: BEDINGT

Verdict (1 Satz): Ein Android-Telefon als lokaler LLM-Node ist eine interessante Ergänzung, aber für OpenCode-Anwendungen eher begrenzt.
Hardware: Android-Telefon (Z Fold 6)
Modell: GGUF
tok/s-Claim: 114.5 tok/s (kurzer Burst)
Cluster-Bezug: Multi
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Post beschreibt, wie ein Android-Telefon als lokaler LLM-Node eingesetzt werden kann, unterstützt durch Vulkan-GPU-Acceleration. Es wird eine OpenAI-kompatible Schnittstelle und die Integration in ein bestehendes Cluster über Tailscale beschrieben. Die Benchmarks zeigen gute kurze Burst-Leistung, aber es fehlen langfristige Benchmarks.
Macbook M5 Pro 24GB or 48GB (9/10) — OpenCode-Fit: JA
Verdict (1 Satz): 48GB RAM ist für die Betreibung von lokalen LLMs auf einem Macbook M5 Pro unerlässlich, um Claude-Opus-Nähe zu erreichen.
Hardware: Macbook M5 Pro
Modell: Qwen 3.6 35B, DS V4 Flash, MiMo V2.5, GLM-5.1, Kimi K2.6
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Saetze): Der Post diskutiert die Wahl zwischen 24GB und 48GB RAM für einen Macbook M5 Pro. Mehrere Benutzer berichten, dass 48GB notwendig sind, um Modelle wie Qwen 3.6 35B effektiv zu betreiben, die für Claude-Opus-Nähe geeignet sind. 24GB sind für die meisten Modelle zu wenig, insbesondere wenn zusätzliche Anwendungen wie IDEs parallel laufen.
Is it possible to combine Windows + Mac over USB-C for larger models, but also faster speeds? (7/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Die Kombination von Windows und Mac über USB-C ist theoretisch möglich, aber die Performance-Vorteile sind begrenzt.
Hardware: Windows-PC (Ryzen 9950X3D, RTX 4090), Macbook Pro M4 Pro
Modell: nicht spezifiziert
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Multi
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Post erkundet die Möglichkeit, einen Windows-PC und einen Macbook Pro über USB-C zu vernetzen, um größere Modelle zu betreiben. Es werden verschiedene Tests beschrieben, aber die Ergebnisse zeigen, dass die Performance-Vorteile begrenzt sind, insbesondere wenn die RTX 4090 in Betracht gezogen wird.
Using Gemma 4 E4B with the LiteRT engine – ~2.4x speedup over Q4 GGUF in text generation, image processing roughly the same (8/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): LiteRT bietet signifikante Geschwindigkeitsvorteile für Textgenerierung, aber die Image-Processing-Leistung bleibt begrenzt.
Hardware: 4060ti 16GB
Modell: Gemma 4 E4B
tok/s-Claim: 157.2 tok/s (LiteRT), 66.3 tok/s (Q4 GGUF)
Cluster-Bezug: Single
Investment-Empfehlung: „Warten“
Kontext (2-3 Saetze): Der Post beschreibt die Nutzung von Gemma 4 E4B mit dem LiteRT-Engine, die eine Geschwindigkeitssteigerung von 2.4x für Textgenerierung bietet. Die Image-Processing-Leistung bleibt jedoch unverändert, da die Bottleneck bei der Vision-Encoder liegt.
Qwen3.6-35B on my MacBook scored 37.8% on Terminal-Bench 2.0, rivalling Claude Code + Sonnet 4.5 (9/10) — OpenCode-Fit: JA
Verdict (1 Satz): Qwen3.6-35B auf einem Macbook M4 Pro erreicht Claude-Opus-Nähe in agenischen Benchmarks, was die Eignung von Apple-Silicon für OpenCode-Anwendungen bestätigt.
Hardware: Macbook M4 Pro 48GB
Modell: Qwen3.6-35B-A3B (Q6_K_XL)
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single
Investment-Empfehlung: „Jetzt kaufen“
Kontext (2-3 Saetze): Der Post beschreibt die Ergebnisse von Qwen3.6-35B auf einem Macbook M4 Pro in Terminal-Bench 2.0. Das Modell erreicht eine durchschnittliche Score von 37.8%, was Claude Code + Sonnet 4.5 (40.1%) nahekommt. Die Benchmarks zeigen, dass Apple-Silicon für agenische Aufgaben geeignet ist.
Weitere Beiträge:
– lipsync possible on mac?
– Automating openai-privacy-filter or any redaction tools?
– Would you use a very fast context layer on top of your existing OpenCode/Claude Code instance?
– mistral.rs v0.8.2: up to 2.8x faster CUDA inference than llama.cpp on GB10, B200, and H100
– Dual 4090 rig or sell one? no