Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist der Ort, an dem Community-User ihre lokalen KI-Setups dokumentieren und benchmarken. In dieser Woche sind besonders die Einträge zu Qwen-3.6-27B, Gemma 4 26B und der Vergleich von Mac Studio M3 Ultra mit anderen GPU-Setups hervorzuheben. Diese Beiträge bieten konkrete Zahlen und praktische Erfahrungen, die für den Bau eines nachbaubaren und funktionsfähigen lokalen KI-Setups hilfreich sind.

[Gemma 4 26B Hits 600 Tok/s on One RTX 5090] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat einen Benchmark durchgeführt, um den Einfluss des DFlash speculative decoding in vLLM zu testen. Das Setup verwendet eine RTX 5090 GPU und das Modell cyankiwi/gemma-4-26B-A4B-it-AWQ-4bit.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Mit DFlash speculative decoding erreicht das Setup eine Geschwindigkeit von ~578 tok/s, was eine erhebliche Verbesserung gegenüber der Baseline von ~228 tok/s darstellt. Das Modell läuft stabil und ist für OpenCode-Workloads geeignet.

Was NICHT funktioniert / Limits: Die besten Einstellungen für DFlash variieren, und es gibt eine Trade-off zwischen durchschnittlicher Latenz und p95-Latenz. Das Modell ist für längere Kontexte geeignet, aber die Performance kann bei sehr großen Kontexten abnehmen.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem RTX 5090 und Interesse an schnellem Token-Output empfehlenswert. Die Einstellungen für DFlash sollten je nach spezifischer Anwendung angepasst werden.

[Benchmark Qwen 3.6 27B MTP on 2×3090 NVLINK] (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat einen Benchmark durchgeführt, um die Performance von Qwen 3.6 27B mit MTP auf einem 2×3090 NVLINK-Setup zu testen. Es werden verschiedene Konfigurationen verglichen, um die beste Tensor-Parallelität zu finden.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Die beste Konfiguration war TP=2 auf einem NVLink-verbundenen GPU-Paar, was eine Geschwindigkeit von 66.0 tok/s bei Single-Stream und 215 tok/s bei 4 Streams erreichte. Das Modell läuft stabil und ist für OpenCode-Workloads geeignet.

Was NICHT funktioniert / Limits: TP=4 führte zu schlechteren Ergebnissen, was darauf hindeutet, dass die NVLink-Verbindung zwischen den GPU-Paaren effizienter ist als die PCIe-Verbindung.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit 2×3090 und NVLink-Verbindung empfehlenswert. Die TP=2-Konfiguration auf einem NVLink-verbundenen GPU-Paar ist die beste Wahl für optimale Performance.

[Mac Studio local loadout – May 2026] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Benutzer teilt seine Erfahrungen mit verschiedenen Modellen auf einem Mac Studio M3 Ultra. Es werden GLM 5.1, Kimi K2.6, Minimax 2.7, Gemma 4 31B und Qwen 3.6 35B verglichen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? GLM 5.1 und Kimi K2.6 sind die besten Modelle für Coding-Aufgaben, wobei GLM 5.1 bis zu 6/10 der Aufgaben zuverlässig lösen kann. Kimi K2.6 ist schneller, aber wegen der Größe muss es oft entladen werden.

Was NICHT funktioniert / Limits: Minimax 2.7 ist für Coding-Aufgaben zu klein, und Gemma 4 31B hat noch einige Bugs. Qwen 3.6 35B wurde durch Qwen 3.5 9B ersetzt, da der kleinere Modell genügt.

Nachbau-Empfehlung: Das Setup ist für Benutzer mit einem Mac Studio M3 Ultra und einem Fokus auf Coding-Aufgaben geeignet. GLM 5.1 und Kimi K2.6 sind die besten Wahl, aber die Größe von Kimi K2.6 kann ein Hindernis sein.

[Qwen3.6 27B NVFP4 + MTP on a single RTX 5090: 200k context working in vLLM] (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Qwen3.6 27B NVFP4 auf einer RTX 5090 getestet und erreicht eine Kontext-Länge von 200k. Es werden die genauen Parameter und die Performance-Zahlen geteilt.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Modell läuft stabil mit einer Kontext-Länge von 200k und verwendet 30478 MiB VRAM. Die Performance ist gut, und das Setup ist für OpenCode-Workloads geeignet.

Was NICHT funktioniert / Limits: Die maximal mögliche Kontext-Länge beträgt 230400, aber der Benutzer hat nur 200k validiert. Die Performance kann bei sehr großen Kontexten abnehmen.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem RTX 5090 und der Notwendigkeit, große Kontexte zu verarbeiten, empfehlenswert. Die Parameter sind gut dokumentiert und können leicht nachgebaut werden.

[I Ralph-looped Opus overnight. It reduced my local model switching with cold backfilling context of 135k+ on llama.cpp from ~165s -> 5s! TL;DR – USE SLOTS!] (6/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat eine Methode entwickelt, um die Kontext-Backfilling-Zeit bei Modell-Wechseln auf einem RTX 3090 Ti von ~165 Sekunden auf ~5 Sekunden zu reduzieren. Es werden zwei offene PRs und ein Python-Supervisor verwendet, um die KV-Cache-Überlebensfähigkeit zu gewährleisten.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Die Methode reduziert die Kontext-Backfilling-Zeit erheblich und ermöglicht eine nahezu vollständige Claude-Code-Erfahrung lokal. Die KV-Cache-Überlebensfähigkeit wird durch die PRs und den Python-Supervisor gewährleistet.

Was NICHT funktioniert / Limits: Die Methode erfordert spezifische PRs und eine stabile KV-Cache-Struktur. Die Performance kann bei sehr großen Kontexten abnehmen.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem RTX 3090 Ti und der Notwendigkeit, häufig zwischen Modellen zu wechseln, empfehlenswert. Die PRs und der Python-Supervisor sind gut dokumentiert und können leicht nachgebaut werden.

[DeepSeek V4 being 17x cheaper got me to actually measure what I send to cloud vs what I could run locally. the results are stupid.] (5/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Benutzer hat seine tägliche Coding-Workflow analysiert und festgestellt, dass 65% der Aufgaben lokal mit Qwen 3.6 27B auf einem 3090 gelöst werden können. Die Cloud ist nur für komplexe Aufgaben notwendig.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? 65% der täglichen Coding-Aufgaben können lokal mit Qwen 3.6 27B auf einem 3090 gelöst werden, was die Cloudkosten erheblich reduziert.

Was NICHT funktioniert / Limits: Für komplexe Aufgaben wie Architektur-Entscheidungen und Refaktorisierungen über mehrere Dateien ist die Cloud immer noch notwendig.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem 3090 und einem Fokus auf effiziente Kostenreduzierung empfehlenswert. Die Analyse der täglichen Aufgaben kann helfen, die Cloudnutzung zu optimieren.

Weitere Beiträge:

– Strix Halo Clustering (Hardware Setup Discussion) — keine Hardware belegt, kein funktionierendes Setup
– 4x m5 max 128gb ram RDMA vs 1 m3 ultra? — keine Hardware belegt, kein funktionierendes Setup
– Follow-up: Trying to make NVIDIA GPUs plug-and-play on Macs. Found hidden RDMA symbols Apple doesn’t want you to see — zero-copy GPU memory sharing might already work. — keine Hardware belegt, kein funktionierendes Setup
– PP speed on dual RTX 6000 12c EPYC setup — keine Hardware belegt, kein funktionierendes Setup
– [[Benchmark] Llama.cpp: Mac vs CPU vs GPU + CPU, Qwen3.6 27B, Q8](https://old.reddit.com/r/LocalLLaMA/comments/1t4l5mt/benchmark_llamacpp_mac_vs_cpu_vs_gpu_cpu_qwen36

👁 2 Aufrufe 👤 2 Leser