Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist der Ort, an dem Community-User ihre lokalen KI-Setups dokumentieren und benchmarken. In dieser Woche sind besonders die Einträge zu Qwen-3.6-27B, Gemma 4 26B und der Vergleich von Mac Studio M3 Ultra mit anderen GPU-Setups hervorzuheben. Diese Beiträge bieten konkrete Zahlen und praktische Erfahrungen, die für den Bau eines nachbaubaren und funktionsfähigen lokalen KI-Setups hilfreich sind.

[Gemma 4 26B Hits 600 Tok/s on One RTX 5090] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat einen Benchmark durchgeführt, um den Einfluss des DFlash speculative decoding in vLLM zu testen. Das Setup verwendet eine RTX 5090 GPU und das Modell cyankiwi/gemma-4-26B-A4B-it-AWQ-4bit.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5090 32GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM 0.19.2rc1 |
| Modell + Quant | cyankiwi/gemma-4-26B-A4B-it-AWQ-4bit |
| Kontext-Laenge | 256 input tokens, 1024 output tokens |
| tok/s (single) | ~578 tok/s (mit DFlash) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Mit DFlash speculative decoding erreicht das Setup eine Geschwindigkeit von ~578 tok/s, was eine erhebliche Verbesserung gegenüber der Baseline von ~228 tok/s darstellt. Das Modell läuft stabil und ist für OpenCode-Workloads geeignet.

Was NICHT funktioniert / Limits: Die besten Einstellungen für DFlash variieren, und es gibt eine Trade-off zwischen durchschnittlicher Latenz und p95-Latenz. Das Modell ist für längere Kontexte geeignet, aber die Performance kann bei sehr großen Kontexten abnehmen.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem RTX 5090 und Interesse an schnellem Token-Output empfehlenswert. Die Einstellungen für DFlash sollten je nach spezifischer Anwendung angepasst werden.


[Benchmark Qwen 3.6 27B MTP on 2×3090 NVLINK] (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat einen Benchmark durchgeführt, um die Performance von Qwen 3.6 27B mit MTP auf einem 2×3090 NVLINK-Setup zu testen. Es werden verschiedene Konfigurationen verglichen, um die beste Tensor-Parallelität zu finden.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 4x RTX 3090 24GB (2x NVLink) |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM 0.20.1 |
| Modell + Quant | cyankiwi/Qwen3.6-27B-AWQ-BF16-INT4 |
| Kontext-Laenge | 1024 input tokens, 256 output tokens |
| tok/s (single) | 66.0 tok/s (TP=2 NVLink) |
| tok/s (batched) | 215 tok/s (TP=2 NVLink, concurrency 4) |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Die beste Konfiguration war TP=2 auf einem NVLink-verbundenen GPU-Paar, was eine Geschwindigkeit von 66.0 tok/s bei Single-Stream und 215 tok/s bei 4 Streams erreichte. Das Modell läuft stabil und ist für OpenCode-Workloads geeignet.

Was NICHT funktioniert / Limits: TP=4 führte zu schlechteren Ergebnissen, was darauf hindeutet, dass die NVLink-Verbindung zwischen den GPU-Paaren effizienter ist als die PCIe-Verbindung.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit 2×3090 und NVLink-Verbindung empfehlenswert. Die TP=2-Konfiguration auf einem NVLink-verbundenen GPU-Paar ist die beste Wahl für optimale Performance.


[Mac Studio local loadout – May 2026] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Benutzer teilt seine Erfahrungen mit verschiedenen Modellen auf einem Mac Studio M3 Ultra. Es werden GLM 5.1, Kimi K2.6, Minimax 2.7, Gemma 4 31B und Qwen 3.6 35B verglichen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | Apple M3 Ultra |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 460GB |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | nicht im Post belegt |
| Modell + Quant | GLM 5.1, Kimi K2.6, Minimax 2.7, Gemma 4 31B, Qwen 3.6 35B |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | 220 tok/s (Kimi K2.6), 190 tok/s (GLM 5.1) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? GLM 5.1 und Kimi K2.6 sind die besten Modelle für Coding-Aufgaben, wobei GLM 5.1 bis zu 6/10 der Aufgaben zuverlässig lösen kann. Kimi K2.6 ist schneller, aber wegen der Größe muss es oft entladen werden.

Was NICHT funktioniert / Limits: Minimax 2.7 ist für Coding-Aufgaben zu klein, und Gemma 4 31B hat noch einige Bugs. Qwen 3.6 35B wurde durch Qwen 3.5 9B ersetzt, da der kleinere Modell genügt.

Nachbau-Empfehlung: Das Setup ist für Benutzer mit einem Mac Studio M3 Ultra und einem Fokus auf Coding-Aufgaben geeignet. GLM 5.1 und Kimi K2.6 sind die besten Wahl, aber die Größe von Kimi K2.6 kann ein Hindernis sein.


[Qwen3.6 27B NVFP4 + MTP on a single RTX 5090: 200k context working in vLLM] (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Qwen3.6 27B NVFP4 auf einer RTX 5090 getestet und erreicht eine Kontext-Länge von 200k. Es werden die genauen Parameter und die Performance-Zahlen geteilt.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5090 32GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM 0.20.1.dev0+g88d34c640.d20260502 |
| Modell + Quant | Peutlefaire/Qwen3.6-27B-NVFP4 |
| Kontext-Laenge | 200k |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Das Modell läuft stabil mit einer Kontext-Länge von 200k und verwendet 30478 MiB VRAM. Die Performance ist gut, und das Setup ist für OpenCode-Workloads geeignet.

Was NICHT funktioniert / Limits: Die maximal mögliche Kontext-Länge beträgt 230400, aber der Benutzer hat nur 200k validiert. Die Performance kann bei sehr großen Kontexten abnehmen.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem RTX 5090 und der Notwendigkeit, große Kontexte zu verarbeiten, empfehlenswert. Die Parameter sind gut dokumentiert und können leicht nachgebaut werden.


[I Ralph-looped Opus overnight. It reduced my local model switching with cold backfilling context of 135k+ on llama.cpp from ~165s -> 5s! TL;DR – USE SLOTS!] (6/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat eine Methode entwickelt, um die Kontext-Backfilling-Zeit bei Modell-Wechseln auf einem RTX 3090 Ti von ~165 Sekunden auf ~5 Sekunden zu reduzieren. Es werden zwei offene PRs und ein Python-Supervisor verwendet, um die KV-Cache-Überlebensfähigkeit zu gewährleisten.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3090 Ti 24GB |
| CPU / Mainboard | Ryzen 9950x |
| RAM | 96GB DDR5 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp (mit PRs) |
| Modell + Quant | Qwen3.6-27B, Qwen3-coder-30B, Gemma-4-31B, GPT-OSS-20B, Qwen3.6-35B, Nemotron-Cascade-2-30B, Ministral-8B, Nemotron-Nano-4B, Qwen3-4B |
| Kontext-Laenge | 135k+ |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Die Methode reduziert die Kontext-Backfilling-Zeit erheblich und ermöglicht eine nahezu vollständige Claude-Code-Erfahrung lokal. Die KV-Cache-Überlebensfähigkeit wird durch die PRs und den Python-Supervisor gewährleistet.

Was NICHT funktioniert / Limits: Die Methode erfordert spezifische PRs und eine stabile KV-Cache-Struktur. Die Performance kann bei sehr großen Kontexten abnehmen.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem RTX 3090 Ti und der Notwendigkeit, häufig zwischen Modellen zu wechseln, empfehlenswert. Die PRs und der Python-Supervisor sind gut dokumentiert und können leicht nachgebaut werden.


[DeepSeek V4 being 17x cheaper got me to actually measure what I send to cloud vs what I could run locally. the results are stupid.] (5/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Benutzer hat seine tägliche Coding-Workflow analysiert und festgestellt, dass 65% der Aufgaben lokal mit Qwen 3.6 27B auf einem 3090 gelöst werden können. Die Cloud ist nur für komplexe Aufgaben notwendig.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | nicht im Post belegt |
| Modell + Quant | Qwen 3.6 27B |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? 65% der täglichen Coding-Aufgaben können lokal mit Qwen 3.6 27B auf einem 3090 gelöst werden, was die Cloudkosten erheblich reduziert.

Was NICHT funktioniert / Limits: Für komplexe Aufgaben wie Architektur-Entscheidungen und Refaktorisierungen über mehrere Dateien ist die Cloud immer noch notwendig.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem 3090 und einem Fokus auf effiziente Kostenreduzierung empfehlenswert. Die Analyse der täglichen Aufgaben kann helfen, die Cloudnutzung zu optimieren.


Weitere Beiträge:

Strix Halo Clustering (Hardware Setup Discussion) — keine Hardware belegt, kein funktionierendes Setup
4x m5 max 128gb ram RDMA vs 1 m3 ultra? — keine Hardware belegt, kein funktionierendes Setup
Follow-up: Trying to make NVIDIA GPUs plug-and-play on Macs. Found hidden RDMA symbols Apple doesn’t want you to see — zero-copy GPU memory sharing might already work. — keine Hardware belegt, kein funktionierendes Setup
PP speed on dual RTX 6000 12c EPYC setup — keine Hardware belegt, kein funktionierendes Setup
– [[Benchmark] Llama.cpp: Mac vs CPU vs GPU + CPU, Qwen3.6 27B, Q8](https://old.reddit.com/r/LocalLLaMA/comments/1t4l5mt/benchmark_llamacpp_mac_vs_cpu_vs_gpu_cpu_qwen36

👁 2 Aufrufe 👤 2 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert