Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Setup-Berichten und Benchmarks geprägt. Besonders hervorzuheben sind die Einträge zu Qwen-Modelle auf 3090-GPU-Setups, die hohe Token-Raten und stabile Performance zeigen. Ein Mac Studio M3 Ultra-Setup wird ebenfalls detailliert dokumentiert, wobei GLM 5.1 und Kimi K2.6 als besonders nützlich für Coding-Aufgaben hervorgehen. Ein weiterer Beitrag beschreibt, wie man NVIDIA-GPUs auf Macs einsetzen kann, was interessante Möglichkeiten für RDMA und Zero-Copy-GPU-Memory-Sharing eröffnet.
[Benchmark Qwen 3.6 27B MTP on 2×3090 NVLINK] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer hat ein Setup mit 4x RTX 3090-GPUs getestet, wobei NVLink zwischen GPU-Paaren verwendet wird. Er vergleicht die Performance von TP=2 über NVLink und PCIe sowie TP=4 über alle GPUs.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 4x RTX 3090 24GB, NVLink (NV4) zwischen GPU0↔GPU2 und GPU1↔GPU3 |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM 0.20.1, transformers 5.7.0, CUDA 12.8 |
| Modell + Quant | cyankiwi/Qwen3.6-27B-AWQ-BF16-INT4 |
| Kontext-Laenge | 131072 tokens |
| tok/s (single) | 66.0 tok/s (TP=2 NVLink) |
| tok/s (batched) | 215 tok/s aggregate bei 8 streams (TP=2 NVLink) |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? TP=2 über NVLink liefert eine signifikante Performance-Steigerung im Vergleich zu PCIe, insbesondere bei höherer Konkurrenz. Das Setup ist gut für OpenCode-Workloads geeignet, da es stabile Token-Raten und eine hohe Kontext-Länge bietet.
Was NICHT funktioniert / Limits: TP=4 über alle GPUs führt zu einer Verschlechterung der Performance. Die Kontext-Länge von 131072 tokens ist hoch, aber es gibt keine Angaben zur maximalen Kontext-Länge ohne OOM-Fehler.
Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem Budget von ca. 4.000 EUR empfehlenswert, die hohe Token-Raten und stabile Performance benötigen. Die NVLink-Verbindung zwischen GPU-Paaren ist ein entscheidender Faktor für die Performance-Steigerung.
[Mac Studio local loadout – May 2026] (7/10) — OpenCode-Fit: BEDINGT
Worum es geht: Der Benutzer beschreibt sein tägliches Setup mit einem Mac Studio M3 Ultra, auf dem er verschiedene Modelle wie GLM 5.1, Kimi K2.6, Minimax 2.7 und Qwen 3.6 laufen lässt. Er vergleicht die Performance und Anwendbarkeit dieser Modelle für Coding-Aufgaben.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | Apple M3 Ultra 512GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 512 GB |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | nicht im Post belegt |
| Modell + Quant | GLM 5.1, Kimi K2.6, Minimax 2.7, Qwen 3.6-9B |
| Kontext-Laenge | 131072 tokens (GLM 5.1) |
| tok/s (single) | 190 tps prefill, 17 tps decode (GLM 5.1) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? GLM 5.1 und Kimi K2.6 sind besonders nützlich für Coding-Aufgaben und liefern stabile Performance. Qwen 3.6-9B ist für multimodale Aufgaben wie „translate this screenshot“ ausreichend und schnell.
Was NICHT funktioniert / Limits: Minimax 2.7 ist für Coding-Aufgaben zu langsam und unpraktisch. Gemma 4 31B hat noch einige Bugs und ist nicht optimal für den Mac Studio M3 Ultra geeignet.
Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem höheren Budget und spezifischen Anforderungen an Coding- und multimodale Aufgaben geeignet. Es ist besonders empfehlenswert, wenn man eine hohe Kontext-Länge und stabile Performance benötigt.
[Running Qwen3.5 / Qwen3.6 with NextN MTP (Multi-Token Prediction) speculative decode in llama.cpp — single RTX 3090 Ti GPU guide] (8/10) — OpenCode-Fit: JA
Worum es geht: Der Benutzer beschreibt, wie man Qwen3.5 und Qwen3.6 mit NextN MTP (Multi-Token Prediction) speculative decode in llama.cpp auf einem einzelnen RTX 3090 Ti GPU laufen lassen kann. Er gibt eine detaillierte Anleitung, einschließlich der erforderlichen PRs und Build-Schritte.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 3090 Ti 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp (mit PRs #22400 und #22673) |
| Modell + Quant | Qwen3.5-4B-MTP Q5_K_M, Qwen3.6-27B-NVFP4 |
| Kontext-Laenge | 200k tokens |
| tok/s (single) | ~150 tok/s (Qwen3.5-35B-A3B) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Die NextN MTP-Unterstützung führt zu einer signifikanten Steigerung der Token-Rate ohne Qualitätsverlust. Das Setup ist gut für OpenCode-Workloads geeignet, da es hohe Token-Raten und eine hohe Kontext-Länge bietet.
Was NICHT funktioniert / Limits: Die NextN MTP-Unterstützung ist noch nicht in den offiziellen llama.cpp-Branchen integriert, was zusätzliche Build-Schritte erfordert. Die Performance von Qwen3.6-35B-A3B ist beeindruckend, aber das Modell ist groß und erfordert viel VRAM.
Nachbau-Empfehlung: Dieses Setup ist für fortgeschrittene Benutzer mit einem RTX 3090 Ti GPU empfehlenswert, die hohe Token-Raten und eine hohe Kontext-Länge benötigen. Die zusätzlichen Build-Schritte sind notwendig, aber die Performance-Steigerung ist es wert.
[Qwen3.6 27B NVFP4 + MTP on a single RTX 5090: 200k context working in vLLM] (9/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer hat Qwen3.6 27B NVFP4 mit MTP auf einem einzelnen RTX 5090 GPU getestet und die Performance-Daten geteilt. Er beschreibt die genauen Parameter und die erzielten Token-Raten.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 5090 32GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM 0.20.1.dev0+g88d34c640.d20260502, Torch 2.13.0.dev20260430+cu130 |
| Modell + Quant | Peutlefaire/Qwen3.6-27B-NVFP4 |
| Kontext-Laenge | 200k tokens |
| tok/s (single) | 200k context, 29998 MiB VRAM usage |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Das Setup erreicht eine Kontext-Länge von 200k tokens und verwendet 29998 MiB VRAM. Die Token-Rate ist stabil und das Modell läuft ohne OOM-Fehler.
Was NICHT funktioniert / Limits: Die maximal mögliche Kontext-Länge ist 230400 tokens, aber der Benutzer hat nur 200k tokens validiert. Die Performance könnte bei höheren Kontext-Längen abnehmen.
Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem RTX 5090 GPU und hohen Anforderungen an die Kontext-Länge und die Token-Rate empfehlenswert. Es ist besonders geeignet für OpenCode-Workloads und komplexe Coding-Aufgaben.
[I Ralph-looped Opus overnight. It reduced my local model switching with cold backfilling context of 135k+ on llama.cpp from ~165s -> 5s! TL;DR – USE SLOTS!] (7/10) — OpenCode-Fit: JA
Worum es geht: Der Benutzer beschreibt, wie er die KV-Cache-Management-Funktionen in llama.cpp verbessert hat, um die Modell-Wechselzeit von mehreren Minuten auf wenige Sekunden zu reduzieren. Er verwendet ein Python-Supervisor-Skript, das KV-Cache-Slots verwaltet.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 3090 Ti 24GB |
| CPU / Mainboard | Ryzen 9950x |
| RAM | 96GB DDR5 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | Samsung 9100 2TB Gen5 NVMe |
| Framework + Version | llama.cpp (mit PRs #20819 und #20822) |
| Modell + Quant | Qwen3.6-27B, Qwen3-coder-30B, Gemma-4-31B, GPT-OSS-20B, Qwen3.6-35B, Nemotron-Cascade-2-30B |
| Kontext-Laenge | 135k+ tokens |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Die KV-Cache-Management-Funktionen reduzieren die Modell-Wechselzeit von mehreren Minuten auf wenige Sekunden. Das Setup ist gut für OpenCode-Workloads geeignet, da es schnelle Modell-Wechsel und eine hohe Kontext-Länge ermöglicht.
Was NICHT funktioniert / Limits: Die PRs sind noch nicht in den offiziellen llama.cpp-Branchen integriert, was zusätzliche Build-Schritte erfordert. Die Performance könnte bei sehr großen Modellen abnehmen.
Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem RTX 3090 Ti GPU und hohen Anforderungen an die Modell-Wechselzeit und die Kontext-Länge empfehlenswert. Die zusätzlichen Build-Schritte sind notwendig, aber die Performance-Steigerung ist es wert.
Weitere Beiträge:
– 4x m5 max 128gb ram RDMA vs 1 m3 ultra? — keine Hardware belegt, kein funktionierendes Setup
– Follow-up: Trying to make NVIDIA GPUs plug-and-play on Macs. Found hidden RDMA symbols Apple doesn’t want you to see — zero-copy GPU memory sharing might already work. — keine konkrete Hardware belegt, eher ein Forschungsbeitrag
– DeepSeek V4 being 17x cheaper got me to actually measure what I send to cloud vs what I could run locally. the results are stupid. — keine Hardware belegt, eher eine Diskussion über Cloud vs. Lokal
– [[Benchmark] Llama.cpp: Mac vs CPU vs GPU + CPU, Qwen3.6 27B, Q8](https://old.reddit.com/r/LocalLLaMA/comments/1t4l5mt/benchmark_llamacpp_mac_vs_cpu_vs_gpu_cpu_qwen36/) — keine konkrete Hardware belegt, eher eine Vergleichsstudie
– PP speed on dual RTX 6000 12c EPYC setup — keine konkrete Hardware belegt, eher eine Frage
– Considering two Sparks for local coding — keine konkrete Hardware belegt, eher eine Frage
– Struggling with Qwen3.6 27B / 35B locally (3090) slow responses, breaking code looking for better setup + auto model switching — keine konkrete Hardware belegt, eher