Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für echte, nachbaubare KI-Setups. Diese Woche stehen insbesondere die Einträge zum Betrieb von Qwen3.6-27B auf einem RTX 4090, die Benchmark von Gemma 4 26B auf einem RTX 5090 und die Optimierung von Qwen3.6-27B auf 2x RTX 3090 NVLink im Fokus. Diese Einträge bieten konkrete Zahlen und Setup-Details, die für den Bau eines eigenen lokalen KI-Setups hilfreich sind.
[Got MTP + TurboQuant running — Qwen3.6-27B — 80+ t/s at 262K context on a single RTX 4090] (8/10) — OpenCode-Fit: JA
Worum es geht: Der Benutzer hat MTP (Multi-Token Prediction) und TurboQuant auf Qwen3.6-27B für einen RTX 4090 konfiguriert. Er erreicht 80-87 tokens/sekunde bei 262K Kontext-Länge.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 4090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp-mtp (Fork)“ |
| Modell + Quant | „Qwen3.6-27B-Heretic-v2 Q4_K_M“ |
| Kontext-Laenge | „262K“ |
| tok/s (single) | „80-87 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? Das Setup erreicht 80-87 tokens/sekunde bei einer Kontext-Länge von 262K. Die MTP-Implementierung verbessert die Performance erheblich, und die Ausgabe-Qualität ist stabil.
Was NICHT funktioniert / Limits Die genauen Hardware-Details sind nicht vollständig belegt, und es gibt keine Informationen über den Stromverbrauch oder die Kosten. Die MTP-Implementierung ist noch in der Entwicklung, und es gibt Raum für Optimierungen.
Nachbau-Empfehlung Das Setup ist für Benutzer mit einem RTX 4090 und Interesse an MTP und TurboQuant sehr empfehlenswert. Es bietet eine gute Balance zwischen Performance und Kontext-Länge. Die Fehlenden Details zur Hardware und den Kosten sollten vor dem Bau recherchiert werden.
[Gemma 4 26B Hits 600 Tok/s on One RTX 5090] (9/10) — OpenCode-Fit: JA
Worum es geht: Der Benutzer hat eine Benchmark von Gemma 4 26B auf einem RTX 5090 durchgeführt. Mit DFlash speculative decoding erreicht er 600 tokens/sekunde bei 256 Eingabetokens und 1024 Ausgabetokens.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 5090 32GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM 0.19.2rc1“ |
| Modell + Quant | „cyankiwi/gemma-4-26B-A4B-it-AWQ-4bit“ |
| Kontext-Laenge | „256“ |
| tok/s (single) | „600 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? Das Setup erreicht 600 tokens/sekunde bei 256 Eingabetokens und 1024 Ausgabetokens. DFlash speculative decoding verbessert die Performance erheblich.
Was NICHT funktioniert / Limits Die Performance nimmt bei höheren Kontext-Längen ab. Es gibt auch Berichte, dass die DFlash-Implementierung bei anderen Benutzern nicht stabil ist.
Nachbau-Empfehlung Das Setup ist für Benutzer mit einem RTX 5090 und Interesse an hohen Token-Raten sehr empfehlenswert. Es bietet eine ausgezeichnete Performance, aber die Stabilität bei höheren Kontext-Längen sollte vor dem Bau überprüft werden.
[Benchmark Qwen 3.6 27B MTP on 2×3090 NVLINK] (8/10) — OpenCode-Fit: JA
Worum es geht: Der Benutzer hat eine Benchmark von Qwen 3.6 27B auf 2x RTX 3090 mit NVLink durchgeführt. Er vergleicht die Performance bei TP=2 über NVLink und PCIe.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „4x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM 0.20.1“ |
| Modell + Quant | „cyankiwi/Qwen3.6-27B-AWQ-BF16-INT4“ |
| Kontext-Laenge | „131072“ |
| tok/s (single) | „66.0 tok/s (TP=2 NVLink), 52.6 tok/s (TP=2 non-NVLink)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? Das Setup erreicht 66.0 tokens/sekunde bei TP=2 über NVLink und 52.6 tokens/sekunde bei TP=2 über PCIe. NVLink verbessert die Performance erheblich.
Was NICHT funktioniert / Limits Die Performance nimmt bei TP=4 ab. Es gibt keine Informationen über den Stromverbrauch oder die Kosten.
Nachbau-Empfehlung Das Setup ist für Benutzer mit 2x RTX 3090 und Interesse an NVLink sehr empfehlenswert. Es bietet eine gute Performance, aber die Stabilität bei TP=4 sollte vor dem Bau überprüft werden.
[Running Qwen3.5 / Qwen3.6 with NextN MTP (Multi-Token Prediction) speculative decode in llama.cpp — single RTX 3090 Ti GPU guide] (8/10) — OpenCode-Fit: JA
Worum es geht: Der Benutzer beschreibt, wie man Qwen3.5 und Qwen3.6 mit NextN MTP (Multi-Token Prediction) auf einem RTX 3090 Ti betreibt. Er gibt eine detaillierte Anleitung, einschließlich der erforderlichen PRs.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 Ti 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp (Fork)“ |
| Modell + Quant | „Qwen3.5-4B-MTP Q5_K_M“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „150 tok/s (Qwen3.5-35B-A3B)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? Das Setup erreicht 150 tokens/sekunde bei der Verwendung von Qwen3.5-35B-A3B. Die MTP-Implementierung verbessert die Performance erheblich.
Was NICHT funktioniert / Limits Die genauen Hardware-Details sind nicht vollständig belegt, und es gibt keine Informationen über den Stromverbrauch oder die Kosten. Die MTP-Implementierung ist noch in der Entwicklung, und es gibt Raum für Optimierungen.
Nachbau-Empfehlung Das Setup ist für Benutzer mit einem RTX 3090 Ti und Interesse an MTP und NextN sehr empfehlenswert. Es bietet eine gute Performance, aber die Fehlenden Details zur Hardware und den Kosten sollten vor dem Bau recherchiert werden.
[Qwen3.6 27B NVFP4 + MTP on a single RTX 5090: 200k context working in vLLM] (9/10) — OpenCode-Fit: JA
Worum es geht: Der Benutzer beschreibt, wie er Qwen3.6 27B NVFP4 mit MTP auf einem RTX 5090 betreibt. Er erreicht 200k Kontext-Länge und 80 tokens/sekunde.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 5090 32GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM 0.20.1.dev0+g88d34c640.d20260502“ |
| Modell + Quant | „Peutlefaire/Qwen3.6-27B-NVFP4“ |
| Kontext-Laenge | „200k“ |
| tok/s (single) | „80 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? Das Setup erreicht 200k Kontext-Länge und 80 tokens/sekunde. Die MTP-Implementierung verbessert die Performance erheblich.
Was NICHT funktioniert / Limits Die genauen Hardware-Details sind nicht vollständig belegt, und es gibt keine Informationen über den Stromverbrauch oder die Kosten. Die MTP-Implementierung ist noch in der Entwicklung, und es gibt Raum für Optimierungen.
Nachbau-Empfehlung Das Setup ist für Benutzer mit einem RTX 5090 und Interesse an hohen Kontext-Längen und MTP sehr empfehlenswert. Es bietet eine ausgezeichnete Performance, aber die Fehlenden Details zur Hardware und den Kosten sollten vor dem Bau recherchiert werden.
Weitere Beiträge:
– Mac Studio local loadout – May 2026 — keine Hardware belegt, kein nachbaubares Setup
– Strix Halo Clustering (Hardware Setup Discussion) — keine Hardware belegt, kein nachbaubares Setup
– 4x m5 max 128gb ram RDMA vs 1 m3 ultra? — keine Hardware belegt, kein nachbaubares Setup
– Follow-up: Trying to make NVIDIA GPUs plug-and-play on Macs. Found hidden RDMA symbols Apple doesn’t want you to see — zero-copy GPU memory sharing might already work. — keine Hardware belegt, kein nachbaubares Setup
– I Ralph-looped Opus overnight. It reduced my local model switching with cold backfilling context of 135k+ on llama.cpp from ~165s -> 5s! TL;DR – USE SLOTS! — keine Hardware belegt, kein nachbaubares Setup
– [DeepSeek V4 being 17x cheaper got me to actually measure what I send to cloud vs what I could run locally. the results are stupid.](https://old.reddit.com/r/