Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, nachbaubare Setups zur lokalen Ausführung von KI-Modellen. In dieser Woche sind besonders die Setups mit Qwen3.6-27B und 35B im Fokus. Ein Leser kann heute Abend mit einem Setup beginnen, das auf einem einzelnen RTX 5090 oder 3090 läuft und bis zu 218k Kontextfenster unterstützt.
[Qwen3.6-27B at ~80 tps with 218k context window on 1x RTX 5090 served by vllm 0.19] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer hat Qwen3.6-27B auf einem einzelnen RTX 5090 mit vLLM 0.19 eingerichtet und erreicht dabei ~80 tps bei einem Kontextfenster von 218k.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM 0.19.1rc1 |
| Modell + Quant | Qwen3.6-27B Q4_K_XL |
| Kontext-Laenge | 218k |
| tok/s (single) | ~80 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Das Setup läuft stabil mit ~80 tps bei einem Kontextfenster von 218k. Es ist besonders geeignet für OpenCode-Aufgaben, da es eine hohe Kontextfenstergröße und eine gute Token-Generierungsgeschwindigkeit bietet.
Was NICHT funktioniert / Limits Die Verwendung von vLLM kann mehr VRAM verbrauchen als andere Frameworks, was die Kontextfenstergröße einschränken kann. Es gibt auch Berichte, dass vLLM bei Windows mit WSL Probleme bei der Kontextfenstergröße hat.
Nachbau-Empfehlung Dieses Setup ist sehr empfehlenswert, insbesondere für Benutzer mit einem RTX 5090 und einem Budget von ca. 1000-1500 EUR. Es bietet eine ausgezeichnete Leistung für OpenCode-Aufgaben.
[An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026] (7/10) — OpenCode-Fit: JA
Worum es geht: Der Benutzer hat Qwen3.6-27B auf einem einzelnen RTX 3090 eingerichtet und erreicht dabei 85 tps bei einem Kontextfenster von 125k. Es gibt jedoch Workarounds für längere Kontextfenster und Vision-Unterstützung.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 64GB DDR5 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM 0.19.1rc1 |
| Modell + Quant | Qwen3.6-27B Q4_K_XL |
| Kontext-Laenge | 125k |
| tok/s (single) | ~85 tok/s |
| tok/s (batched) | nicht im Post belegg |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Das Setup läuft stabil mit 85 tps bei einem Kontextfenster von 125k. Es unterstützt auch Vision-Unterstützung und Tools. Für längere Kontextfenster gibt es Workarounds, die die Leistung etwas reduzieren.
Was NICHT funktioniert / Limits Die Verwendung von TurboQuant KV kann zu Leistungsproblemen führen, insbesondere bei MTP. Es gibt auch Workarounds, die die Leistung reduzieren, aber die Funktionalität beibehalten.
Nachbau-Empfehlung Dieses Setup ist sehr empfehlenswert, insbesondere für Benutzer mit einem RTX 3090 und einem Budget von ca. 1000-1500 EUR. Es bietet eine ausgezeichnete Leistung für OpenCode-Aufgaben, auch wenn Workarounds für längere Kontextfenster erforderlich sein können.
[Qwen 3.6 27B is a BEAST] (7/10) — OpenCode-Fit: JA
Worum es geht: Der Benutzer hat Qwen3.6-27B auf einem RTX 5090 in einem Laptop getestet und erreicht dabei ausgezeichnete Ergebnisse. Das Modell läuft stabil und ist besonders gut für Data Science und PySpark-Aufgaben geeignet.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 64GB DDR5 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp |
| Modell + Quant | Qwen3.6-27B Q4_K_XL |
| Kontext-Laenge | 200k |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Das Setup läuft stabil und ist besonders gut für Data Science und PySpark-Aufgaben geeignet. Es unterstützt auch ein Kontextfenster von 200k.
Was NICHT funktioniert / Limits Es gibt keine spezifischen Leistungsprobleme erwähnt, aber der Benutzer hat noch nicht spekulative Decoding verwendet.
Nachbau-Empfehlung Dieses Setup ist sehr empfehlenswert, insbesondere für Benutzer mit einem RTX 5090 und einem Budget von ca. 1000-1500 EUR. Es bietet eine ausgezeichnete Leistung für Data Science-Aufgaben.
Weitere Beiträge (kurz):
– Qwen 3.6 27b – can I run on 1x 3090? — keine Hardware belegt, kein nachbaubares Setup
– Local LLaMA server GPU upgrade advice — keine konkreten Zahlen, eher Diskussion
– Qwen3.6 27B’s surprising KV cache quantization test results (Turbo3/4 vs F16 vs Q8 vs Q4) — keine konkreten Zahlen, eher Diskussion
– Takeaways & discussion about the DeepSeek V4 architecture — keine konkreten Zahlen, eher Diskussion
– Ollama swap to llamacpp/llama server — keine konkreten Zahlen, eher Diskussion
– Severe instability and looping issues with local LLMs (Qwen, Zen4, llama.cpp) — keine konkreten Zahlen, eher Diskussion
– [[Help] OpenClaw 4.12 + MLX-LM: Persistent „Auto-compaction failed“ on 128GB Mac Studio (Qwen 3.6-35B-A3B)](https://old.reddit.com/r/LocalLLaMA/comments/1stpdjb/help_openclaw_412_mlxlm_persistent_autocompaction/) — keine konkreten Zahlen, eher Diskussion
– Purchasing a Mac Studio M2 Max with 64gb of ram (can it run qwen 3.6 27b) how many tok/s ? — keine konkreten Zahlen, eher Diskussion
– What is the most capable model you can actually run on a single consumer GPU? — keine konkreten Zahlen, eher Diskussion