Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Benchmarks und Build-Berichten von Community-Usern geprägt. Besonders hervorzuheben sind die Einträge, die Qwen3.6-27B auf verschiedenen GPUs testen, sowie die Vergleiche zwischen lokalen und proprietären Modellen. Ein Leser kann heute Abend mit einem Setup beginnen, das Qwen3.6-27B auf einem RTX 3090 oder 5090 laufen lässt, mit stabilen Tool-Agent-Workloads und einer Kontextlänge von über 200K Tokens.
[Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Beitrag ist ein Follow-up zu einem früheren Post über das Laufen von Qwen3.6-27B auf einem RTX 3090. Es wurden Verbesserungen vorgenommen, um die Kontextlänge auf ~218K Tokens und die TPS auf ~50–66 zu steigern. Tool-Agent-Workloads sind nun stabil, insbesondere bei langen Tool-Ausgaben.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM dev205+ (mit Genesis PN12 Fix) |
| Modell + Quant | Qwen3.6-27B Q6_K GGUF |
| Kontext-Länge | ~218K (text, narr/code) / ~198K + vision |
| tok/s (single) | ~50–66 |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Das Setup läuft stabil mit einer Kontextlänge von über 200K Tokens und einer TPS von ~50–66. Tool-Agent-Workloads sind ohne OOM-Fehler möglich, was es für OpenCode-Workloads geeignet macht.
Was NICHT funktioniert / Limits: Es gibt immer noch ein zweites Speicherlimit um ~50–60K für single-prompt Workloads, das durch Tensor-Parallelismus (z.B. 2x 3090) vermieden werden kann. Die Performance hängt stark von der Quantisierung und der Konfiguration ab.
Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem Budget von ca. 1.000–2.000 EUR geeignet, die ein leistungsfähiges, aber kostengünstiges Setup für OpenCode-Workloads benötigen. Die Anpassung der Quantisierung und Konfiguration kann je nach spezifischen Anforderungen erfolgen.
[Long-context coding on RTX 5080 16GB: Qwen3.6-35B-A3B holds 30 t/s at 128K (89 t/s fresh), no quality drop] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Beitrag beschreibt, wie Qwen3.6-35B-A3B auf einem RTX 5080 16GB eingesetzt wird, um long-context coding-agent Workloads zu unterstützen. Es wird eine TPS von 30 bei 128K Kontext und 89 bei frischen Prompts erreicht, ohne Qualitätsverlust.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5080 16GB |
| CPU / Mainboard | Ryzen 9700X (8c/16t) |
| RAM | 96GB DDR5 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp-adaptive-turboquant |
| Modell + Quant | Qwen3.6-35B-A3B Q4_K_M |
| Kontext-Länge | 128K |
| tok/s (single) | 30 (128K), 89 (fresh) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Das Setup erreicht eine TPS von 30 bei einer Kontextlänge von 128K Tokens und 89 bei frischen Prompts. Die Qualität der Generierung bleibt stabil, was es für long-context coding-agent Workloads geeignet macht.
Was NICHT funktioniert / Limits: CUDA 13.x produziert Fehler und 13.1 segfaults in MMQ-Kernen. Die Verwendung von CUDA 12.9.1 ist zwingend erforderlich. Die Performance kann durch Optimierungen der Quantisierung und des Kernels weiter verbessert werden.
Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem Budget von ca. 1.500–3.000 EUR geeignet, die ein leistungsfähiges Setup für long-context coding-agent Workloads benötigen. Die Verwendung von CUDA 12.9.1 und die Anpassung der Quantisierung sind entscheidend.
[Best RTX Pro 6000 vllm settings?] (7/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Beitrag beschreibt die besten Einstellungen für das Laufen von Qwen3.6-27B auf einem RTX Pro 6000 Blackwell. Es werden TPS-Werte von 763.5 für Prompts und 1320.2 für die Generierung bei 28 parallelen Anfragen erreicht.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX Pro 6000 Blackwell 96GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM 0.20.1 nightly |
| Modell + Quant | Qwen3.6-27B FP8 |
| Kontext-Länge | nicht im Post belegt |
| tok/s (single) | 1320.2 (Generation) |
| tok/s (batched) | 763.5 (Prompt) |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? Das Setup erreicht hohe TPS-Werte von 763.5 für Prompts und 1320.2 für die Generierung bei 28 parallelen Anfragen. Es ist besonders geeignet für Agent-Workloads, die auf spezifische Aufgaben spezialisiert sind.
Was NICHT funktioniert / Limits: Die KV-Cache-Verwendung liegt bei 50.4%, und der Prefix-Cache-Hit-Rate ist sehr niedrig (1.3%). Die Effizienz kann durch Optimierung dieser Werte weiter verbessert werden. Die Anwendung von NVFP8 oder NVFP4 ist abhängig von der spezifischen Hardware und den Anforderungen.
Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem höheren Budget (ca. 5.000–10.000 EUR) geeignet, die eine hohe Durchsatzleistung bei parallelen Agent-Workloads benötigen. Die Optimierung der KV-Cache- und Prefix-Cache-Einstellungen kann die Effizienz weiter verbessern.
[Qwen 3.6-35B-A3B KV cache bench: f16 vs q8_0 vs turbo3 vs turbo4 from 0 to 1M context on M5 Max] (7/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Beitrag beschreibt eine Benchmarks der KV-Cache-Methoden (f16, q8_0, turbo3, turbo4) für Qwen 3.6-35B-A3B auf einem MacBook Pro M5 Max. Es werden TPS-Werte für verschiedene Kontextlängen von 0 bis 1M Tokens gemessen.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | MacBook Pro M5 Max (integrierte GPU) |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 128GB Unified Memory |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp (TheTom’s TurboQuant Metal fork) |
| Modell + Quant | Qwen 3.6-35B-A3B Q8 |
| Kontext-Länge | 0 bis 1M Tokens |
| tok/s (single) | 89.4 (f16), 87.4 (q8_0), 79.5 (turbo3), 79.7 (turbo4) bei 0 Tokens |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? Die Benchmarks zeigen, dass die turbo3- und turbo4-Cache-Methoden bei längeren Kontexten (ab 128K Tokens) bessere Ergebnisse liefern. Turbo3 ist besonders effektiv bei schweren Prefill-Workloads, während turbo4 bessere Ergebnisse bei der Generierung liefert.
Was NICHT funktioniert / Limits: Die f16- und q8_0-Cache-Methoden haben bei längeren Kontexten (ab 256K Tokens) erhebliche Einschränkungen, insbesondere in Bezug auf die Speicherverwendung und die TPS. Die Wahl der Cache-Methode hängt stark von der spezifischen Workload ab.
Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem MacBook Pro M5 Max geeignet, die long-context Workloads mit Qwen 3.6-35B-A3B ausführen möchten. Die Wahl der Cache-Methode sollte anhand der spezifischen Anforderungen getroffen werden, wobei turbo3 für schwerere Prefill-Workloads und turbo4 für die Generierung empfohlen wird.
[love it – Qwen3.6-27B — UD-Q5_K_XL evaluation] (6/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Beitrag ist eine Bewertung der UD-Q5_K_XL-Quantisierung von Qwen3.6-27B auf einem RTX 5090. Es werden 19 Runs durchgeführt, die agentic reasoning, production-grade front-end design und canvas/WebGL creative coding abdecken.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5090 32GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | nicht im Post belegt |
| Modell + Quant | Qwen3.6-27B UD-Q5_K_XL |
| Kontext-Länge | nicht im Post belegt |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? Die UD-Q5_K_XL-Quantisierung von Qwen3.6-27B liefert gute Ergebnisse in verschiedenen Aufgaben, einschließlich agentic reasoning, front-end design und creative coding. Die Performance ist stabil und die Qualität der Generierung ist hoch.
Was NICHT funktioniert / Limits: Der Beitrag enthält keine konkreten Zahlen zur TPS oder Speicherverwendung. Die Evaluierung basiert hauptsächlich auf qualitativen Beobachtungen, was die Nachbau-Fähigkeit einschränkt.
Nachbau-Empfehlung: Dieses Setup ist für Benutzer geeignet, die eine qualitative Bewertung von Qwen3.6-27B mit UD-Q5_K_XL-Quantisierung durchführen möchten. Für eine genaue Nachbildung sind zusätzliche Benchmarks und spezifische Zahlen erforderlich.
Weitere Beitraege (automatisch gefiltert):
– nvidia/Gemma-4-26B-A4B-NVFP4 — keine konkreten Messwerte, keine nachbaubaren Daten