Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build-Berichten und Benchmarks geprägt. Diese Woche sind insbesondere die Setups mit Qwen 3.6 27B und 35B im Fokus, die auf Consumer-GPUs wie der RTX 3090 und 5090 sowie auf Mac Studio M2 Ultra laufen. Mit diesen Setups erreichen Nutzer durchschnittlich 20-90 tok/s und können komplexe Aufgaben wie Code-Generierung und Agent-Integration lösen. Ein Leser kann heute Abend mit einem dieser Setups beginnen, um eine leistungsfähige lokale KI-Infrastruktur aufzubauen.
[Qwen3.6 35B + the right coding scaffold got my local setup to 9/10 on real Go tasks] (8/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Nutzer hat ein Setup mit Qwen3.6 35B und einem speziellen Coding-Scaffold auf einem RTX 5090 32GB und einem RTX Pro 6000 96GB getestet. Das Ziel war, zu prüfen, ob ein kombiniertes Setup von lokalen Modellen und Scaffolds die Leistung von Cloud-Modellen erreichen kann.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 5090 32GB, RTX Pro 6000 96GB |
| CPU / Mainboard | Nicht im Post belegt |
| RAM | 200 GB (Gesamt) |
| PSU | Nicht im Post belegt |
| Chassis / Kuehlung | Nicht im Post belegt |
| Framework + Version | vLLM, llama.cpp |
| Modell + Quant | Qwen3.6 35B A3B Q4_K_M, Qwen3-Coder 30B, Qwen3-Coder-Next 80B |
| Kontext-Laenge | 200k (Qwen3.6 35B), 65536 (Qwen3-Coder 30B) |
| tok/s (single) | 90 tok/s (Qwen3.6 35B) |
| tok/s (batched) | Nicht im Post belegt |
| Strom (full load) | Nicht im Post belegt |
| Rohkosten | Nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Das Setup erreicht 9/10 auf einer Reihe von realen Go-Tasks, was es zu einem leistungsfähigen lokalen Coding-Agenten macht. Die Kombination aus Qwen3.6 35B und dem „little-coder“ Scaffold ist besonders effektiv, da sie die Stärken des Modells optimal ausnutzt.
Was NICHT funktioniert / Limits (2-4 Sätze): Das Setup hat Schwierigkeiten bei sehr komplexen Aufgaben, die eine hohe Kontext-Länge erfordern. Die Leistung kann bei sehr großen Modellen wie Qwen3-Coder-Next 80B etwas nachlassen.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Nutzer mit einem Budget von 4.000-10.000 EUR empfehlenswert, die eine leistungsfähige lokale Coding-Infrastruktur benötigen. Die Kombination aus Qwen3.6 35B und „little-coder“ ist besonders effektiv und kann leicht angepasst werden.
[Qwen 3.6 27B is a BEAST] (7/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Nutzer hat Qwen 3.6 27B auf einem ASUS ROG Strix SCAR 18 RTX 5090 24GB getestet und berichtet, dass das Modell seine Cloud-Subskriptionen ersetzen wird. Es erreicht 130-140 tok/s und ist besonders gut für Data Science und Code-Debugging geeignet.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 5090 24GB |
| CPU / Mainboard | Nicht im Post belegt |
| RAM | 64 GB DDR5 |
| PSU | Nicht im Post belegt |
| Chassis / Kuehlung | Nicht im Post belegt |
| Framework + Version | llama.cpp |
| Modell + Quant | Qwen3.6 27B Q4_K_M, Qwen3.6 27B Q8_0 |
| Kontext-Laenge | 200k (Qwen3.6 27B Q8_0) |
| tok/s (single) | 130-140 tok/s (Qwen3.6 27B Q4_K_M) |
| tok/s (batched) | Nicht im Post belegt |
| Strom (full load) | Nicht im Post belegt |
| Rohkosten | Nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Qwen 3.6 27B erreicht hohe Token-Raten und ist besonders gut für Data Science und Code-Debugging geeignet. Es kann komplexe Aufgaben wie pyspark und Python-Transformationen zuverlässig lösen.
Was NICHT funktioniert / Limits (2-4 Sätze): Das Modell kann bei sehr großen Kontexten und sehr komplexen Aufgaben etwas langsamer werden. Die Leistung kann bei niedriger Quantisierung (Q8_0) leicht nachlassen.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Nutzer mit einem Budget von 6.000-10.000 EUR empfehlenswert, die eine leistungsfähige lokale KI-Infrastruktur für Data Science und Coding benötigen. Die Kombination aus Qwen 3.6 27B und llama.cpp ist besonders effektiv.
[Qwen3.6-27b builds a chat interface for Gemma-4-E4B (Text, Image, Audio)] (7/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Nutzer hat Qwen3.6-27b (BF16) auf 2x Pro 6k und Gemma-4-E4B (BF16) auf einem RTX 5090 getestet, um eine Chat-Schnittstelle zu bauen. Das Setup kann Text, Bild und Audio verarbeiten und hat eine hohe Leistung bei realen Aufgaben.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 2x Pro 6k, RTX 5090 24GB |
| CPU / Mainboard | Nicht im Post belegt |
| RAM | Nicht im Post belegt |
| PSU | Nicht im Post belegt |
| Chassis / Kuehlung | Nicht im Post belegt |
| Framework + Version | vLLM, llama.cpp |
| Modell + Quant | Qwen3.6-27b BF16, Gemma-4-E4B BF16 |
| Kontext-Laenge | 40k (Qwen3.6-27b), 65536 (Gemma-4-E4B) |
| tok/s (single) | 878.15 tok/s (Qwen3.6-27b) |
| tok/s (batched) | Nicht im Post belegt |
| Strom (full load) | Nicht im Post belegt |
| Rohkosten | Nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Das Setup kann komplexe Aufgaben wie Text-Generierung, Bild-Verarbeitung und Audio-Integration lösen. Es ist besonders gut für kreative Aufgaben und Agent-Integration geeignet.
Was NICHT funktioniert / Limits (2-4 Sätze): Das Modell kann bei sehr großen Kontexten und sehr komplexen Aufgaben etwas langsamer werden. Die Leistung kann bei niedriger Quantisierung (BF16) leicht nachlassen.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Nutzer mit einem Budget von 6.000-10.000 EUR empfehlenswert, die eine leistungsfähige lokale KI-Infrastruktur für kreative Aufgaben und Agent-Integration benötigen. Die Kombination aus Qwen3.6-27b und Gemma-4-E4B ist besonders effektiv.
[Qwen 3.6 is actually useful for vibe-coding, and way cheaper than Claude] (6/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Nutzer hat Qwen3.6-35B-A3B (Q4) und Qwen3.6-27B (Q8) auf einem Dual 3090 Rig mit 200k Kontext getestet. Das Setup kann komplexe Aufgaben wie Full-Stack-Entwicklung lösen und ist viel günstiger als Cloud-Subskriptionen.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 2x RTX 3090 24GB |
| CPU / Mainboard | Nicht im Post belegt |
| RAM | Nicht im Post belegt |
| PSU | Nicht im Post belegt |
| Chassis / Kuehlung | Nicht im Post belegt |
| Framework + Version | llama.cpp |
| Modell + Quant | Qwen3.6-35B-A3B Q4, Qwen3.6-27B Q8 |
| Kontext-Laenge | 200k (Qwen3.6-27B) |
| tok/s (single) | 20-25 tok/s (Qwen3.6-27B) |
| tok/s (batched) | Nicht im Post belegt |
| Strom (full load) | Nicht im Post belegt |
| Rohkosten | Nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Das Setup kann komplexe Aufgaben wie Full-Stack-Entwicklung lösen und ist viel günstiger als Cloud-Subskriptionen. Es erreicht durchschnittlich 20-25 tok/s und ist besonders gut für kreative Aufgaben geeignet.
Was NICHT funktioniert / Limits (2-4 Sätze): Das Modell kann bei sehr großen Kontexten und sehr komplexen Aufgaben etwas langsamer werden. Die Leistung kann bei niedriger Quantisierung (Q8) leicht nachlassen.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Nutzer mit einem Budget von 4.000-6.000 EUR empfehlenswert, die eine leistungsfähige lokale KI-Infrastruktur für kreative Aufgaben und Full-Stack-Entwicklung benötigen. Die Kombination aus Qwen3.6-27B und llama.cpp ist besonders effektiv.
Weitere Beiträge (kurz):
– Takeaways & discussion about the DeepSeek V4 architecture — keine Hardware belegt, kein nachbaubares Setup
– Ollama swap to llamacpp/llama server — keine konkrete Hardware belegt, eher eine Frage
– Severe instability and looping issues with local LLMs (Qwen, Zen4, llama.cpp) — keine funktionierende Lösung, eher eine Frage
– [[Help] OpenClaw 4.12 + MLX-LM: Persistent „Auto-compaction failed“ on 128GB Mac Studio (Qwen 3.6-35B-A3B)](https://old.reddit.com/r/LocalLLaMA/comments/1stpdjb/help_openclaw_412_mlxlm_persistent_autocompaction/) — keine funktionierende Lösung, eher eine Frage
– Purchasing a Mac Studio M2 Max with 64gb of ram (can it run qwen 3.6 27b) how many tok/s ? — keine konkrete Hardware belegt, eher eine Frage
– What is the most capable model you can actually run on a single consumer GPU? — keine konkrete Hardware belegt, eher eine Diskussion
– Nvidia RTX 3090 vs Intel Arc Pro B70 llama.cpp Benchmarks — keine konkrete Hardware belegt, eher eine Benchmark-Diskussion