Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von Benutzern geprägt, die ihre lokalen KI-Setups dokumentieren und benchmarken. Besonders hervorzuheben sind die Erfahrungen mit Qwen 3.6 27B und 35B auf verschiedenen Hardware-Konfigurationen. Diese Modelle zeigen beeindruckende Leistungen in der Codierung und bei agenterischen Aufgaben, oft mit vergleichbaren oder sogar besseren Ergebnissen als teurere Cloud-Modelle. Ein Leser kann heute Abend mit einem Setup beginnen, das Qwen 3.6 27B auf einer RTX 5090 oder einem Mac Studio M3 Ultra nutzt.
[Qwen3.6 35B + the right coding scaffold got my local setup to 9/10 on real Go tasks] (8/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Benutzer testet, ob eine Kombination von lokalen KI-Modellen und einem geeigneten Scaffold für Coding-Aufgaben effektiv ist. Er verwendet Qwen3.6 35B auf einer RTX 5090 und erreicht 9/10 korrekte Lösungen bei 10 realen Go-Aufgaben.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 5090 32GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „Ollama, vLLM“ |
| Modell + Quant | „Qwen3.6 35B A3B Q4_K_M“ |
| Kontext-Laenge | „27GB VRAM, 200k Kontext“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? (3-5 Sätze): Das Setup erreicht 9/10 korrekte Lösungen bei realen Go-Aufgaben, was es zu einem sehr effektiven Tool für die Codierung macht. Die Kombination von Qwen3.6 35B und dem „little-coder“ Scaffold verbessert die Leistung erheblich im Vergleich zu früheren Versuchen.
Was NICHT funktioniert / Limits (2-4 Sätze): Einige Aufgaben, insbesondere solche mit komplexen SQLite-Operationen, scheitern gelegentlich. Die Leistung kann weiter verbessert werden, indem man die Modelle und das Scaffold weiter optimiert.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Entwickler mit einem Budget von 2.000-3.000 EUR sehr empfehlenswert. Es bietet eine ausgezeichnete Leistung für Codierungsaufgaben und kann leicht angepasst werden, um spezifische Bedürfnisse zu erfüllen.
[Qwen 3.6 27B is a BEAST] (7/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Benutzer teilt seine Erfahrungen mit Qwen 3.6 27B auf einer RTX 5090. Das Modell erreicht beeindruckende Leistungen in der Codierung und bei Datenverarbeitungsaufgaben, was ihn dazu bringt, seine Cloud-Abonnements zu kündigen.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 5090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „64GB DDR5“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp“ |
| Modell + Quant | „Qwen3.6 27B Q4_K_M“ |
| Kontext-Laenge | „200k Kontext“ |
| tok/s (single) | „130-140 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? (3-5 Sätze): Qwen 3.6 27B erreicht hohe Token-Raten und ist in der Lage, komplexe Codierungsaufgaben zu lösen. Es ist besonders effektiv für Datenverarbeitung und Debugging.
Was NICHT funktioniert / Limits (2-4 Sätze): Das Modell kann bei sehr großen Kontexten (über 200k) langsamer werden. Die Leistung kann durch Optimierungen wie spekulativen Decoding weiter verbessert werden.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Entwickler mit einem Budget von 2.500-3.500 EUR sehr empfehlenswert. Es bietet eine ausgezeichnete Leistung für Codierungsaufgaben und ist leicht zu skalieren.
[Qwen 3.6 is actually useful for vibe-coding, and way cheaper than Claude] (6/10) — OpenCode-Fit: BEDINGT

Worum es geht (2-4 Sätze): Der Benutzer beschreibt, wie er Qwen 3.6 35B und 27B auf einem Dual-3090-Rig für „vibe-coding“ nutzt. Das Setup ist kostengünstig und erreicht gute Ergebnisse bei einfachen bis mittelschweren Codierungsaufgaben.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „2x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp“ |
| Modell + Quant | „Qwen3.6 35B A3B Q4, Qwen3.6 27B Q8“ |
| Kontext-Laenge | „200k Kontext“ |
| tok/s (single) | „50 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? (3-5 Sätze): Qwen 3.6 35B und 27B sind in der Lage, komplexe Codierungsaufgaben zu lösen und bieten eine gute Leistung bei einem niedrigen Betriebskosten. Das Setup ist kostengünstig im Vergleich zu Cloud-Modellen.
Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung kann bei sehr großen Kontexten (über 200k) langsamer werden. Die Modelle sind nicht so leistungsfähig wie die neuesten Cloud-Modelle, aber sie sind für den täglichen Einsatz ausreichend.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Entwickler mit einem Budget von 2.000-3.000 EUR sehr empfehlenswert. Es bietet eine gute Kosteneffizienz und ist leicht zu skalieren, um spezifische Bedürfnisse zu erfüllen.
Weitere Beiträge (kurz):
– [[Help] OpenClaw 4.12 + MLX-LM: Persistent „Auto-compaction failed“ on 128GB Mac Studio (Qwen 3.6-35B-A3B)](https://old.reddit.com/r/LocalLLaMA/comments/1stpdjb/help_openclaw_412_mlxlm_persistent_autocompaction/) — keine Hardware belegt, kein funktionierendes Setup
– Purchasing a Mac Studio M2 Max with 64gb of ram (can it run qwen 3.6 27b) how many tok/s ? — keine konkreten Zahlen, eher eine Frage
– What is the most capable model you can actually run on a single consumer GPU? — keine konkreten Zahlen, eher eine Diskussion
– Nvidia RTX 3090 vs Intel Arc Pro B70 llama.cpp Benchmarks — keine konkreten Zahlen, eher eine Benchmark-Diskussion
– Qwen3.6-27b builds a chat interface for Gemma-4-E4B (Text, Image, Audio) — keine konkreten Zahlen, eher eine Demonstrations-Post
– Tried Qwen3.6-27B-UD-Q6_K_XL.gguf with CloudeCode, well I can’t believe but it is usable — keine konkreten Zahlen, eher eine Demonstrations-Post
– Capacity vs Speed trade-off: 1.1TB Mac Unified Memory vs. RTX 6000 Pros — keine konkreten Zahlen, eher eine Diskussion
– Best open source AI model (that can run on RTX 4090 24GB + 64GB system RAM, AMD Ryzen 9 7950X is the CPU that I use) that outpeforms GPT-5.4 mini, GPT-5.2 Thinking and even Claude Sonnet 3 (the 2024 model)? — keine konkreten Zahlen, eher eine Frage