Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von Nutzern geprägt, die ihre lokalen KI-Setups dokumentieren und optimieren. Diese Woche sind besonders die Einträge zu Qwen-Modellen und deren Quantisierung sowie die Diskussionen über GPU-Setup-Vergleiche hervorzuheben. Ein Leser kann heute Abend mit konkreten Build-Beispielen und Benchmarks beginnen, die ihm helfen, ein funktionierendes Setup für OpenCode-Aufgaben zu erstellen.
[Benching local Qwen as a Codex validator, co-agent, and challenger] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Nutzer hat ein lokales Qwen-Modell neben Codex für Coding-Aufgaben eingesetzt und einen evaluierten Test-Suite aufgebaut, um verschiedene Qwen-Profile zu vergleichen. Ziel ist es, die Effizienz und Genauigkeit von Qwen in der Rolle eines Codex-Validators und Co-Agents zu messen.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „2x RTX 3090 24GB“ |
| CPU / Mainboard | „Ryzen 5700X + ASUS ProArt X870E“ |
| RAM | „96 GB DDR4“ |
| PSU | „1300W Taichi T1300“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp“ |
| Modell + Quant | „Qwen3.6-27B GGUF (Q8, f16)“ |
| Kontext-Länge | „128k“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? Qwen-3.6-27B in den Quantisierungen Q8 und f16 KV Cache zeigt ausgezeichnete Ergebnisse in der Evaluierung. Es kann als zweites Paar Augen für Codex dienen, indem es überbauungen, fehlende Direktiven, UI/Design-Probleme und Kontextfehler identifiziert. Die 128k-Kontext-Größe ist für die meisten Coding-Aufgaben ausreichend.
Was NICHT funktioniert / Limits: 65k-Kontext-Profile scheitern bei Aufgaben, die mehr als 65k Kontext erfordern. Die 128k-f16-Profile laden zwar, aber sie stoßen bei langen Kontexten auf lokale Speicher- und Durchsatzprobleme.
Nachbau-Empfehlung: Dieses Setup ist für Nutzer mit einem Budget von ca. 2.000-3.000 EUR geeignet, die ein robustes, lokal laufendes Modell für Coding-Aufgaben benötigen. Die Verwendung von Qwen-3.6-27B in Q8- oder f16-Quantisierung ist zu empfehlen, insbesondere für die 128k-Kontext-Größe.
[3xR9700 for semi-autonomous research and development – looking for setup/config ideas.] (6/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Nutzer hat ein Setup mit 3x R9700-GPUs für semi-autonome Forschung und Entwicklung aufgebaut. Er sucht nach Ideen zur Konfiguration und Optimierung, insbesondere für die Verwendung von Qwen-3.6-27B und anderen Modellen.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „3x ASRock R9700“ |
| CPU / Mainboard | „Intel 9950X + ASUS ProArt X870E“ |
| RAM | „96 GB DDR4“ |
| PSU | „1300W Taichi T1300“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp mit Vulkan-Treibern“ |
| Modell + Quant | „Qwen3.6-27B Q8“ |
| Kontext-Länge | „96k“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |
Was funktioniert konkret? Das Setup kann Qwen-3.6-27B in Q8-Quantisierung laufen lassen und bietet ausreichend VRAM für komplexe Forschungs- und Entwicklungsprojekte. Die Verwendung von Vulkan-Treibern verbessert die Performance.
Was NICHT funktioniert / Limits: Die PCI-Verbindung für die 3. GPU ist begrenzt, was die Skalierbarkeit beeinträchtigt. Die maximale Kontext-Länge von 96k ist für einige Aufgaben möglicherweise zu gering.
Nachbau-Empfehlung: Dieses Setup ist für Nutzer mit einem Budget von ca. 3.000-4.000 EUR geeignet, die semi-autonome Forschungs- und Entwicklungsprojekte durchführen möchten. Die Verwendung von Qwen-3.6-27B in Q8-Quantisierung ist zu empfehlen, aber die PCI-Verbindung sollte bei zukünftigen Upgrades verbessert werden.
Weitere Beiträge:
– Building on a LLM Quants Testing Site/Ressource – Sharing a few insights from first month, so you can share your thoughts and wishes for the future. — keine Hardware belegt, kein nachbaubares Setup
– PP speed on dual RTX 6000 12c EPYC setup — keine Hardware belegt, kein nachbaubares Setup
– Considering two Sparks for local coding — keine Hardware belegt, kein nachbaubares Setup
– Struggling with Qwen3.6 27B / 35B locally (3090) slow responses, breaking code looking for better setup + auto model switching — keine Hardware belegt, kein nachbaubares Setup
– What a time to be alive from 1tk/sec to 20-100tk/sec for huge models — keine Hardware belegt, kein nachbaubares Setup
– Doesn’t look like there are any recent Linux distro suggestions. What’s your favorite and why? — keine Hardware belegt, kein nachbaubares Setup
– What could they mean by „warmed steady-state“? — keine Hardware belegt, kein nachbaubares Setup
– Need advice on Qwen 3.6 27B INT4 quantization — keine Hardware belegt, kein nachbaubares Setup
– Need help/pointers setting up 3090 on Linux…(second 3090 incoming) — keine Hardware belegt, kein nachbaubares Setup
– 5070 Ti —> 3090 move. Worth it? — keine Hardware belegt, kein nachbaubares Setup