Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von Benutzern geprägt, die ihre lokalen KI-Setups detailliert dokumentieren. Besonders hervorzuheben sind die Einträge, die Qwen3.6-27B auf 1x RTX 5090 laufen lassen und dabei beeindruckende Leistungen erzielen. Diese Woche sind insbesondere die Einträge zu Qwen3.6-27B-INT4 mit 100 tps und 256k Kontextlänge sowie die Diskussionen zu Gemma4 auf 3090-GPU-Setups besonders belegt. Ein Leser kann heute Abend mit diesen Beispielen anfangen, um ein funktionierendes Setup für OpenCode zu bauen.

[Qwen3.6-27B-INT4 clocking 100 tps with 256k context length on 1x RTX 5090 via vllm 0.19] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Qwen3.6-27B-INT4 auf einer 1x RTX 5090 laufen lassen und dabei 100 tps bei 256k Kontextlänge erreicht. Er verwendet vllm 0.19 und hat die Konfiguration detailliert beschrieben.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht 100 tps bei 256k Kontextlänge, was für OpenCode-Workloads sehr gut geeignet ist. Die Verwendung von vLLM 0.19.1rc1 und der Lorbus-Quantisierung trägt dazu bei, dass das Modell stabil und effizient läuft.

Was NICHT funktioniert / Limits Es werden keine spezifischen Limits oder Probleme erwähnt. Das Setup scheint sehr robust zu sein.

Nachbau-Empfehlung Dieses Setup ist sehr empfehlenswert, insbesondere für Benutzer mit einem RTX 5090. Es ist ideal für OpenCode-Workloads und bietet eine ausgezeichnete Leistung bei moderaten Kosten.

[Qwen3.6-27B at ~80 tps with 218k context window on 1x RTX 5090 served by vllm 0.19] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Qwen3.6-27B auf einer 1x RTX 5090 laufen lassen und dabei 80 tps bei 218k Kontextlänge erreicht. Er verwendet vllm 0.19 und hat die Konfiguration detailliert beschrieben.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht 80 tps bei 218k Kontextlänge, was für OpenCode-Workloads sehr gut geeignet ist. Die Verwendung von vLLM 0.19.1rc1 und der NVFP4-Quantisierung trägt dazu bei, dass das Modell stabil und effizient läuft.

Was NICHT funktioniert / Limits Es werden keine spezifischen Limits oder Probleme erwähnt. Das Setup scheint sehr robust zu sein.

[Guide on building a system for 30B dense models] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Benutzer hat einen umfassenden Guide zur Erstellung eines Systems für 30B dichte Modelle veröffentlicht. Er beschreibt die Entscheidungen, die er bei der Auswahl der Hardware getroffen hat, und gibt Preisinformationen für verschiedene GPU-Optionen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Der Guide bietet eine detaillierte Übersicht der Hardware-Optionen und deren Kosteneinschätzungen. Es wird empfohlen, eine Kombination aus 1x RTX 5090 oder 2x RTX 3090 zu verwenden, um 30B dichte Modelle effizient zu laufen zu lassen.

Was NICHT funktioniert / Limits Es werden keine spezifischen Benchmarks oder Leistungsdaten angegeben. Der Guide ist eher allgemein und bietet keine konkreten Zahlen.

Nachbau-Empfehlung Der Guide ist nützlich für Benutzer, die ein System für 30B dichte Modelle bauen möchten, aber keine spezifischen Leistungsanforderungen haben. Es bietet eine gute Grundlage für die Hardwareauswahl, aber es fehlen konkrete Benchmarks.

[Local LLaMA server GPU upgrade advice] (5/10) — OpenCode-Fit: NEIN

Zum Original

Worum es geht: Der Benutzer fragt nach Rat für ein Upgrade seines aktuellen GPU-Setups. Er verwendet derzeit eine Tesla P40 und eine Tesla T4 und plant, die P40 durch eine RTX 3090 zu ersetzen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das aktuelle Setup erreicht 25-30 tps bei 256k Kontextlänge. Der Benutzer ist zufrieden mit der Leistung und plant, das Setup zu verbessern.

Was NICHT funktioniert / Limits Das aktuelle Setup ist in einem 2U-Chassis eingeschränkt, was die Wahl der GPU begrenzt. Ein Upgrade auf eine RTX 3090 könnte die Leistung verbessern, aber es gibt keine konkreten Benchmarks für die erwartete Steigerung.

Nachbau-Empfehlung Das Setup ist für einen privaten Haushalt eher ungeeignet, da es in einem Server-Chassis läuft. Ein Upgrade auf eine RTX 3090 könnte die Leistung verbessern, aber es ist nicht ideal für autarke Setups.

Weitere Beiträge:

– Best settings for gemma-4 on a 3090? — keine Hardware belegt, kein nachbaubares Setup
– What’s the consensus on superior local models for code generation? Is my setup competitive? — keine konkreten Benchmarks, eher Diskussion
– Qwen 3.6 27b – can I run on 1x 3090? — keine konkreten Benchmarks, eher Frage
– Takeaways & discussion about the DeepSeek V4 architecture — keine konkreten Benchmarks, eher Diskussion
– Ollama swap to llamacpp/llama server — keine konkreten Benchmarks, eher Frage
– Severe instability and looping issues with local LLMs (Qwen, Zen4, llama.cpp) — keine konkreten Benchmarks, eher Problem
– [[Help] OpenClaw 4.12 + MLX-LM: Persistent „Auto-compaction failed“ on 128GB Mac Studio (Qwen 3.6-35B-A3B)](https://old.reddit.com/r/LocalLLaMA/comments/1stpdjb/help_openclaw_412_mlxlm_persistent_autocompaction/) — keine konkreten Benchmarks, eher Problem

Weitere Beitraege (automatisch gefiltert):
– Qwen3.6 27B’s surprising KV cache quantization test results (Turbo3/4 vs F16 vs Q8 vs Q4) — keine konkreten Messwerte, keine nachbaubaren Daten

👁 0 Aufrufe 👤 0 Leser