Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fav

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von Benutzern geprägt, die ihre lokalen KI-Setups detailliert dokumentieren. Besonders hervorzuheben sind die Einträge, die Qwen3.6-27B auf 1x RTX 5090 laufen lassen und dabei beeindruckende Leistungen erzielen. Diese Woche sind insbesondere die Einträge zu Qwen3.6-27B-INT4 mit 100 tps und 256k Kontextlänge sowie die Diskussionen zu Gemma4 auf 3090-GPU-Setups besonders belegt. Ein Leser kann heute Abend mit diesen Beispielen anfangen, um ein funktionierendes Setup für OpenCode zu bauen.

[Qwen3.6-27B-INT4 clocking 100 tps with 256k context length on 1x RTX 5090 via vllm 0.19] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Qwen3.6-27B-INT4 auf einer 1x RTX 5090 laufen lassen und dabei 100 tps bei 256k Kontextlänge erreicht. Er verwendet vllm 0.19 und hat die Konfiguration detailliert beschrieben.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5090 32GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM 0.19.1rc1 |
| Modell + Quant | Qwen3.6-27B-INT4 |
| Kontext-Laenge | 262144 |
| tok/s (single) | 105-108 tps |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Das Setup erreicht 100 tps bei 256k Kontextlänge, was für OpenCode-Workloads sehr gut geeignet ist. Die Verwendung von vLLM 0.19.1rc1 und der Lorbus-Quantisierung trägt dazu bei, dass das Modell stabil und effizient läuft.

Was NICHT funktioniert / Limits Es werden keine spezifischen Limits oder Probleme erwähnt. Das Setup scheint sehr robust zu sein.

Nachbau-Empfehlung Dieses Setup ist sehr empfehlenswert, insbesondere für Benutzer mit einem RTX 5090. Es ist ideal für OpenCode-Workloads und bietet eine ausgezeichnete Leistung bei moderaten Kosten.


[Qwen3.6-27B at ~80 tps with 218k context window on 1x RTX 5090 served by vllm 0.19] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Qwen3.6-27B auf einer 1x RTX 5090 laufen lassen und dabei 80 tps bei 218k Kontextlänge erreicht. Er verwendet vllm 0.19 und hat die Konfiguration detailliert beschrieben.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5090 32GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM 0.19.1rc1 |
| Modell + Quant | Qwen3.6-27B-INT4 |
| Kontext-Laenge | 218k |
| tok/s (single) | 80 tps |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Das Setup erreicht 80 tps bei 218k Kontextlänge, was für OpenCode-Workloads sehr gut geeignet ist. Die Verwendung von vLLM 0.19.1rc1 und der NVFP4-Quantisierung trägt dazu bei, dass das Modell stabil und effizient läuft.

Was NICHT funktioniert / Limits Es werden keine spezifischen Limits oder Probleme erwähnt. Das Setup scheint sehr robust zu sein.

Nachbau-Empfehlung Dieses Setup ist sehr empfehlenswert, insbesondere für Benutzer mit einem RTX 5090. Es ist ideal für OpenCode-Workloads und bietet eine ausgezeichnete Leistung bei moderaten Kosten.


[Guide on building a system for 30B dense models] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Benutzer hat einen umfassenden Guide zur Erstellung eines Systems für 30B dichte Modelle veröffentlicht. Er beschreibt die Entscheidungen, die er bei der Auswahl der Hardware getroffen hat, und gibt Preisinformationen für verschiedene GPU-Optionen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5090 32GB (3500EU) / 2x RTX 3090 24GB (2x 1000EU) |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 128 GB DDR5 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | nicht im Post belegt |
| Modell + Quant | Qwen3.6-27B-Q5_K_M, Gemma4-31B-Q5_K_M |
| Kontext-Laenge | 200k (Qwen3.6), 128k (Gemma4) |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | ca. 4500-7000 EUR |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? Der Guide bietet eine detaillierte Übersicht der Hardware-Optionen und deren Kosteneinschätzungen. Es wird empfohlen, eine Kombination aus 1x RTX 5090 oder 2x RTX 3090 zu verwenden, um 30B dichte Modelle effizient zu laufen zu lassen.

Was NICHT funktioniert / Limits Es werden keine spezifischen Benchmarks oder Leistungsdaten angegeben. Der Guide ist eher allgemein und bietet keine konkreten Zahlen.

Nachbau-Empfehlung Der Guide ist nützlich für Benutzer, die ein System für 30B dichte Modelle bauen möchten, aber keine spezifischen Leistungsanforderungen haben. Es bietet eine gute Grundlage für die Hardwareauswahl, aber es fehlen konkrete Benchmarks.


[Local LLaMA server GPU upgrade advice] (5/10) — OpenCode-Fit: NEIN

Zum Original

Worum es geht: Der Benutzer fragt nach Rat für ein Upgrade seines aktuellen GPU-Setups. Er verwendet derzeit eine Tesla P40 und eine Tesla T4 und plant, die P40 durch eine RTX 3090 zu ersetzen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | Tesla P40 24GB, Tesla T4 16GB (geplant: RTX 3090 24GB) |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 64 GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | HPE DL380 G9 2U |
| Framework + Version | LLaMA.cpp |
| Modell + Quant | Qwen3.6-35B-A3B-UD-Q6_K_XL |
| Kontext-Laenge | 256k |
| tok/s (single) | 25-30 tps |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | ca. 1000-2000 EUR |
| Autarkie-Fit | NEIN |

Was funktioniert konkret? Das aktuelle Setup erreicht 25-30 tps bei 256k Kontextlänge. Der Benutzer ist zufrieden mit der Leistung und plant, das Setup zu verbessern.

Was NICHT funktioniert / Limits Das aktuelle Setup ist in einem 2U-Chassis eingeschränkt, was die Wahl der GPU begrenzt. Ein Upgrade auf eine RTX 3090 könnte die Leistung verbessern, aber es gibt keine konkreten Benchmarks für die erwartete Steigerung.

Nachbau-Empfehlung Das Setup ist für einen privaten Haushalt eher ungeeignet, da es in einem Server-Chassis läuft. Ein Upgrade auf eine RTX 3090 könnte die Leistung verbessern, aber es ist nicht ideal für autarke Setups.


Weitere Beiträge:

Best settings for gemma-4 on a 3090? — keine Hardware belegt, kein nachbaubares Setup
What’s the consensus on superior local models for code generation? Is my setup competitive? — keine konkreten Benchmarks, eher Diskussion
Qwen 3.6 27b – can I run on 1x 3090? — keine konkreten Benchmarks, eher Frage
Takeaways & discussion about the DeepSeek V4 architecture — keine konkreten Benchmarks, eher Diskussion
Ollama swap to llamacpp/llama server — keine konkreten Benchmarks, eher Frage
Severe instability and looping issues with local LLMs (Qwen, Zen4, llama.cpp) — keine konkreten Benchmarks, eher Problem
– [[Help] OpenClaw 4.12 + MLX-LM: Persistent „Auto-compaction failed“ on 128GB Mac Studio (Qwen 3.6-35B-A3B)](https://old.reddit.com/r/LocalLLaMA/comments/1stpdjb/help_openclaw_412_mlxlm_persistent_autocompaction/) — keine konkreten Benchmarks, eher Problem

Weitere Beitraege (automatisch gefiltert):
Qwen3.6 27B’s surprising KV cache quantization test results (Turbo3/4 vs F16 vs Q8 vs Q4) — keine konkreten Messwerte, keine nachbaubaren Daten

👁 0 Aufrufe 👤 0 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert