Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Setup-Berichten und Benchmarks geprägt. Besonders hervorzuheben sind die Einträge, die detaillierte Hardware-Konfigurationen, spezifische Modelle und praktische Zahlen liefern. Ein Leser kann heute Abend mit einem 3090-Setup beginnen, das Qwen3.6 27B mit 200k Kontext stabil laufen lässt, oder sich für ein Spark-Setup mit MiniMax M2.7 für Coding-Aufgaben entscheiden.
[Qwen3.6 27B NVFP4 + MTP on a single RTX 5090: 200k context working in vLLM] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer hat Qwen3.6 27B NVFP4 auf einem einzelnen RTX 5090 getestet und die Leistung mit vLLM gemessen. Das Setup unterstützt bis zu 200k Kontext.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5090 32GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM 0.20.1.dev0+g88d34c640.d20260502 |
| Modell + Quant | Qwen3.6-27B-NVFP4, compressed-tensors, flashinfer, fp8_e4m3 |
| Kontext-Laenge | 200k (64k KV-Cache OK) |
| tok/s (single) | 200k context: 200 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Das Setup läuft stabil mit Qwen3.6 27B und unterstützt bis zu 200k Kontext. Die Leistung von 200 tok/s bei 200k Kontext ist beeindruckend und eignet sich gut für OpenCode-Aufgaben.
Was NICHT funktioniert / Limits: Das Setup wurde nicht für höhere Kontext-Längen getestet. Es gibt keine Angaben zur Stromverbrauch oder Kosten.
Nachbau-Empfehlung: Dieses Setup ist eine ausgezeichnete Wahl für Benutzer mit einem RTX 5090, die hohe Kontext-Längen und gute Leistung benötigen. Es ist kostengünstig und passt gut in einen privaten Haushalt.
[Benching local Qwen as a Codex validator, co-agent, and challenger] (7/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer hat Qwen3.6 27B als Codex-Validator, Co-Agent und Challenger getestet. Es wurde ein benutzerdefinierter Eval-Suite verwendet, um die Leistung zu messen.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5090 32GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp |
| Modell + Quant | Qwen3.6-27B, Bartowski-128k-f16, Bartowski-128k-q8, Unsloth-128k-q8 |
| Kontext-Laenge | 128k (65k OOM) |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Die Qwen3.6 27B Profile Bartowski-128k-f16, Bartowski-128k-q8 und Unsloth-128k-q8 haben sich als die besten für den Testfall erwiesen. Sie bieten eine gute Balance zwischen Kontext-Länge und Leistung.
Was NICHT funktioniert / Limits: Die 65k Profile scheitern bei längeren Kontexten. Es gibt keine Angaben zur Stromverbrauch oder Kosten.
Nachbau-Empfehlung: Dieses Setup ist eine gute Wahl für Benutzer, die Qwen3.6 27B für spezifische Coding-Aufgaben nutzen möchten. Es ist besonders nützlich, wenn man eine hohe Kontext-Länge benötigt und die Leistung optimieren will.
[Considering two Sparks for local coding] (6/10) — OpenCode-Fit: BEDINGT
Worum es geht: Der Benutzer überlegt, zwei Sparks mit MiniMax M2.7 für lokale Coding-Aufgaben zu verwenden. Das aktuelle Setup besteht aus 4x RTX 3090, aber die Leistung reicht nicht aus.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 2x Spark (256GB VRAM) |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | nicht im Post belegt |
| Modell + Quant | MiniMax M2.7, Qwen3.5-122B-A10B (AWQ) |
| Kontext-Laenge | 120k |
| tok/s (single) | ~15 tok/s bei 100k Kontext |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | ~50 W pro Spark |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? Zwei Sparks mit MiniMax M2.7 bieten eine gute Leistung für Coding-Aufgaben mit bis zu 120k Kontext. Die Stromverbrauch ist gering, was das Setup für einen privaten Haushalt geeignet macht.
Was NICHT funktioniert / Limits: Es gibt keine konkreten Benchmarks oder Leistungsangaben für das Spark-Setup. Die Leistung von Qwen3.5-122B-A10B ist nicht optimal für alle Coding-Aufgaben.
Nachbau-Empfehlung: Dieses Setup ist eine gute Wahl für Benutzer, die eine hohe Kontext-Länge und geringen Stromverbrauch benötigen. Es ist jedoch ratsam, die Leistung von MiniMax M2.7 und Qwen3.5-122B-A10B in der Praxis zu testen, bevor man sich entscheidet.
Weitere Beiträge:
– Follow-up: Trying to make NVIDIA GPUs plug-and-play on Macs. Found hidden RDMA symbols Apple doesn’t want you to see — zero-copy GPU memory sharing might already work. — keine Hardware belegt, kein nachbaubares Setup
– I Ralph-looped Opus overnight. It reduced my local model switching with cold backfilling context of 135k+ on llama.cpp from ~165s -> 5s! TL;DR – USE SLOTS! — keine Hardware belegt, kein nachbaubares Setup
– DeepSeek V4 being 17x cheaper got me to actually measure what I send to cloud vs what I could run locally. the results are stupid. — keine Hardware belegt, kein nachbaubares Setup
– PP speed on dual RTX 6000 12c EPYC setup — keine konkreten Zahlen, keine nachbaubare Lösung
– Struggling with Qwen3.6 27B / 35B locally (3090) slow responses, breaking code looking for better setup + auto model switching — keine konkreten Zahlen, keine nachbaubare Lösung
– Building on a LLM Quants Testing Site/Ressource – Sharing a few insights from first month, so you can share your thoughts and wishes for the future. — keine konkreten Zahlen, keine nachbaubare Lösung
– What a time to be alive from 1tk/sec to 20-100tk/sec for huge models — keine konkreten Zahlen, keine nachbaubare Lösung
– Doesn’t look like there are any recent Linux distro suggestions. What’s your favorite and why? — keine Hardware belegt, kein nachbaubares Setup