Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, funktionierende Setups zur lokalen KI-Inferenz. Diese Woche sind insbesondere die Einträge zu Qwen3.6-27B auf 2x RTX 3090, das Setup mit einem RTX 4060 Laptop und die Leistungssteigerung durch die Optimierung der PCIe-Verbindungen in einem 4x RTX 3090-Rig besonders belegt. Ein Leser kann heute Abend mit diesen Setups beginnen, um ein autonomes, lokal gehostetes KI-Setup aufzubauen.
[Qwen3.6-27B on 2x3090s: llama.cpp vs vLLM, all the flags, and the MTP acceptance/inference speed/context] (8/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Autor hat Qwen3.6-27B auf einem Setup mit 2x RTX 3090 getestet, wobei er verschiedene Quantisierungs- und Backend-Kombinationen (llama.cpp Q6_K, Q8_0, vLLM INT4, INT8) verwendet hat. Er dokumentiert die Leistungszahlen, die Akzeptanzraten der MTP-Drafts und die Kontextlängen.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 2x RTX 3090 24GB |
| CPU / Mainboard | Threadripper 1950X, Gigabyte X399 Designare EX |
| RAM | 30GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp, vLLM |
| Modell + Quant | Qwen3.6-27B Q6_K, Q8_0, INT4, INT8 |
| Kontext-Laenge | 131k (llama.cpp), 32k/64k (vLLM) |
| tok/s (single) | 43.1 (llama.cpp Q6_K), 44.2 (llama.cpp Q8_0), 51.6 (vLLM INT8), 53.7 (vLLM INT4) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Das Setup mit 2x RTX 3090 und Qwen3.6-27B liefert stabile Leistungszahlen sowohl mit llama.cpp als auch mit vLLM. Die MTP-Akzeptanzraten liegen bei etwa 54-77%, was für eine gute Genauigkeit spricht. Die Kontextlängen reichen von 32k bis 131k, was für die meisten Anwendungen ausreichend ist.
Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung von vLLM wird durch die fehlende PCIe P2P-Verbindung beeinträchtigt, da die Karten auf separate Root-Complexes verteilt sind. Dies führt zu einer geringeren Leistung bei TP=2. Die Kontextlänge von 32k bei vLLM INT8 ist für komplexe Aufgaben möglicherweise zu kurz.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist empfehlenswert für Benutzer mit einem Budget von etwa 2000-3000 EUR. Es bietet eine gute Balance zwischen Leistung und Autarkie. Für Benutzer mit höheren Anforderungen an Kontextlänge und Leistung könnte ein Upgrade auf 32GB VRAM oder die Verwendung von NVLink sinnvoll sein.
[Running Qwen3.6-35B-A3B on a laptop RTX 4060 (8GB) — what worked, what didn’t, and a surprising speculative-decoding result] (7/10) — OpenCode-Fit: BEDINGT
Worum es geht (2-4 Sätze): Der Autor hat Qwen3.6-35B-A3B auf einem Laptop mit RTX 4060 (8GB VRAM) getestet. Er dokumentiert, welche Optimierungen geholfen haben und welche nicht, sowie die überraschende Verbesserung durch speculative decoding.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 4060 8GB |
| CPU / Mainboard | i7-13620H, Laptop |
| RAM | 32GB DDR5-5600 dual-channel |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp b9484, CUDA build |
| Modell + Quant | Qwen3.6-35B-A3B Q4_K_M |
| Kontext-Laenge | 65536 |
| tok/s (single) | ~39 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? (3-5 Sätze): Das Setup erreicht eine stabile Generierungsgeschwindigkeit von etwa 39 tok/s. Die Optimierungen –no-mmap und VRAM-Headroom haben die Leistungsignifikant verbessert. Speculative decoding hat eine zusätzliche Leistungssteigerung von 26% gebracht.
Was NICHT funktioniert / Limits (2-4 Sätze): Die VRAM-Beschränkung von 8GB führt zu einer begrenzten Kontextlänge von 65536, was für komplexe Aufgaben möglicherweise zu kurz ist. Die CPU-Last ist der Hauptbottleneck, insbesondere wenn CPU-intensivere Anwendungen parallel laufen.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer mit einem Budget von etwa 1000-1500 EUR geeignet, die eine mobile Lösung benötigen. Für Benutzer mit höheren Anforderungen an Kontextlänge und Leistung könnte ein Upgrade auf eine GPU mit mehr VRAM sinnvoll sein.
[I accidentally crippled my 4x RTX 3090 LLM rig with a hidden PCIe 2.0 x4 slot and fixing it doubled Mistral 128B performance] (8/10) — OpenCode-Fit: JA
Worum es geht (2-4 Sätze): Der Autor hat festgestellt, dass eines der 4x RTX 3090 in einem versteckten PCIe 2.0 x4-Slot saß, was die Leistung stark beeinträchtigte. Nach der Korrektur der PCIe-Verbindungen konnten die Leistungsprobleme behoben werden.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 4x RTX 3090 24GB |
| CPU / Mainboard | Threadripper 1950X, Gigabyte X399 Designare EX |
| RAM | 128GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp NCCL build, vLLM |
| Modell + Quant | Qwen3.6 27B BF16, Mistral Medium 3.5 128B Q4_K GGUF |
| Kontext-Laenge | 260k (Qwen3.6 27B), 131k (Mistral) |
| tok/s (single) | ~78-80 tok/s (Qwen3.6 27B), ~24.7 tok/s (Mistral) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Nach der Optimierung der PCIe-Verbindungen konnte die Leistung von Qwen3.6 27B auf etwa 78-80 tok/s gesteigert werden, mit einer hohen MTP-Akzeptanzrate von 80%. Die Leistung von Mistral 128B stieg von 11 tok/s auf 24.7 tok/s.
Was NICHT funktioniert / Limits (2-4 Sätze): Die fehlende PCIe P2P-Verbindung zwischen den GPUs kann die Leistung bei TP=2 beeinträchtigen. Die Kontextlänge von 131k bei Mistral ist für komplexe Aufgaben möglicherweise zu kurz.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist empfehlenswert für Benutzer mit einem Budget von etwa 4000-5000 EUR. Es bietet eine ausgezeichnete Leistung und ist für die meisten Anwendungen geeignet. Für Benutzer mit höheren Anforderungen an Kontextlänge und Leistung könnte ein Upgrade auf 32GB VRAM oder die Verwendung von NVLink sinnvoll sein.
Weitere Beiträge (kurz):
– Context, memory, and RAM/VRAM — keine Hardware belegt, kein funktionierendes Setup
– Does anyone know what PCIe mode was used for these benchmarks? — keine Hardware belegt, kein funktionierendes Setup
– The Gap Between Claude and Local: Can a Self-Hosted Coding Agent Compete? — keine konkreten Zahlen, eher Diskussion
– Qwen 3.6 27B MTP – Adding spec-type and spec-draft-n-max is dropping tps and reducing GPU utilization — keine konkreten Zahlen, eher Problem-Frage
– Strange bug using llama.cpp server — keine konkreten Zahlen, eher Problem-Frage
– I implemented KVarN in my llama.cpp fork and ran KLD benchmarks. It’s promising! — keine konkreten Zahlen, eher Diskussion
– RTX Pro 4500 Blackwell Performance Numbers — keine konkreten Zahlen, eher Diskussion
– Here is my llama.cpp NVFP4/MXFP6 GGUF quantizer tool — keine konkreten Zahlen, eher Diskussion
– BeeLlama v0.3.1 – latest llama.cpp with extras! DFlash, MTP, q6_0 cache, TurboQuant. Single RTX 3090: Qwen 3.6 27B & Gemma 4 31B up to 177.8 tps (4.93x over baseline) — keine konkreten Zahlen, eher Diskussion