Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build-Berichten und Benchmarks geprägt. Besonders hervorzuheben sind die Einträge, die funktionierende Setups mit konkreten tok/s-Zahlen und Modell-Varianten dokumentieren. Diese Woche sind insbesondere die Einträge zu Qwen3.6-27B auf V100s, das BeeLlama.cpp-Projekt und die Benchmark von Qwen 3.6 27B MTP auf 2×3090 NVLink besonders belegt. Leser, die heute Abend ein funktionierendes Setup aufbauen möchten, finden hier konkrete Anleitungen und Zahlen.
[BeeLlama.cpp: advanced DFlash & TurboQuant with support of reasoning and vision. Qwen 3.6 27B Q5 with 200k context on 3090, 2-3x faster than baseline (peak 135 tps!)] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Beitrag stellt eine neue llama.cpp-Fork namens BeeLlama.cpp vor, die speziell für die lokale Inferenz von Qwen 3.6 27B Q5 auf einem RTX 3090 entwickelt wurde. Es unterstützt DFlash speculative decoding, TurboQuant KV-cache-Kompression und multimodale Unterstützung.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „BeeLlama.cpp (GitHub: Anbeeld/beellama.cpp)“ |
| Modell + Quant | „Qwen 3.6 27B Q5“ |
| Kontext-Laenge | „200k“ |
| tok/s (single) | „135 tps“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? BeeLlama.cpp ermöglicht die lokale Inferenz von Qwen 3.6 27B Q5 auf einem RTX 3090 mit 200k Kontext-Länge und erreicht bis zu 135 tps. Die DFlash speculative decoding und TurboQuant KV-cache-Kompression sorgen für eine erhebliche Leistungssteigerung.
Was NICHT funktioniert / Limits Die Setup-Kosten und die genauen Stromverbrauchszahlen sind nicht im Post belegt. Die Komplexität der Installation und Konfiguration könnte für Anfänger ein Hindernis sein.
Nachbau-Empfehlung Dieses Setup ist besonders für fortgeschrittene Nutzer geeignet, die eine hohe Kontext-Länge und Leistung benötigen. Für Anfänger könnte ein einfacheres Setup mit weniger Komplexität sinnvoller sein.
[Got MTP + TurboQuant running — Qwen3.6-27B — 80+ t/s at 262K context on a single RTX 4090] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Beitrag beschreibt, wie der Nutzer MTP (Multi-Token Prediction) und TurboQuant auf Qwen3.6-27B auf einem RTX 4090 eingerichtet hat. Es erreicht bis zu 80-87 tps bei 262K Kontext-Länge.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 4090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp-mtp (GitHub: Indras-Mirror/llama.cpp-mtp)“ |
| Modell + Quant | „Qwen3.6-27B-Heretic-v2 Q4_K_M“ |
| Kontext-Laenge | „262K“ |
| tok/s (single) | „80-87 tps“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? Das Setup erreicht eine hohe Leistung von 80-87 tps bei 262K Kontext-Länge. Die MTP-Unterstützung und TurboQuant-Kompression sorgen für eine erhebliche Leistungssteigerung.
Was NICHT funktioniert / Limits Die genauen Stromverbrauchszahlen und die Komplexität der Installation sind nicht im Post belegt. Die Leistung kann bei sehr hohen Kontext-Längen abnehmen.
Nachbau-Empfehlung Dieses Setup ist besonders für fortgeschrittene Nutzer geeignet, die eine hohe Leistung und Kontext-Länge benötigen. Für Anfänger könnte ein einfacheres Setup mit weniger Komplexität sinnvoller sein.
[Gemma 4 26B Hits 600 Tok/s on One RTX 5090] (7/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Beitrag beschreibt eine Benchmark von Gemma 4 26B auf einem RTX 5090 mit DFlash speculative decoding. Es erreicht bis zu 600 tok/s bei 256 Input- und 1024 Output-Tokens.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 5090 32GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM 0.19.2rc1“ |
| Modell + Quant | „cyankiwi/gemma-4-26B-A4B-it-AWQ-4bit“ |
| Kontext-Laenge | „256 Input / 1024 Output Tokens“ |
| tok/s (single) | „600 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |
Was funktioniert konkret? Das Setup erreicht eine hohe Leistung von 600 tok/s bei 256 Input- und 1024 Output-Tokens. DFlash speculative decoding sorgt für eine erhebliche Leistungssteigerung.
Was NICHT funktioniert / Limits Die Leistung kann bei sehr hohen Kontext-Längen abnehmen. Die genauen Stromverbrauchszahlen und die Komplexität der Installation sind nicht im Post belegt.
Nachbau-Empfehlung Dieses Setup ist besonders für fortgeschrittene Nutzer geeignet, die eine hohe Leistung benötigen. Für Anfänger könnte ein einfacheres Setup mit weniger Komplexität sinnvoller sein.
[Benchmark Qwen 3.6 27B MTP on 2×3090 NVLINK] (7/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Beitrag beschreibt eine Benchmark von Qwen 3.6 27B MTP auf 2×3090 mit NVLink. Es zeigt, dass die Verwendung von NVLink eine erhebliche Leistungssteigerung bringt.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „4x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM 0.20.1“ |
| Modell + Quant | „cyankiwi/Qwen3.6-27B-AWQ-BF16-INT4“ |
| Kontext-Laenge | „131072“ |
| tok/s (single) | „66.0 tps (NVLink), 52.6 tps (non-NVLink)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |
Was funktioniert konkret? Die Verwendung von NVLink zwischen den GPUs führt zu einer erheblichen Leistungssteigerung von bis zu 25% bei einer Konkurrenz von 1 und 53% bei einer Konkurrenz von 4.
Was NICHT funktioniert / Limits Die Leistung kann bei sehr hohen Kontext-Längen abnehmen. Die genauen Stromverbrauchszahlen und die Komplexität der Installation sind nicht im Post belegt.
Nachbau-Empfehlung Dieses Setup ist besonders für fortgeschrittene Nutzer geeignet, die eine hohe Leistung benötigen. Für Anfänger könnte ein einfacheres Setup mit weniger Komplexität sinnvoller sein.
Weitere Beitraege (automatisch gefiltert):
– Mac Studio local loadout – May 2026 — keine Hardware belegt, kein nachbaubares Setup