Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist der Ort, an dem Community-User ihre lokalen KI-Setups dokumentieren und benchmarken. In dieser Woche stehen insbesondere die Einträge von Benutzern im Fokus, die ihre Setups mit konkreten tok/s-Zahlen, Modell-Variationen und echten Erfahrungen aus mehreren Wochen Betrieb teilen. Ein Leser kann heute Abend mit konkreten Beispielen anfangen, wie er ein nachbaubares Setup für OpenCode lokal gegen Claude-Sonnet-Opus-4.6-Nähe aufbauen kann.
[Qwen 3.6 27B on 24GB VRAM setup: backend comparisons, quant choice and settings (llama.cpp, ik_llama.cpp, BeeLlama, vllm)] (8/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Benutzer vergleicht verschiedene Backends (llama.cpp, ik_llama.cpp, BeeLlama, vllm) für das Modell Qwen 3.6 27B auf einem RTX 3090 24 GB. Ziel ist es, das beste Setup für eine hohe Leistung und einen stabilen Betrieb zu finden.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „ik_llama.cpp c35189d8“ |
| Modell + Quant | „Qwen3.6-27B-MTP-IQ4_KS.gguf“ |
| Kontext-Laenge | „156k (KV-Cache OK)“ |
| tok/s (single) | „72.9 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? (3-5 Sätze): Das Setup mit ik_llama.cpp und dem Modell Qwen 3.6 27B erreicht eine hohe Leistung von 72.9 tok/s bei einer Kontext-Länge von 156k. Die q8_0 KV-Cache und die MTP-Unterstützung tragen dazu bei, dass das Setup stabil und effizient läuft.
Was NICHT funktioniert / Limits (2-4 Sätze): vLLM und club-3090 zeigten bei den Tests Probleme mit OOM-Cliffs bei hohen Kontext-Längen. llama.cpp und BeeLlama konnten die erwarteten Leistungen nicht erreichen.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer mit einem RTX 3090 24 GB und einem Budget von ca. 1.000 EUR sehr empfehlenswert. Es bietet eine ausgezeichnete Leistung und ist für OpenCode-Workloads geeignet. Für höhere Leistungen und längere Kontexte könnten mehrere GPUs oder eine stärkere CPU in Betracht gezogen werden.
[BeeLlama v0.2.0 – major DFlash update. Single RTX 3090: Qwen 3.6 27B up to 164 tps (4.40x), Gemma 4 31B up to 177.8 tps (4.93x). Prompt processing speed near baseline.] (9/10) — OpenCode-Fit: JA
Worum es geht (2-4 Sätze): BeeLlama v0.2.0 bringt erhebliche Leistungsverbesserungen für das Modell Qwen 3.6 27B und Gemma 4 31B auf einem RTX 3090. Die DFlash-Implementierung ermöglicht eine erhebliche Steigerung der tok/s-Werte.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „AMD Ryzen 7 5700X3D“ |
| RAM | „32 GB DDR4“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „BeeLlama v0.2.0“ |
| Modell + Quant | „Qwen 3.6 27B Q5_K_S, Gemma 4 31B Q5_K_S“ |
| Kontext-Laenge | „bis 30k (KV-Cache OK)“ |
| tok/s (single) | „164 tok/s (Qwen 3.6 27B), 177.8 tok/s (Gemma 4 31B)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? (3-5 Sätze): BeeLlama v0.2.0 erreicht bei Qwen 3.6 27B eine Leistung von 164 tok/s und bei Gemma 4 31B eine Leistung von 177.8 tok/s. Die Prompt-Verarbeitung ist nahe am Baseline-Level, was die Effizienz des Setups unterstreicht.
Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung von BeeLlama v0.2.0 ist stark abhängig von der Modell-Größe und der Kontext-Länge. Bei sehr langen Kontexten kann es zu Leistungsabfall kommen.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer mit einem RTX 3090 24 GB und einem Budget von ca. 1.000 EUR sehr empfehlenswert. Es bietet eine ausgezeichnete Leistung und ist für OpenCode-Workloads geeignet. Für höhere Leistungen und längere Kontexte könnten mehrere GPUs oder eine stärkere CPU in Betracht gezogen werden.
[Meet the Fleet of BlackBeard] (7/10) — OpenCode-Fit: BEDINGT

Worum es geht (2-4 Sätze): BlackBeard präsentiert seine vollständige AI-HomeLab-Setup mit fünf verschiedenen Rechnern, die jeweils für unterschiedliche Aufgaben konfiguriert sind. Das Setup umfasst eine Vielzahl von GPUs und CPUs, von GTX 1070 bis hin zu RTX 5090.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x GTX 1070, 1x RTX 5060 Ti, 1x RTX 5090, 4x RTX 3090“ |
| CPU / Mainboard | „i3 7100, Ryzen 5600, Ryzen 5950X, Ryzen 9950X3D, Threadripper 1950X“ |
| RAM | „32 GB, 64 GB, 128 GB, 256 GB“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „nicht im Post belegt“ |
| Modell + Quant | „nicht im Post belegt“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |
Was funktioniert konkret? (3-5 Sätze): Das Setup von BlackBeard bietet eine breite Palette von Rechnern für verschiedene Aufgaben, von Archivierung bis hin zu hochleistungsfähigen Inference-Setups. Die Kombination aus verschiedenen GPUs und CPUs ermöglicht eine flexible Nutzung für unterschiedliche Modelle und Workloads.
Was NICHT funktioniert / Limits (2-4 Sätze): Das Setup ist sehr umfangreich und teuer, was es für den privaten Haushalt nicht unbedingt geeignet macht. Die Stromverbrauch und die Wärmeentwicklung sind erheblich, was zusätzliche Kühlung und eine hohe Stromversorgung erfordert.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für fortgeschrittene Benutzer mit einem hohen Budget und spezifischen Anforderungen geeignet. Für den privaten Haushalt könnten kleinere, weniger aufwendige Setups mit 1-2 GPUs und einer moderaten CPU ausreichend sein.
Weitere Beiträge (kurz):
– Any reason to run dense over MOE for RAGs? — keine Hardware belegt, kein nachbaubares Setup
– I added native MTP to exo for Qwen3.6 MLX models; here are the exactness and speed results — keine Hardware belegt, kein nachbaubares Setup
– Scrambling to max StrixHalo (+NVLink dual eGPU 3090 mod) — keine Hardware belegt, kein nachbaubares Setup
– 21 GPU’s benchmarked running a small TTS model (vram peak: 5GB) — keine Hardware belegt, kein nachbaubares Setup
– llama.cpp MTP support landed – Qwen3.6 27B at 2.44× on a Strix Halo, 2.17× on a RTX 3090 rig — keine Hardware belegt, kein nachbaubares Setup
– Benchmarked Kokoro 82M vs Supertonic 3 TTS on CPU — keine Hardware belegt, kein nachbaubares Setup
– Benchmarking the new b9200 update: Optimizing Qwen 3.6 27B mtp for Hermes Agent on a single RTX 3090 — keine Hardware belegt, kein nachbaubares Setup
– Benchmarking vLLM vs SGLang vs llama.cpp on a mixed Blackwell/Ada cluster — keine Hardware belegt, kein nachbaubares Setup