Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Benchmarks und Build-Berichten geprägt. Besonders hervorzuheben sind die Benchmarks von Qwen 3.6 27B auf verschiedenen GPUs, die MTP-Unterstützung in llama.cpp und die Vergleiche von verschiedenen Frameworks wie vLLM, SGLang und llama.cpp auf heterogenen GPU-Clustern. Diese Woche können Leser konkrete Zahlen und Empfehlungen für ihre eigenen lokalen KI-Setups finden.
[Qwen 3.6 35B GGUF: NTP vs MTP quantization results across GPUs and CPUs] (8/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Beitrag vergleicht die Quantisierung von Qwen 3.6 35B GGUF in NTP (Next Token Prediction) und MTP (Multi-Token Prediction) auf verschiedenen GPUs und CPUs. Es werden Benchmarks für RTX 4090, 5090, Pro 6000, 4080, 5060 Ti sowie Intel i7, Intel Ultra 7, Ryzen 9 und Raspberry Pi 5 durchgeführt.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 4090, 5090, Pro 6000, 4080, 5060 Ti, Intel i7, Intel Ultra 7, Ryzen 9, Raspberry Pi 5 |
| CPU / Mainboard | N/A |
| RAM | N/A |
| PSU | N/A |
| Chassis / Kuehlung | N/A |
| Framework + Version | N/A |
| Modell + Quant | Qwen 3.6 35B GGUF (NTP, MTP) |
| Kontext-Laenge | 64k (KV-Cache OK) / 128k OOM |
| tok/s (single) | 20-40 tok/s (MTP) |
| tok/s (batched) | N/A |
| Strom (full load) | N/A |
| Rohkosten | N/A |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): MTP bietet auf GPUs eine signifikante Geschwindigkeitssteigerung von 20-40% im Vergleich zu NTP. Die größeren Quantisierungen (Qwen 3.6 35B) sind oft genauso schnell oder sogar schneller als kleinere Varianten, solange sie in den Speicher passen. Dies macht sie für OpenCode-Workloads tauglich.
Was NICHT funktioniert / Limits (2-4 Sätze): MTP erhöht den Speicherverbrauch, was bei 16GB-GPUs und Raspberry Pi 5 zu Problemen führen kann. CPU-MTP ist weniger effektiv und wird daher nicht empfohlen.
Nachbau-Empfehlung (2-4 Sätze): Würde ich empfehlen, insbesondere für Benutzer mit 24GB-GPUs oder höher. Anpassungen sind erforderlich, um den Speicherverbrauch zu optimieren, insbesondere bei kleineren GPUs.
[Qwen 3.6 27B on 24GB VRAM setup: backend comparisons, quant choice and settings (llama.cpp, ik_llama.cpp, BeeLlama, vllm)] (7/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Beitrag vergleicht verschiedene Backends (llama.cpp, ik_llama.cpp, BeeLlama, vLLM) für das Betreiben von Qwen 3.6 27B auf einem RTX 3090 24GB. Es werden die besten Einstellungen und Quantisierungen für hohe Leistung und Kontextlänge getestet.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 3090 24GB |
| CPU / Mainboard | N/A |
| RAM | N/A |
| PSU | N/A |
| Chassis / Kuehlung | N/A |
| Framework + Version | ik_llama.cpp (4507) |
| Modell + Quant | Qwen 3.6 27B-MTP-IQ4_KS.gguf |
| Kontext-Laenge | 156k (KV-Cache OK) |
| tok/s (single) | 72.9 tok/s (decode) |
| tok/s (batched) | 1261 tok/s (prefill) |
| Strom (full load) | N/A |
| Rohkosten | N/A |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): ik_llama.cpp erzielt die besten Ergebnisse mit Qwen 3.6 27B-MTP-IQ4_KS.gguf. Es ermöglicht eine Kontextlänge von 156k und erreicht 72.9 tok/s bei der Dekodierung und 1261 tok/s bei der Prefill. Die Einstellungen sind gut für OpenCode-Workloads geeignet.
Was NICHT funktioniert / Limits (2-4 Sätze): vLLM hat Probleme mit OOM-Fehlern bei hohen Kontextlängen. llama.cpp und BeeLlama erreichen zwar gute Ergebnisse, aber nicht so gute wie ik_llama.cpp.
Nachbau-Empfehlung (2-4 Sätze): Würde ich empfehlen, insbesondere für Benutzer mit 24GB-GPUs. Die Einstellungen und Quantisierungen sind gut dokumentiert und leicht nachzubauen.
[Benchmarking vLLM vs SGLang vs llama.cpp on a mixed Blackwell/Ada cluster] (8/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Beitrag vergleicht die Leistung von vLLM, SGLang und llama.cpp auf einem heterogenen 7-GPU-Cluster mit Blackwell und Ada-Karten. Es werden Benchmarks für verschiedene Modelle und Kontextlängen durchgeführt.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX PRO 6000 96GB, 1x RTX PRO 5000 48GB, 2x RTX 5090 32GB, 3x modded RTX 4090 48GB |
| CPU / Mainboard | N/A |
| RAM | N/A |
| PSU | N/A |
| Chassis / Kuehlung | N/A |
| Framework + Version | vLLM, SGLang, llama.cpp |
| Modell + Quant | Qwen3.6-35B-A3B (184k tokens), MiniMax-M2.7 (82k tokens), Qwen3.5-122B-A10B (75k tokens), Qwen3.5-397B-A17B (75k tokens) |
| Kontext-Laenge | 64k (KV-Cache OK) |
| tok/s (single) | 18060 tok/s (vLLM), 7405 tok/s (llama.cpp) |
| tok/s (batched) | 6212 tok/s (vLLM), 1065 tok/s (llama.cpp) |
| Strom (full load) | N/A |
| Rohkosten | N/A |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): vLLM übertrifft die anderen Frameworks bei der Leistung auf heterogenen GPU-Clustern, insbesondere bei langen Kontexten. Es erzielt signifikant höhere Prefill- und Dekodierungsraten. SGLang ist fast ebenso schnell wie vLLM auf reinen Blackwell-Setups.
Was NICHT funktioniert / Limits (2-4 Sätze): llama.cpp hat Probleme mit Pipeline-Parallelismus und erzielt deutlich schlechtere Ergebnisse. SGLang kracht bei der Einführung von Ada-Karten.
Nachbau-Empfehlung (2-4 Sätze): Würde ich empfehlen, insbesondere für Benutzer mit heterogenen GPU-Clustern. vLLM ist die beste Wahl für hohe Leistung und Stabilität.
[Meet the Fleet of BlackBeard] (6/10) — OpenCode-Fit: BEDINGT

Worum es geht (2-4 Sätze): Der Beitrag stellt das vollständige AI-Setup von BlackBeard vor, das aus mehreren Rechnern mit verschiedenen GPUs besteht. Es wird beschrieben, wie die Rechner für verschiedene Aufgaben genutzt werden.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 1070, RTX 5060 Ti, RTX 5090, 4x RTX 3090 |
| CPU / Mainboard | i3 7100, Ryzen 5600, Ryzen 5950x, Ryzen 9950x3d, Threadripper 1950x |
| RAM | 32GB, 64GB, 128GB, 256GB |
| PSU | N/A |
| Chassis / Kuehlung | N/A |
| Framework + Version | N/A |
| Modell + Quant | N/A |
| Kontext-Laenge | N/A |
| tok/s (single) | N/A |
| tok/s (batched) | N/A |
| Strom (full load) | N/A |
| Rohkosten | N/A |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? (3-5 Sätze): Das Setup von BlackBeard ist vielseitig und kann für verschiedene AI-Aufgaben genutzt werden. Es ist gut für Archivierung, Modelltraining und Inference geeignet.
Was NICHT funktioniert / Limits (2-4 Sätze): Die Rechner sind unterschiedlich stark und nicht alle sind für hochleistungsfähige KI-Workloads optimiert. Die Kraken-Setup mit 4x RTX 3090 ist noch im Aufbau.
Nachbau-Empfehlung (2-4 Sätze): Würde ich bedingt empfehlen, insbesondere für Benutzer mit einem breiten Spektrum an AI-Aufgaben. Die Rechner müssen je nach Anwendung angepasst werden.
Weitere Beiträge (kurz):
– 21 GPU’s benchmarked running a small TTS model (vram peak: 5GB) — keine Hardware belegt, kein nachbaubares Setup
– llama.cpp MTP support landed – Qwen3.6 27B at 2.44× on a Strix Halo, 2.17× on a RTX 3090 rig — keine Hardware belegt, kein nachbaubares Setup
– Benchmarking the new b9200 update: Optimizing Qwen 3.6 27B mtp for Hermes Agent on a single RTX 3090 — keine Hardware belegt, kein nachbaubares Setup
– Benchmarked Kokoro 82M vs Supertonic 3 TTS on CPU — keine Hardware belegt, kein nachbaubares Setup
– 85 GPU-hours comparing 5 abliteration methods on Qwen3.6-27B: benchmarks, safety, weight forensics – Abliterlitics — keine Hardware belegt, kein nachbaubares Setup
– The option i see online seem to make the model slower — keine Hardware belegt, kein nachbaubares Setup
– Llama.cpp MTP with Qwen3.6 27B on Headless RTX 3090 — keine Hardware belegt, kein nachbaubares Setup
– Ran the same models across Strix Halo, RTX 3090, and RTX 5070 because I wanted my own numbers — keine Hardware belegt, kein nachbaubares Setup