Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build-Berichten und Benchmarks geprägt. Besonders hervorzuheben sind die Benchmarks von Qwen 3.6 35B auf verschiedenen GPUs, die Vergleiche von TTS-Modellen auf CPU und die Optimierungen für MTP-Unterstützung in llama.cpp. Diese Einträge bieten präzise Zahlen und praktische Einblicke, die für den Bau eines nachbaubaren, lokalen KI-Setups hilfreich sind.
[Qwen 3.6 35B GGUF: NTP vs MTP Quantization Results Across GPUs and CPUs] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Beitrag vergleicht die Quantisierung von Qwen 3.6 35B GGUF in NTP (Next Token Prediction) und MTP (Multi-Token Prediction) auf verschiedenen GPUs und CPUs. Es werden Benchmarks für RTX 4090, 5090, Pro 6000, 4080, 5060 Ti, Intel i7, Intel Ultra 7, Ryzen 9 und Raspberry Pi 5 durchgeführt.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 4090, 5090, Pro 6000, 4080, 5060 Ti, Intel i7, Intel Ultra 7, Ryzen 9, Raspberry Pi 5 |
| CPU / Mainboard | N/A |
| RAM | N/A |
| PSU | N/A |
| Chassis / Kuehlung | N/A |
| Framework + Version | N/A |
| Modell + Quant | Qwen 3.6 35B GGUF (NTP, MTP) |
| Kontext-Laenge | N/A |
| tok/s (single) | 20-40% Speedup mit MTP |
| tok/s (batched) | N/A |
| Strom (full load) | N/A |
| Rohkosten | N/A |
| Autarkie-Fit | JA |
Was funktioniert konkret? MTP bietet auf GPUs eine signifikante Geschwindigkeitssteigerung von 20-40%, während NTP auf CPUs besser abschneidet. Die größeren Quantisierungen (z.B. Q6_K) sind oft die beste Wahl, wenn sie in den Speicher passen.
Was NICHT funktioniert / Limits: MTP auf CPUs ist weniger effektiv. Die Kontext-Länge und die Modell-Größe beeinflussen die Performance stark, insbesondere auf 16GB-GPUs und Raspberry Pi 5.
Nachbau-Empfehlung: Würdest du das empfehlen? Ja, insbesondere für GPU-Setups. An wen (Budget-Level)? Für Budgets ab 4.000 EUR. Was muesste man anpassen? Die GPU-Modellwahl und die Quantisierung sollten an die spezifischen Anforderungen angepasst werden.
[Qwen 3.6 27B on 24GB VRAM Setup: Backend Comparisons, Quant Choice and Settings (llama.cpp, ik_llama.cpp, BeeLlama, vllm)] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Beitrag vergleicht verschiedene Backends (llama.cpp, ik_llama.cpp, BeeLlama, vllm) für das Qwen 3.6 27B Modell auf einem RTX 3090 24GB. Es werden Benchmarks für die Prefill- und Decode-Geschwindigkeit durchgeführt.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 3090 24GB |
| CPU / Mainboard | N/A |
| RAM | N/A |
| PSU | N/A |
| Chassis / Kuehlung | N/A |
| Framework + Version | ik_llama.cpp 4507 (c35189d8) |
| Modell + Quant | Qwen3.6-27B-MTP-IQ4_KS.gguf |
| Kontext-Laenge | 156k |
| tok/s (single) | 72.9 tok/s decode, 1261 tok/s prefill |
| tok/s (batched) | N/A |
| Strom (full load) | N/A |
| Rohkosten | N/A |
| Autarkie-Fit | JA |
Was funktioniert konkret? ik_llama.cpp bietet die beste Performance mit 72.9 tok/s Decode und 1261 tok/s Prefill. Die MTP-Unterstützung und die spezifische Quantisierung (Qwen3.6-27B-MTP-IQ4_KS.gguf) sind entscheidend für die hohe Geschwindigkeit.
Was NICHT funktioniert / Limits: vLLM hat Probleme mit OOM-Fehlern bei hohen Kontext-Längen. Die Performance von BeeLlama konnte nicht reproduziert werden.
Nachbau-Empfehlung: Würdest du das empfehlen? Ja, insbesondere für RTX 3090 24GB-Setups. An wen (Budget-Level)? Für Budgets ab 1.500 EUR. Was muesste man anpassen? Die spezifischen Einstellungen und die Quantisierung sollten an die Anwendung angepasst werden.
[Benchmarking vLLM vs SGLang vs llama.cpp on a Mixed Blackwell/Ada Cluster] (9/10) — OpenCode-Fit: JA

Worum es geht: Der Beitrag vergleicht die Performance von vLLM, SGLang und llama.cpp auf einem heterogenen 7-GPU-Cluster mit Blackwell und Ada-Karten. Es werden Benchmarks für long context prefill durchgeführt.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX PRO 6000 96GB, 1x RTX PRO 5000 48GB, 2x RTX 5090 32GB, 3x modded RTX 4090 48GB |
| CPU / Mainboard | N/A |
| RAM | N/A |
| PSU | N/A |
| Chassis / Kuehlung | N/A |
| Framework + Version | vLLM, SGLang, llama.cpp |
| Modell + Quant | Qwen3.6-35B-A3B (184k tokens), MiniMax-M2.7 (82k tokens), Qwen3.5-122B-A10B (75k tokens), Qwen3.5-397B-A17B (75k tokens) |
| Kontext-Laenge | 75k – 184k |
| tok/s (single) | vLLM: 18060 t/s, llama.cpp: 7405 t/s, SGLang: Crashed |
| tok/s (batched) | N/A |
| Strom (full load) | N/A |
| Rohkosten | N/A |
| Autarkie-Fit | JA |
Was funktioniert konkret? vLLM übertrifft die anderen Frameworks bei der Handhabung von langen Kontexten auf heterogenen GPU-Setups. SGLang ist effektiv auf reinen Blackwell-Setups, aber es fehlt die Kompatibilität mit Ada-Karten.
Was NICHT funktioniert / Limits: llama.cpp hat Schwierigkeiten mit Pipeline-Parallelismus und OOM-Fehlern bei hohen Kontext-Längen. SGLang kracht bei der Einführung von Ada-Karten.
Nachbau-Empfehlung: Würdest du das empfehlen? Ja, insbesondere für heterogene GPU-Setups. An wen (Budget-Level)? Für Budgets ab 10.000 EUR. Was muesste man anpassen? Die GPU-Verteilung und die spezifischen Einstellungen sollten an die Hardware angepasst werden.
Weitere Beiträge (kurz):
– Meet the Fleet of BlackBeard — keine Hardware belegt, kein nachbaubares Setup
– 21 GPUs benchmarked running a small TTS model (vram peak: 5GB) — keine konkrete Hardware belegt, nur Benchmarks
– llama.cpp MTP support landed – Qwen3.6 27B at 2.44× on a Strix Halo, 2.17× on a RTX 3090 rig — keine konkrete Hardware belegt, nur Benchmarks
– Benchmarking the new b9200 update: Optimizing Qwen 3.6 27B mtp for Hermes Agent on a single RTX 3090 — keine konkrete Hardware belegt, nur Benchmarks
– Benchmarked Kokoro 82M vs Supertonic 3 TTS on CPU — keine konkrete Hardware belegt, nur Benchmarks
– 85 GPU-hours comparing 5 abliteration methods on Qwen3.6-27B: benchmarks, safety, weight forensics – Abliterlitics — keine konkrete Hardware belegt, nur Benchmarks
– The option i see online seem to make the model slower — keine konkrete Hardware belegt, nur Benchmarks
– Llama.cpp MTP with Qwen3.6 27B on Headless RTX 3090 — keine konkrete Hardware belegt, nur Benchmarks
– Ran the same models across Strix Halo, RTX 3090, and RTX 5070 because I wanted my own numbers — keine konkrete Hardware belegt, nur Benchmarks