Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build-Berichten und Benchmarks geprägt. Besonders hervorzuheben sind die Benchmarks von Qwen 3.6 35B auf verschiedenen GPUs, die Vergleiche von TTS-Modellen auf CPU und die Optimierungen für MTP-Unterstützung in llama.cpp. Diese Einträge bieten präzise Zahlen und praktische Einblicke, die für den Bau eines nachbaubaren, lokalen KI-Setups hilfreich sind.

[Qwen 3.6 35B GGUF: NTP vs MTP Quantization Results Across GPUs and CPUs] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag vergleicht die Quantisierung von Qwen 3.6 35B GGUF in NTP (Next Token Prediction) und MTP (Multi-Token Prediction) auf verschiedenen GPUs und CPUs. Es werden Benchmarks für RTX 4090, 5090, Pro 6000, 4080, 5060 Ti, Intel i7, Intel Ultra 7, Ryzen 9 und Raspberry Pi 5 durchgeführt.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 4090, 5090, Pro 6000, 4080, 5060 Ti, Intel i7, Intel Ultra 7, Ryzen 9, Raspberry Pi 5 |
| CPU / Mainboard | N/A |
| RAM | N/A |
| PSU | N/A |
| Chassis / Kuehlung | N/A |
| Framework + Version | N/A |
| Modell + Quant | Qwen 3.6 35B GGUF (NTP, MTP) |
| Kontext-Laenge | N/A |
| tok/s (single) | 20-40% Speedup mit MTP |
| tok/s (batched) | N/A |
| Strom (full load) | N/A |
| Rohkosten | N/A |
| Autarkie-Fit | JA |

Was funktioniert konkret? MTP bietet auf GPUs eine signifikante Geschwindigkeitssteigerung von 20-40%, während NTP auf CPUs besser abschneidet. Die größeren Quantisierungen (z.B. Q6_K) sind oft die beste Wahl, wenn sie in den Speicher passen.

Was NICHT funktioniert / Limits: MTP auf CPUs ist weniger effektiv. Die Kontext-Länge und die Modell-Größe beeinflussen die Performance stark, insbesondere auf 16GB-GPUs und Raspberry Pi 5.

Nachbau-Empfehlung: Würdest du das empfehlen? Ja, insbesondere für GPU-Setups. An wen (Budget-Level)? Für Budgets ab 4.000 EUR. Was muesste man anpassen? Die GPU-Modellwahl und die Quantisierung sollten an die spezifischen Anforderungen angepasst werden.

[Qwen 3.6 27B on 24GB VRAM Setup: Backend Comparisons, Quant Choice and Settings (llama.cpp, ik_llama.cpp, BeeLlama, vllm)] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag vergleicht verschiedene Backends (llama.cpp, ik_llama.cpp, BeeLlama, vllm) für das Qwen 3.6 27B Modell auf einem RTX 3090 24GB. Es werden Benchmarks für die Prefill- und Decode-Geschwindigkeit durchgeführt.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 3090 24GB |
| CPU / Mainboard | N/A |
| RAM | N/A |
| PSU | N/A |
| Chassis / Kuehlung | N/A |
| Framework + Version | ik_llama.cpp 4507 (c35189d8) |
| Modell + Quant | Qwen3.6-27B-MTP-IQ4_KS.gguf |
| Kontext-Laenge | 156k |
| tok/s (single) | 72.9 tok/s decode, 1261 tok/s prefill |
| tok/s (batched) | N/A |
| Strom (full load) | N/A |
| Rohkosten | N/A |
| Autarkie-Fit | JA |

Was funktioniert konkret? ik_llama.cpp bietet die beste Performance mit 72.9 tok/s Decode und 1261 tok/s Prefill. Die MTP-Unterstützung und die spezifische Quantisierung (Qwen3.6-27B-MTP-IQ4_KS.gguf) sind entscheidend für die hohe Geschwindigkeit.

Was NICHT funktioniert / Limits: vLLM hat Probleme mit OOM-Fehlern bei hohen Kontext-Längen. Die Performance von BeeLlama konnte nicht reproduziert werden.

Nachbau-Empfehlung: Würdest du das empfehlen? Ja, insbesondere für RTX 3090 24GB-Setups. An wen (Budget-Level)? Für Budgets ab 1.500 EUR. Was muesste man anpassen? Die spezifischen Einstellungen und die Quantisierung sollten an die Anwendung angepasst werden.

[Benchmarking vLLM vs SGLang vs llama.cpp on a Mixed Blackwell/Ada Cluster] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag vergleicht die Performance von vLLM, SGLang und llama.cpp auf einem heterogenen 7-GPU-Cluster mit Blackwell und Ada-Karten. Es werden Benchmarks für long context prefill durchgeführt.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX PRO 6000 96GB, 1x RTX PRO 5000 48GB, 2x RTX 5090 32GB, 3x modded RTX 4090 48GB |
| CPU / Mainboard | N/A |
| RAM | N/A |
| PSU | N/A |
| Chassis / Kuehlung | N/A |
| Framework + Version | vLLM, SGLang, llama.cpp |
| Modell + Quant | Qwen3.6-35B-A3B (184k tokens), MiniMax-M2.7 (82k tokens), Qwen3.5-122B-A10B (75k tokens), Qwen3.5-397B-A17B (75k tokens) |
| Kontext-Laenge | 75k – 184k |
| tok/s (single) | vLLM: 18060 t/s, llama.cpp: 7405 t/s, SGLang: Crashed |
| tok/s (batched) | N/A |
| Strom (full load) | N/A |
| Rohkosten | N/A |
| Autarkie-Fit | JA |

Was funktioniert konkret? vLLM übertrifft die anderen Frameworks bei der Handhabung von langen Kontexten auf heterogenen GPU-Setups. SGLang ist effektiv auf reinen Blackwell-Setups, aber es fehlt die Kompatibilität mit Ada-Karten.

Was NICHT funktioniert / Limits: llama.cpp hat Schwierigkeiten mit Pipeline-Parallelismus und OOM-Fehlern bei hohen Kontext-Längen. SGLang kracht bei der Einführung von Ada-Karten.

Nachbau-Empfehlung: Würdest du das empfehlen? Ja, insbesondere für heterogene GPU-Setups. An wen (Budget-Level)? Für Budgets ab 10.000 EUR. Was muesste man anpassen? Die GPU-Verteilung und die spezifischen Einstellungen sollten an die Hardware angepasst werden.

Weitere Beiträge (kurz):

👁 11 Aufrufe 👤 9 Leser