Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Benchmarks und Build-Berichten geprägt. Besonders hervorzuheben sind die Benchmarks von Qwen 3.6 27B auf verschiedenen GPUs, die MTP-Unterstützung in llama.cpp und die Vergleiche von verschiedenen Frameworks wie vLLM, SGLang und llama.cpp auf heterogenen GPU-Clustern. Diese Woche können Leser konkrete Zahlen und Empfehlungen für ihre eigenen lokalen KI-Setups finden.

[Qwen 3.6 35B GGUF: NTP vs MTP quantization results across GPUs and CPUs] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Beitrag vergleicht die Quantisierung von Qwen 3.6 35B GGUF in NTP (Next Token Prediction) und MTP (Multi-Token Prediction) auf verschiedenen GPUs und CPUs. Es werden Benchmarks für RTX 4090, 5090, Pro 6000, 4080, 5060 Ti sowie Intel i7, Intel Ultra 7, Ryzen 9 und Raspberry Pi 5 durchgeführt.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 4090, 5090, Pro 6000, 4080, 5060 Ti, Intel i7, Intel Ultra 7, Ryzen 9, Raspberry Pi 5 |
| CPU / Mainboard | N/A |
| RAM | N/A |
| PSU | N/A |
| Chassis / Kuehlung | N/A |
| Framework + Version | N/A |
| Modell + Quant | Qwen 3.6 35B GGUF (NTP, MTP) |
| Kontext-Laenge | 64k (KV-Cache OK) / 128k OOM |
| tok/s (single) | 20-40 tok/s (MTP) |
| tok/s (batched) | N/A |
| Strom (full load) | N/A |
| Rohkosten | N/A |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): MTP bietet auf GPUs eine signifikante Geschwindigkeitssteigerung von 20-40% im Vergleich zu NTP. Die größeren Quantisierungen (Qwen 3.6 35B) sind oft genauso schnell oder sogar schneller als kleinere Varianten, solange sie in den Speicher passen. Dies macht sie für OpenCode-Workloads tauglich.

Was NICHT funktioniert / Limits (2-4 Sätze): MTP erhöht den Speicherverbrauch, was bei 16GB-GPUs und Raspberry Pi 5 zu Problemen führen kann. CPU-MTP ist weniger effektiv und wird daher nicht empfohlen.

Nachbau-Empfehlung (2-4 Sätze): Würde ich empfehlen, insbesondere für Benutzer mit 24GB-GPUs oder höher. Anpassungen sind erforderlich, um den Speicherverbrauch zu optimieren, insbesondere bei kleineren GPUs.

[Qwen 3.6 27B on 24GB VRAM setup: backend comparisons, quant choice and settings (llama.cpp, ik_llama.cpp, BeeLlama, vllm)] (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Beitrag vergleicht verschiedene Backends (llama.cpp, ik_llama.cpp, BeeLlama, vLLM) für das Betreiben von Qwen 3.6 27B auf einem RTX 3090 24GB. Es werden die besten Einstellungen und Quantisierungen für hohe Leistung und Kontextlänge getestet.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): ik_llama.cpp erzielt die besten Ergebnisse mit Qwen 3.6 27B-MTP-IQ4_KS.gguf. Es ermöglicht eine Kontextlänge von 156k und erreicht 72.9 tok/s bei der Dekodierung und 1261 tok/s bei der Prefill. Die Einstellungen sind gut für OpenCode-Workloads geeignet.

Was NICHT funktioniert / Limits (2-4 Sätze): vLLM hat Probleme mit OOM-Fehlern bei hohen Kontextlängen. llama.cpp und BeeLlama erreichen zwar gute Ergebnisse, aber nicht so gute wie ik_llama.cpp.

Nachbau-Empfehlung (2-4 Sätze): Würde ich empfehlen, insbesondere für Benutzer mit 24GB-GPUs. Die Einstellungen und Quantisierungen sind gut dokumentiert und leicht nachzubauen.

[Benchmarking vLLM vs SGLang vs llama.cpp on a mixed Blackwell/Ada cluster] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Beitrag vergleicht die Leistung von vLLM, SGLang und llama.cpp auf einem heterogenen 7-GPU-Cluster mit Blackwell und Ada-Karten. Es werden Benchmarks für verschiedene Modelle und Kontextlängen durchgeführt.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): vLLM übertrifft die anderen Frameworks bei der Leistung auf heterogenen GPU-Clustern, insbesondere bei langen Kontexten. Es erzielt signifikant höhere Prefill- und Dekodierungsraten. SGLang ist fast ebenso schnell wie vLLM auf reinen Blackwell-Setups.

Was NICHT funktioniert / Limits (2-4 Sätze): llama.cpp hat Probleme mit Pipeline-Parallelismus und erzielt deutlich schlechtere Ergebnisse. SGLang kracht bei der Einführung von Ada-Karten.

Nachbau-Empfehlung (2-4 Sätze): Würde ich empfehlen, insbesondere für Benutzer mit heterogenen GPU-Clustern. vLLM ist die beste Wahl für hohe Leistung und Stabilität.

[Meet the Fleet of BlackBeard] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Beitrag stellt das vollständige AI-Setup von BlackBeard vor, das aus mehreren Rechnern mit verschiedenen GPUs besteht. Es wird beschrieben, wie die Rechner für verschiedene Aufgaben genutzt werden.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 1070, RTX 5060 Ti, RTX 5090, 4x RTX 3090 |
| CPU / Mainboard | i3 7100, Ryzen 5600, Ryzen 5950x, Ryzen 9950x3d, Threadripper 1950x |
| RAM | 32GB, 64GB, 128GB, 256GB |
| PSU | N/A |
| Chassis / Kuehlung | N/A |
| Framework + Version | N/A |
| Modell + Quant | N/A |
| Kontext-Laenge | N/A |
| tok/s (single) | N/A |
| tok/s (batched) | N/A |
| Strom (full load) | N/A |
| Rohkosten | N/A |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? (3-5 Sätze): Das Setup von BlackBeard ist vielseitig und kann für verschiedene AI-Aufgaben genutzt werden. Es ist gut für Archivierung, Modelltraining und Inference geeignet.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Rechner sind unterschiedlich stark und nicht alle sind für hochleistungsfähige KI-Workloads optimiert. Die Kraken-Setup mit 4x RTX 3090 ist noch im Aufbau.

Nachbau-Empfehlung (2-4 Sätze): Würde ich bedingt empfehlen, insbesondere für Benutzer mit einem breiten Spektrum an AI-Aufgaben. Die Rechner müssen je nach Anwendung angepasst werden.

Weitere Beiträge (kurz):

👁 7 Aufrufe 👤 4 Leser