Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks bietet aktuell eine Fülle von konkreten Setups und Benchmarks, die für den Bau eines lokalen KI-Systems hilfreich sind. Besonders hervorzuheben sind die Benchmarks von Qwen 3.6 27B auf verschiedenen GPUs, die MTP-Unterstützung in llama.cpp, und die Vergleiche verschiedener TTS-Modelle auf CPU. Diese Einträge bieten präzise Zahlen und praktische Erkenntnisse, die für den Bau eines OpenCode-tauglichen Systems wertvoll sind.

[Qwen 3.6 35B GGUF: NTP vs MTP Quantization Results Across GPUs and CPUs] (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Beitrag vergleicht die Quantisierungsergebnisse von Qwen 3.6 35B GGUF in NTP- und MTP-Varianten auf verschiedenen GPUs und CPUs. Es werden detaillierte Benchmarks und Empfehlungen für die beste Quantisierung je nach Hardware geliefert.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 4090, 5090, Pro 6000, 4080, 5060 Ti, Intel i7, Intel Ultra 7, Ryzen 9, Raspberry Pi 5 |
| CPU / Mainboard | N/A |
| RAM | N/A |
| PSU | N/A |
| Chassis / Kuehlung | N/A |
| Framework + Version | N/A |
| Modell + Quant | Qwen 3.6 35B GGUF (NTP, MTP) |
| Kontext-Länge | N/A |
| tok/s (single) | 20-40% Speedup mit MTP |
| tok/s (batched) | N/A |
| Strom (full load) | N/A |
| Rohkosten | N/A |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): MTP bietet auf GPUs eine durchschnittliche Geschwindigkeitssteigerung von 20-40%, wobei die Effekte stark workloadabhängig sind. NTP bleibt auf CPUs die bessere Wahl. Die größeren Quantisierungen (Q4, Q6) sind oft die beste Wahl, wenn sie in den Speicher passen, da sie sowohl in der Qualität als auch in der Geschwindigkeit überraschend gut abschneiden.

Was NICHT funktioniert / Limits (2-4 Sätze): MTP erhöht den Speicherverbrauch, was die Kompatibilität mit 16GB-GPUs und Raspberry Pi 5 einschränkt. MTP auf CPUs bringt keinen signifikanten Vorteil.

Nachbau-Empfehlung (2-4 Sätze): Die NTP-Quantisierungen sind für die meisten Anwendungen zu empfehlen, insbesondere wenn Speicher begrenzt ist. MTP kann für spezifische Workloads auf GPUs vorteilhaft sein, aber die Hardware sollte ausreichend Speicher haben.

[Qwen 3.6 27B on 24GB VRAM Setup: Backend Comparisons, Quant Choice and Settings (llama.cpp, ik_llama.cpp, BeeLlama, vllm)] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Beitrag vergleicht verschiedene Backends (llama.cpp, ik_llama.cpp, BeeLlama, vllm) für das Betreiben von Qwen 3.6 27B auf einer RTX 3090 24GB. Es werden detaillierte Benchmarks und Konfigurationsempfehlungen geliefert.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 3090 24GB |
| CPU / Mainboard | N/A |
| RAM | N/A |
| PSU | N/A |
| Chassis / Kuehlung | N/A |
| Framework + Version | ik_llama.cpp (4507) |
| Modell + Quant | Qwen3.6-27B-MTP-IQ4_KS.gguf |
| Kontext-Länge | 156k |
| tok/s (single) | 72.9 tok/s decode, 1261 tok/s prefill |
| tok/s (batched) | N/A |
| Strom (full load) | N/A |
| Rohkosten | N/A |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): ik_llama.cpp bietet die besten Leistungsresultate mit Qwen 3.6 27B, insbesondere bei langen Kontexten. Die Konfiguration mit MTP, q8_0 KV-Cache und 156k Kontext ermöglicht eine hohe Geschwindigkeit und gute Qualität.

Was NICHT funktioniert / Limits (2-4 Sätze): vLLM zeigte fließende OOM-Probleme bei hohen Kontexten, wodurch es für langfristige Anwendungen weniger geeignet ist. BeeLlama konnte die erwarteten Geschwindigkeiten nicht erreichen.

Nachbau-Empfehlung (2-4 Sätze): ik_llama.cpp ist die beste Wahl für die Betreibung von Qwen 3.6 27B auf einer RTX 3090 24GB, insbesondere für Anwendungen mit langen Kontexten. Die Konfiguration mit MTP und q8_0 KV-Cache ist zu empfehlen.

[Benchmarking vLLM vs SGLang vs llama.cpp on a Mixed Blackwell/Ada Cluster] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Beitrag vergleicht die Leistung von vLLM, SGLang und llama.cpp auf einem heterogenen 7-GPU-Cluster mit Blackwell und Ada-GPUs. Es werden detaillierte Benchmarks für verschiedene Modelle und Kontextlängen geliefert.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX PRO 6000 96GB, RTX PRO 5000 48GB, 2x RTX 5090 32GB, 3x modded RTX 4090 48GB |
| CPU / Mainboard | N/A |
| RAM | N/A |
| PSU | N/A |
| Chassis / Kuehlung | N/A |
| Framework + Version | vLLM, SGLang, llama.cpp |
| Modell + Quant | Qwen3.6-35B-A3B (184k tokens), MiniMax-M2.7 (82k tokens), Qwen3.5-122B-A10B (75k tokens), Qwen3.5-397B-A17B (75k tokens) |
| Kontext-Länge | 75k – 184k |
| tok/s (single) | vLLM: 18060 t/s (Qwen3.6-35B-A3B), 6212 t/s (MiniMax-M2.7), 15084 t/s (Qwen3.5-122B-A10B) |
| tok/s (batched) | N/A |
| Strom (full load) | N/A |
| Rohkosten | N/A |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): vLLM übertrifft die anderen Frameworks bei der Leistung auf heterogenen GPU-Clustern, insbesondere bei langen Kontexten. SGLang zeigt gute Ergebnisse auf reinen Blackwell-Setups, aber es fehlt die Kompatibilität mit Ada-GPUs. llama.cpp hat Schwierigkeiten mit Pipeline-Parallelismus und fällt in den Benchmarks zurück.

Was NICHT funktioniert / Limits (2-4 Sätze): llama.cpp hat Probleme mit der Pipeline-Parallelisierung, was zu erheblichen Leistungsverlusten führt. SGLang ist auf Blackwell-GPUs beschränkt und kann Ada-GPUs nicht verwenden.

Nachbau-Empfehlung (2-4 Sätze): vLLM ist die beste Wahl für heterogene GPU-Clustere, insbesondere für Anwendungen mit langen Kontexten. SGLang ist für reine Blackwell-Setups zu empfehlen, aber die Kompatibilität mit Ada-GPUs sollte berücksichtigt werden.

[Meet the Fleet of BlackBeard] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Beitrag stellt eine Reihe von selbstgebaute KI-Setups vor, darunter mehrere GPU- und CPU-basierte Systeme. Es werden detaillierte Hardware- und Software-Konfigurationen beschrieben.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 1070, RTX 5060 Ti, RTX 5090, 4x RTX 3090 |
| CPU / Mainboard | i3 7100, Ryzen 5600, Ryzen 5950X, Ryzen 9950X3D, Threadripper 1950X |
| RAM | 32GB DDR4, 64GB DDR4, 128GB DDR4, 256GB DDR5 |
| PSU | N/A |
| Chassis / Kuehlung | N/A |
| Framework + Version | N/A |
| Modell + Quant | N/A |
| Kontext-Länge | N/A |
| tok/s (single) | N/A |
| tok/s (batched) | N/A |
| Strom (full load) | N/A |
| Rohkosten | N/A |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? (3-5 Sätze): Die Systeme sind gut für verschiedene Anwendungen geeignet, von Archivierung bis hin zu komplexen KI-Aufgaben. Das System „Capt.’s ship“ mit RTX 5090 und 256GB RAM ist besonders leistungsfähig.

Was NICHT funktioniert / Limits (2-4 Sätze): Das System „Kraken“ ist noch im Aufbau und hat derzeit keine vollständige Hardware. Die Stromversorgung und Kühlung sind bei einigen Systemen kritisch.

Nachbau-Empfehlung (2-4 Sätze): Die Systeme bieten eine gute Grundlage für verschiedene KI-Aufgaben, aber die Stromversorgung und Kühlung sollten verbessert werden. Das System „Capt.’s ship“ ist besonders zu empfehlen, insbesondere für Anwendungen mit hohen Leistungsanforderungen.

Weitere Beiträge (kurz):

👁 0 Aufrufe 👤 0 Leser