Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete Build-Berichte und Benchmarks von Community-Usern, die ihre lokalen KI-Setups dokumentieren. In dieser Woche gibt es einige besonders belegte und nachbaubare Setups, darunter ein 35B MoE-Modell auf einem 16 GB GPU, Qwen3.6-27B auf einem RTX 5090, und Gemma4 QAT + MTP auf einem RTX 3090. Diese Einträge bieten detaillierte Informationen über Hardware, Modelle, Frameworks und Leistungsdaten, die für den Aufbau eines eigenen lokalen KI-Setups hilfreich sind.
Luce Spark: a 35B MoE on a 16 GB GPU, without the offload tax (8/10) — OpenCode-Fit: JA

Worum es geht: Der Beitrag beschreibt, wie man ein 35B MoE-Modell (Qwen3.6 35B-A3B und Laguna XS.2 33B-A3B) auf einem 16 GB GPU (RTX 3090) laufen lassen kann, ohne die üblichen Leistungsprobleme durch Offloading. Die Methode verwendet Spark, ein System, das die häufigsten Experten im GPU-Speicher hält und die weniger häufigen Experten in den Systemspeicher verschiebt.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 3090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | dflash_server (nicht spezifische Version) |
| Modell + Quant | Qwen3.6 35B-A3B Q4_K, Laguna XS.2 33B-A3B Q4_K |
| Kontext-Laenge | 16 GiB (unter 16 GiB) |
| tok/s (single) | 119 tok/s (full residency), 100 tok/s (60% residency) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Spark ermöglicht es, 35B MoE-Modelle auf einem 16 GB GPU laufen zu lassen, ohne signifikante Leistungsverluste. Die Methode verwendet eine intelligente Cache-Strategie, die die häufigsten Experten im GPU-Speicher hält und die weniger häufigen Experten in den Systemspeicher verschiebt. Dies führt zu einer durchschnittlichen Geschwindigkeit von 119 tok/s bei voller Residenz und 100 tok/s bei 60% Residenz.
Was NICHT funktioniert / Limits: Die Methode erfordert eine gewisse Anpassung und Konfiguration, insbesondere die Einstellung der Cache-Größe und der Lernrate. Es gibt keine direkte Unterstützung für andere Frameworks oder Modelle, aber die Grundidee ist universell anwendbar.
Nachbau-Empfehlung: Dieses Setup ist besonders für Benutzer mit 16 GB GPUs geeignet, die 35B MoE-Modelle laufen lassen möchten. Es erfordert einiges an technischem Know-how, aber die Leistungsgewinne sind beachtlich. Für Anfänger könnte eine detailliertere Anleitung hilfreich sein.
Weitere Beitraege (automatisch gefiltert):
– [[3090]() — zu duenne Description, keine nachbaubaren Daten
– [[Benchmark]() — zu duenne Description, keine nachbaubaren Daten
– Weird to get near linear scaling by adding another GPU? — keine konkreten Messwerte, keine nachbaubaren Daten