Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für echte, funktionierende KI-Setups, die von Community-Usern dokumentiert werden. Diese Woche gibt es besonders interessante Beiträge zu Setup-Benchmarking, Optimierungen und praktischen Anwendungen. Ein Leser kann heute Abend mit konkreten Vorschlägen für ein nachbaubares Setup starten, das OpenCode-ähnliche Leistungen bietet.

[Luce Spark: a 35B MoE on a 16 GB GPU, without the offload tax] (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht (2-4 Sätze): Der Beitrag beschreibt, wie man ein 33-35B MoE-Modell auf einem 16 GB GPU (RTX 3090) betreiben kann, ohne die Leistung durch Offloading zu beeinträchtigen. Die Technik, genannt „Spark“, optimiert die Speicherplatzierung der Experten und erreicht dabei hohe Token-Raten.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | Lucebox-Hub (Apache2.0) |
| Modell + Quant | Qwen3.6 35B-A3B, Laguna XS.2 33B-A3B |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | 119 tok/s (full residency), 100 tok/s (60% residency) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): Luce Spark ermöglicht es, große MoE-Modelle wie Qwen3.6 35B-A3B und Laguna XS.2 33B-A3B auf einem 16 GB GPU zu betreiben, ohne dass die Leistung durch Offloading stark beeinträchtigt wird. Die Technik optimiert die Speicherplatzierung der Experten, sodass die meisten häufig verwendeten Experten auf der GPU bleiben und nur selten verwendete Experten in den System-RAM ausgelagert werden. Dies führt zu Token-Raten von bis zu 119 tok/s bei voller Residenz und 100 tok/s bei 60% Residenz.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Methode ist spezifisch für MoE-Modelle und erfordert eine genaue Kalibrierung der Experten-Platzierung. Die Leistung kann bei kleineren Modellen oder anderen Architekturen variieren. Die Autarkie-Fähigkeit ist gegeben, da das Setup in einem privaten Haushalt betrieben werden kann.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Benutzer geeignet, die große MoE-Modelle auf einer 16 GB GPU betreiben möchten. Es erfordert jedoch ein gewisses Maß an technischem Verständnis, um die Kalibrierung und die Platzierung der Experten zu optimieren. Für Anfänger könnte ein einfacheres Setup mit gängigen Modellen wie Qwen 3.6 27B empfehlenswerter sein.


Weitere Beitraege (automatisch gefiltert):
[3090 — zu duenne Description, keine nachbaubaren Daten
[Benchmark — zu duenne Description, keine nachbaubaren Daten

👁 3 Aufrufe 👤 3 Leser