Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete Build-Berichte und Benchmarks von Community-Usern, die ihre lokalen KI-Setups dokumentieren. In dieser Woche gibt es einige besonders belegte und nachbaubare Setups, darunter ein 35B MoE-Modell auf einem 16 GB GPU, Qwen3.6-27B auf einem RTX 5090, und Gemma4 QAT + MTP auf einem RTX 3090. Diese Einträge bieten detaillierte Informationen über Hardware, Modelle, Frameworks und Leistungsdaten, die für den Aufbau eines eigenen lokalen KI-Setups hilfreich sind.

Luce Spark: a 35B MoE on a 16 GB GPU, without the offload tax (8/10) — OpenCode-Fit: JA

Worum es geht: Der Beitrag beschreibt, wie man ein 35B MoE-Modell (Qwen3.6 35B-A3B und Laguna XS.2 33B-A3B) auf einem 16 GB GPU (RTX 3090) laufen lassen kann, ohne die üblichen Leistungsprobleme durch Offloading. Die Methode verwendet Spark, ein System, das die häufigsten Experten im GPU-Speicher hält und die weniger häufigen Experten in den Systemspeicher verschiebt.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Spark ermöglicht es, 35B MoE-Modelle auf einem 16 GB GPU laufen zu lassen, ohne signifikante Leistungsverluste. Die Methode verwendet eine intelligente Cache-Strategie, die die häufigsten Experten im GPU-Speicher hält und die weniger häufigen Experten in den Systemspeicher verschiebt. Dies führt zu einer durchschnittlichen Geschwindigkeit von 119 tok/s bei voller Residenz und 100 tok/s bei 60% Residenz.

Was NICHT funktioniert / Limits: Die Methode erfordert eine gewisse Anpassung und Konfiguration, insbesondere die Einstellung der Cache-Größe und der Lernrate. Es gibt keine direkte Unterstützung für andere Frameworks oder Modelle, aber die Grundidee ist universell anwendbar.

Nachbau-Empfehlung: Dieses Setup ist besonders für Benutzer mit 16 GB GPUs geeignet, die 35B MoE-Modelle laufen lassen möchten. Es erfordert einiges an technischem Know-how, aber die Leistungsgewinne sind beachtlich. Für Anfänger könnte eine detailliertere Anleitung hilfreich sein.

Weitere Beitraege (automatisch gefiltert):
– [[3090]() — zu duenne Description, keine nachbaubaren Daten
– [[Benchmark]() — zu duenne Description, keine nachbaubaren Daten
– Weird to get near linear scaling by adding another GPU? — keine konkreten Messwerte, keine nachbaubaren Daten

👁 2 Aufrufe 👤 2 Leser