Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für echte, funktionierende KI-Setups, die von Community-Usern dokumentiert werden. In dieser Woche sind besonders die Einträge zu Qwen3.6-35B-A3B auf verschiedenen GPUs sowie die Erfahrungen mit MoE-Modellen im Fokus. Ein Leser kann heute Abend mit konkreten Beispielen von 30- bis 122-Milliarden-Parameter-Modellen starten, die auf 1-4 GPUs laufen.
[Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM)] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Beitrag beschreibt die neuesten Ergebnisse des LLM-Runtimes Krasis, der Modelle laufen lässt, die nicht in die VRAM passen. Es werden verschiedene GPUs und Modelle getestet, darunter Qwen3.6-35B-A3B auf einem Laptop mit RTX 3070 Mobile und auf stärkeren GPUs wie RTX 5090.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3070 Mobile 8GB, 1x RTX 5080 16GB, 1x RTX A4500 20GB, 1x RTX 5090 32GB |
| CPU / Mainboard | Laptop (32GB RAM), Threadripper Pro, EPYC 7302P |
| RAM | 32GB (Laptop), 512GB (Server) |
| PSU | Nicht spezifiziert |
| Chassis / Kuehlung | Nicht spezifiziert |
| Framework + Version | Krasis v1.0 |
| Modell + Quant | Qwen3.6-35B-A3B (HQQ4, k4v4), Qwen3-Coder-Next (HQQ6, k4v4) |
| Kontext-Laenge | 222 pp, 12.48 tg (3070 Mobile), 10,030 pp, 124.9 tg (5090) |
| tok/s (single) | 12.48 tok/s (3070 Mobile), 124.9 tok/s (5090) |
| tok/s (batched) | Nicht spezifiziert |
| Strom (full load) | Nicht spezifiziert |
| Rohkosten | Nicht spezifiziert |
| Autarkie-Fit | JA |
Was funktioniert konkret? Krasis ermöglicht es, große Modelle wie Qwen3.6-35B-A3B auf GPUs mit begrenzter VRAM laufen zu lassen. Die Benchmarks zeigen, dass selbst auf einem Laptop mit 8GB VRAM ein durchschnittlicher Durchsatz von 12.48 tok/s erreicht werden kann. Auf stärkeren GPUs wie dem RTX 5090 steigt der Durchsatz auf 124.9 tok/s.
Was NICHT funktioniert / Limits: Die Benchmarks repräsentieren die besten Durchsatzwerte, nicht den Durchschnitt. Die Leistung kann je nach Prompt-Länge variieren. Die Unterstützung für Ampere-GPUs wurde verbessert, aber es gibt immer noch Optimierungspotenzial.
Nachbau-Empfehlung: Dieses Setup ist besonders für Benutzer geeignet, die mit begrenzter VRAM arbeiten und trotzdem große Modelle laufen lassen möchten. Die Verwendung von Krasis kann die Leistung erheblich verbessern, insbesondere auf mobilen Geräten.
[DeepSeek V4 Flash at 8.4 tok/s on 3×3090: patching the GGUFs that won’t load on cchuter’s llama.cpp fork] (7/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Beitrag beschreibt, wie man DeepSeek V4 Flash lokal auf 3x RTX 3090 laufen lassen kann. Es wird erklärt, wie man GGUF-Dateien patchen kann, die auf der aktuellen llama.cpp-Fork nicht laden.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 3x RTX 3090 (72GB VRAM total) |
| CPU / Mainboard | 24-core Threadripper |
| RAM | 128GB DDR4 |
| PSU | Nicht spezifiziert |
| Chassis / Kuehlung | Nicht spezifiziert |
| Framework + Version | cchuter/llama.cpp @ feat/v4-port-cuda |
| Modell + Quant | DeepSeek V4 Flash (lovedheart MXFP4_MOE) |
| Kontext-Laenge | Nicht spezifiziert |
| tok/s (single) | ~8.4 tok/s |
| tok/s (batched) | Nicht spezifiziert |
| Strom (full load) | Nicht spezifiziert |
| Rohkosten | Nicht spezifiziert |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? DeepSeek V4 Flash läuft lokal auf 3x RTX 3090 mit einer Geschwindigkeit von etwa 8.4 tok/s. Die Patches ermöglichen es, GGUF-Dateien zu laden, die auf der aktuellen llama.cpp-Fork nicht funktionieren.
Was NICHT funktioniert / Limits: Die Benchmarks zeigen, dass die Leistung bei längeren Prompts abnimmt. Die Verwendung von MoE-Modellen erfordert spezifische Patches und kann komplex sein.
Nachbau-Empfehlung: Dieses Setup ist für Benutzer geeignet, die mit MoE-Modellen arbeiten möchten und bereit sind, technische Herausforderungen zu meistern. Die Patches sind notwendig, um die Modelle laufen zu lassen, aber die Leistung kann variieren.
[Update on 12x32gb sxm v100 cluster / local AI for legal drafting] (9/10) — OpenCode-Fit: JA
Worum es geht: Der Beitrag beschreibt die Aktualisierung eines 12x32GB SXM V100-Clusters für die lokale KI-gestützte Rechtsdokumentation. Es wird erklärt, wie das Setup optimiert wurde und welche Modelle am besten funktionieren.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 12x V100-SXM2 32GB, 4x RTX 3090, 2x V100-PCIe 16GB |
| CPU / Mainboard | Threadripper Pro, EPYC 7302P |
| RAM | 512GB (Threadripper Pro), 512GB (EPYC 7302P) |
| PSU | Nicht spezifiziert |
| Chassis / Kuehlung | Nicht spezifiziert |
| Framework + Version | llama.cpp (mainline) |
| Modell + Quant | Gemma-4-26B-A4B MoE (Q8 GGUF, Q4 KV cache), Qwen3.6-35B-A3B MoE (Q8 GGUF, Q4 KV cache) |
| Kontext-Laenge | ~113 tok/s (Gemma-4-26B-A4B), ~82 tok/s (Qwen3.6-35B-A3B) |
| tok/s (single) | ~113 tok/s (Gemma-4-26B-A4B), ~82 tok/s (Qwen3.6-35B-A3B) |
| tok/s (batched) | Nicht spezifiziert |
| Strom (full load) | Nicht spezifiziert |
| Rohkosten | Nicht spezifiziert |
| Autarkie-Fit | JA |
Was funktioniert konkret? Das Setup ermöglicht es, MoE-Modelle wie Gemma-4-26B-A4B und Qwen3.6-35B-A3B lokal zu laufen, wobei die Leistung bei längeren Kontexten stabil bleibt. Die Verwendung von MoE-Modellen führt zu einer erheblichen Geschwindigkeitssteigerung im Vergleich zu dichten Modellen.
Was NICHT funktioniert / Limits: Die Leistung von dichten Modellen fällt bei längeren Kontexten ab. Die Verwendung von NVLink-Boards ist erforderlich, um die Leistung zu maximieren.
Nachbau-Empfehlung: Dieses Setup ist besonders für Benutzer geeignet, die mit großen MoE-Modellen arbeiten möchten und eine hohe Leistung bei längeren Kontexten benötigen. Die Verwendung von NVLink-Boards und MoE-Modellen ist empfehlenswert.
[Custom 4x RTX PRO 6000 Blackwell server vs Dell GB300 for ~30 fine-tuned production pipelines — looking for honest input on direction] (6/10) — OpenCode-Fit: BEDINGT
Worum es geht: Der Beitrag vergleicht ein benutzerdefiniertes 4x RTX PRO 6000 Blackwell-Server-Setup mit einem Dell GB300-Server für die lokale KI-Inferenz. Es werden die Vor- und Nachteile beider Optionen diskutiert.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 4x RTX PRO 6000 Blackwell (384GB VRAM total) |
| CPU / Mainboard | Dual AMD EPYC 9354 (32-core each) or 9554 (64-core each) |
| RAM | 512GB DDR5-4800 ECC RDIMM, expandable to 1.5TB |
| PSU | 4x 3000W 80+ Titanium redundant |
| Chassis / Kuehlung | 4U server with 8 PCIe Gen 5 x16 GPU slots |
| Framework + Version | vLLM, TensorRT-LLM |
| Modell + Quant | Nicht spezifiziert |
| Kontext-Laenge | Nicht spezifiziert |
| tok/s (single) | Nicht spezifiziert |
| tok/s (batched) | Nicht spezifiziert |
| Strom (full load) | ~8-10 kW full load at 8 GPUs |
| Rohkosten | ~$64K-$84K (Phase A), ~$44K-$54K (Phase B), ~$108K-$138K (fully built out) |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? Beide Optionen bieten eine hohe Leistung für die lokale KI-Inferenz. Das benutzerdefinierte Setup ist flexibler und kann auf 8 GPUs erweitert werden, während der Dell-Server eine ausgereifte Lösung mit geringerem Management-Aufwand bietet.
Was NICHT funktioniert / Limits: Die Entscheidung hängt von den spezifischen Anforderungen ab. Das benutzerdefinierte Setup erfordert mehr Management und Wartung, während der Dell-Server eine höhere Anschaffungskosten hat.
Nachbau-Empfehlung: Dieses Setup ist für Unternehmen geeignet, die eine hohe Leistung und Flexibilität benötigen. Die Wahl zwischen benutzerdefiniertem und vorgefertigtem Setup hängt von den spezifischen Anforderungen und Ressourcen ab.
Weitere Beiträge (kurz):
– How do I make MTP work in llama-server? — keine Hardware belegt, reine Problem-Frage ohne Lösung
– The reason small-model agent stacks aren’t the default has nothing to do with whether they work — keine Hardware belegt, reine Diskussion
– Qwen Plays ̶p̶̶o̶̶k̶̶e̶̶m̶̶o̶̶n̶ ? / QWEN PLAYS DCSS! – qwen3.6-35b-a3b@q4_k_xl plays open source roguelike adventure DCSS (and does a decent job) — keine Hardware belegt, reine Demonstration
– TTS Benchmark Comparison (all known TTS up until May 2026) — keine Hardware belegt, reine Benchmarking
– If you’re missing Jeeves, you might want to check out my weekend project. — keine Hardware belegt, reine Demonstration
– Any reason to run dense over MOE for RAGs? — keine Hardware belegt, reine Diskussion
– I added native MTP to exo for Qwen3.6 MLX models; here are the exactness and speed results — keine Hardware belegt, reine Technikdiskussion