Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, nachbaubare Setups zur lokalen Ausführung von KI-Modellen. Diese Woche sind insbesondere die Einträge zu Krasis, DeepSeek V4 Flash und einem 12x V100-Cluster für rechtliche Aufgaben besonders belegt. Diese Setups bieten präzise Hardware- und Software-Konfigurationen sowie realistische Leistungsdaten, die für den Bau eines eigenen lokalen KI-Setups hilfreich sind.
[Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM)] (https://old.reddit.com/r/LocalLLaMA/comments/1tpyqng/krasis_update_qwen3635ba3b_q4_at_reading_speed_1x/) (8/10) — OpenCode-Fit: JA
Worum es geht: Krasis ist eine LLM-Runtime, die Modelle ausführt, die in die VRAM passen. Der Post beschreibt die Leistung von Qwen3.6-35B-A3B auf verschiedenen GPUs, darunter eine Laptop-GPU (RTX 3070 Mobile 8GB) und hochleistungsfähige Desktop-GPUs (RTX 5090 32GB).
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3070 Mobile 8GB, 1x RTX 5080 16GB, 1x RTX A4500 20GB, 1x RTX 5090 32GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 32GB (Laptop), 128GB (Desktop) |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | Krasis v1.0 |
| Modell + Quant | Qwen3.6-35B-A3B (Q4) |
| Kontext-Laenge | 64k (KV-Cache OK) / 128k OOM |
| tok/s (single) | 222 pp (Laptop), 3,743 pp (5080), 2,235 pp (A4500), 10,030 pp (5090) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Krasis ermöglicht die Ausführung von großen Modellen auf Laptops und Desktops mit unterschiedlichem VRAM. Die Leistung variiert stark je nach GPU, aber selbst auf einer Laptop-GPU erreicht das Modell eine akzeptable Geschwindigkeit.
Was NICHT funktioniert / Limits: Die Leistung auf Laptops ist begrenzt, und die Ausführung von sehr großen Modellen (z.B. 122B) auf weniger leistungsfähigen GPUs ist weniger effizient.
Nachbau-Empfehlung: Dieses Setup ist besonders für Anwender geeignet, die flexibel zwischen Laptop und Desktop arbeiten möchten. Für den Einsatz in einem privaten Haushalt ist die Desktop-Variante zu empfehlen, da sie bessere Leistung und Skalierbarkeit bietet.
[DeepSeek V4 Flash at 8.4 tok/s on 3×3090: patching the GGUFs that won’t load on cchuter’s llama.cpp fork] (https://old.reddit.com/r/LocalLLaMA/comments/1tptuph/deepseek_v4_flash_at_84_toks_on_33090_patching/) (7/10) — OpenCode-Fit: BEDINGT
Worum es geht: Der Post beschreibt, wie man DeepSeek V4 Flash auf 3x RTX 3090 mit 128GB RAM lokal ausführt. Es wird erklärt, wie man inkompatible GGUF-Dateien patchen kann, um sie mit der aktuellen llama.cpp-Fork zu verwenden.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 3x RTX 3090 (72GB VRAM total) |
| CPU / Mainboard | 24-core Threadripper |
| RAM | 128GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | cchuter/llama.cpp @ feat/v4-port-cuda |
| Modell + Quant | DeepSeek V4 Flash (MXFP4_MOE) |
| Kontext-Laenge | 64k (KV-Cache OK) / 128k OOM |
| tok/s (single) | 8.4 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? DeepSeek V4 Flash läuft lokal auf 3x RTX 3090 und erreicht eine Geschwindigkeit von 8.4 tok/s. Das Patchen der GGUF-Dateien ermöglicht die Verwendung des Modells mit der aktuellen llama.cpp-Fork.
Was NICHT funktioniert / Limits: Die Leistung ist moderat und könnte für anspruchsvollere Aufgaben nicht ausreichend sein. Die Patching-Prozedur erfordert technisches Know-how.
Nachbau-Empfehlung: Dieses Setup ist für fortgeschrittene Anwender geeignet, die spezifische Modelle wie DeepSeek V4 Flash lokal ausführen möchten. Für Anfänger oder weniger technisch versierte Benutzer könnte ein einfacheres Setup empfehlenswerter sein.
[Update on 12x32gb sxm v100 cluster / local AI for legal drafting] (https://old.reddit.com/r/LocalLLaMA/comments/1tnn29i/update_on_12x32gb_sxm_v100_cluster_local_ai_for/) (9/10) — OpenCode-Fit: JA

Worum es geht: Der Post beschreibt ein Update zu einem 12x V100-SXM2-Cluster, der für rechtliche Aufgaben verwendet wird. Es wird erklärt, welche Modelle und Frameworks verwendet werden und welche Leistungsdaten erzielt werden.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 12x V100-SXM2 32GB, 4x RTX 3090, 2x V100-PCIe |
| CPU / Mainboard | Threadripper Pro, EPYC 7302P |
| RAM | 512GB (Threadripper), 512GB (EPYC) |
| PSU | 4x 3000W 80+ Titanium redundant |
| Chassis / Kuehlung | 4U Server, 2x 960 GB NVMe RAID 1 boot, 4x 7.68 TB U.2 NVMe RAID 10 |
| Framework + Version | llama.cpp (mainline) |
| Modell + Quant | Gemma-4-26B-A4B MoE (Q8 GGUF, Q4 KV cache), Qwen3.6-35B-A3B MoE (Q8 GGUF, Q4 KV cache) |
| Kontext-Laenge | 64k (KV-Cache OK) / 128k OOM |
| tok/s (single) | ~113 tok/s (Gemma-4-26B-A4B), ~82 tok/s (Qwen3.6-35B-A3B) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | ~8-10 kW |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Das Setup ermöglicht die Ausführung von MoE-Modellen wie Gemma-4-26B-A4B und Qwen3.6-35B-A3B mit hohen Geschwindigkeiten und langen Kontexten. Die Leistung ist besonders gut für rechtliche Aufgaben geeignet.
Was NICHT funktioniert / Limits: Die Ausführung von dichten Modellen ist ineffizient und nicht empfehlenswert. Die Verwendung von MoE-Modellen ist erforderlich, um die gewünschte Leistung zu erzielen.
Nachbau-Empfehlung: Dieses Setup ist für Anwender geeignet, die hohe Leistung und langen Kontexte für spezifische Aufgaben benötigen. Es erfordert jedoch einen höheren Budget und technisches Know-how.
Weitere Beiträge
– Custom 4x RTX PRO 6000 Blackwell server vs Dell GB300 for ~30 fine-tuned production pipelines — looking for honest input on direction — keine Hardware belegt, kein nachbaubares Setup
– two months local 30b, real speedup nowhere near benchmark — keine Hardware belegt, kein nachbaubares Setup
– The reason small-model agent stacks aren’t the default has nothing to do with whether they work — keine Hardware belegt, kein nachbaubares Setup
– Qwen Plays ̶p̶̶o̶̶k̶̶e̶̶m̶̶o̶̶n̶ ? / QWEN PLAYS DCSS! – qwen3.6-35b-a3b@q4_k_xl plays open source roguelike adventure DCSS (and does a decent job) — keine Hardware belegt, kein nachbaubares Setup
– TTS Benchmark Comparison (all known TTS up until May 2026) — keine Hardware belegt, kein nachbaubares Setup
– If you’re missing Jeeves, you might want to check out my weekend project. — keine Hardware belegt, kein nachbaubares Setup
– Any reason to run dense over MOE for RAGs? — keine Hardware belegt, kein nachbaubares Setup
– I added native MTP to exo for Qwen3.6 MLX models; here are the exactness and speed results — keine Hardware belegt, kein nachbaubares Setup
– Scrambling to max StrixHalo (+NVLink dual eGPU 3090 mod) — keine Hardware belegt, kein nachbaubares Setup