Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist der Ort, an dem Community-User ihre lokalen KI-Setups dokumentieren und benchmarken. Diese Woche sind besonders die Einträge zu Qwen3.6-35B-A3B auf 3090-GPUs, ein 12x V100-Cluster für juristische Anwendungen und ein 4x RTX PRO 6000 Blackwell-Server hervorzuheben. Diese Beiträge bieten konkrete Zahlen und praktische Erkenntnisse, die für den Bau eines eigenen lokalen KI-Setups hilfreich sind.
[Cost Analysis of my $6.4k Local LLM Server] (7/10) — OpenCode-Fit: BEDINGT
Worum es geht (2-4 Sätze): Der Autor teilt seine Kostenanalyse eines lokalen LLM-Servers, der mit 4x MI100 32GB-GPUs, einem Epyc 7k62 CPU und 8x8GB DDR4 ECC RAM gebaut wurde. Das Setup läuft mit llama.cpp und verarbeitet täglich 20.4M Eingabetoken und 1.32M Ausgabetoken. Die API-Äquivalenzkosten betragen jährlich $3701.10.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 4x MI100 32GB |
| CPU / Mainboard | Epyc 7k62 + Asrock EPYCD8-2T |
| RAM | 8x8GB DDR4 ECC RDIMMs |
| PSU | 1600W 80+ Plat PSU |
| Chassis / Kuehlung | ATX Case |
| Framework + Version | llama.cpp (latest ROCm) |
| Modell + Quant | Qwen3.6 27B |
| Kontext-Laenge | 64k (KV-Cache OK) |
| tok/s (single) | 20.4M input tokens, 1.32M output tokens per day |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | ~600W |
| Rohkosten | $6406.45 |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Das Setup läuft stabil und verarbeitet täglich eine hohe Anzahl von Tokens. Die API-Äquivalenzkosten sind signifikant niedriger als die Kosten für einen Cloud-Service. Es ist besonders für business-relevante Workloads geeignet, die eine hohe Token-Verarbeitung erfordern.
Was NICHT funktioniert / Limits (2-4 Sätze): Das Setup ist für sehr spezifische Workloads optimiert und könnte bei anderen Aufgaben langsamer sein. Die GPU-Verfügbarkeit und -Preise können variieren, was die Nachbaukosten beeinflusst.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Unternehmen oder Personen geeignet, die eine hohe Token-Verarbeitung benötigen und langfristig Geld sparen möchten. Für Privatanwender könnte es zu teuer sein, aber es bietet eine gute Grundlage für die Planung eines eigenen lokalen KI-Setups.
[Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM)] (8/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Autor berichtet über die neuesten Ergebnisse des Krasis-Laufzeitsystems, das Modelle mit mehr Parametern als VRAM verfügbar ist, effizient streamen kann. Es wird gezeigt, wie Qwen3.6-35B-A3B auf verschiedenen GPUs läuft, darunter ein 8GB 3070 Mobile-Laptop und ein 32GB 5090.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3070 Mobile 8GB, 1x RTX 5090 32GB |
| CPU / Mainboard | 3070 Mobile: Laptop, 5090: Desktop |
| RAM | 32GB (Laptop), 32GB (Desktop) |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | Laptop, Desktop |
| Framework + Version | Krasis v1.0 |
| Modell + Quant | Qwen3.6-35B-A3B (HQQ4, k4v4) |
| Kontext-Laenge | 64k (KV-Cache OK) |
| tok/s (single) | 12.48 tok/s (3070 Mobile), 124.9 tok/s (5090) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Krasis ermöglicht es, große Modelle wie Qwen3.6-35B-A3B auf Geräten mit begrenztem VRAM zu laufen. Die Performance ist beeindruckend, insbesondere auf modernen GPUs wie dem RTX 5090. Das System ist besonders für Anwendungen geeignet, die eine hohe Kontextlänge erfordern.
Was NICHT funktioniert / Limits (2-4 Sätze): Das Setup ist noch in der Entwicklung und könnte bei sehr langen Prompten langsamer werden. Die Performance auf älteren oder weniger leistungsfähigen GPUs ist begrenzt.
Nachbau-Empfehlung (2-4 Sätze): Krasis ist eine ausgezeichnete Wahl für Anwender, die große Modelle auf Geräten mit begrenztem VRAM laufen lassen möchten. Es ist besonders für Entwickler und Forscher geeignet, die flexibel und effizient arbeiten müssen.
[DeepSeek V4 Flash at 8.4 tok/s on 3×3090: patching the GGUFs that won’t load on cchuter’s llama.cpp fork] (7/10) — OpenCode-Fit: JA
Worum es geht (2-4 Sätze): Der Autor beschreibt, wie er DeepSeek V4 Flash auf 3x RTX 3090 laufen lässt und dabei auf Probleme mit inkompatiblen GGUF-Dateien stößt. Er teilt eine Python-Skript-Lösung, um diese Dateien zu patchen, sodass sie auf dem cchuter-llama.cpp-Fork laufen.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 3x RTX 3090 |
| CPU / Mainboard | 24-core Threadripper |
| RAM | 128GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | cchuter/llama.cpp @ feat/v4-port-cuda |
| Modell + Quant | DeepSeek V4 Flash (MXFP4_MOE) |
| Kontext-Laenge | 64k (KV-Cache OK) |
| tok/s (single) | 8.4 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): DeepSeek V4 Flash läuft stabil auf 3x RTX 3090 und erreicht eine Geschwindigkeit von 8.4 tok/s. Das Patching der GGUF-Dateien ermöglicht es, Modelle zu laden, die anfangs Probleme verursacht haben. Das Setup ist besonders für Anwendungen geeignet, die eine hohe Kontextlänge und effiziente Token-Verarbeitung erfordern.
Was NICHT funktioniert / Limits (2-4 Sätze): Die Performance kann bei sehr langen Prompten oder komplexen Aufgaben langsamer werden. Die Kompatibilität mit anderen Frameworks oder Quantisierungen ist begrenzt.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Anwender geeignet, die DeepSeek V4 Flash auf 3x RTX 3090 laufen lassen möchten. Das Patching der GGUF-Dateien ist ein einfacher Schritt, um die Kompatibilität zu gewährleisten. Es ist besonders für Entwickler und Forscher geeignet, die flexibel und effizient arbeiten müssen.
[Update on 12x32gb sxm v100 cluster / local AI for legal drafting] (9/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Autor, ein Anwalt, berichtet über sein 12x V100-SXM2-32GB-Cluster, das er für juristische Drafting-Aufgaben verwendet. Er beschreibt die Hardware-Konfiguration, die Software-Stacks und die Performance von verschiedenen Modellen, insbesondere von MoE-Modellen.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 12x V100-SXM2 32GB |
| CPU / Mainboard | Threadripper Pro, EPYC 7302P |
| RAM | 512GB (Threadripper), 512GB (EPYC) |
| PSU | 4x 3000W 80+ Titanium redundant |
| Chassis / Kuehlung | 4U Server, 2x 208V/30A circuits |
| Framework + Version | llama.cpp (mainline) |
| Modell + Quant | Qwen3.6-35B-A3B (Q8 GGUF, Q4 KV cache) |
| Kontext-Laenge | 64k (KV-Cache OK) |
| tok/s (single) | 113 tok/s (Gemma-4-26B-A4B), 82 tok/s (Qwen3.6-35B-A3B) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | ~8-10 kW |
| Rohkosten | ~$108K-$138K |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Das Setup läuft stabil und verarbeitet juristische Drafting-Aufgaben effizient. MoE-Modelle wie Qwen3.6-35B-A3B und Gemma-4-26B-A4B erreichen hohe Token-Raten, was die Produktivität signifikant steigert. Die Performance ist besonders bei langen Kontexten und komplexen Aufgaben beeindruckend.
Was NICHT funktioniert / Limits (2-4 Sätze): Die Performance von dichten Modellen ist bei langen Kontexten begrenzt. Die Hardware-Kosten sind hoch, was das Setup für Privatanwender weniger geeignet macht. Die Skalierung auf mehrere Boards kann zu Performance-Einbußen führen.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Unternehmen oder Anwälte geeignet, die eine hohe Performance und Skalierbarkeit für juristische Drafting-Aufgaben benötigen. Die hohen Kosten und die komplexe Hardware-Konfiguration erfordern eine sorgfältige Planung und Budgetierung.
[Custom 4x RTX PRO 6000 Blackwell server vs Dell GB300 for ~30 fine-tuned production pipelines — looking for honest input on direction] (7/10) — OpenCode-Fit: JA
Worum es geht (2-4 Sätze): Der Autor vergleicht ein benutzerdefiniertes 4x RTX PRO 6000 Blackwell-Server-Setup mit einem Dell GB300-Server für die lokale Inference und Feinabstimmung von 30 Modellen. Er bittet um Eingaben zur Entscheidung, welche Option besser für die langfristige Verwaltung und Skalierbarkeit geeignet ist.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 4x RTX PRO 6000 Blackwell 96GB |
| CPU / Mainboard | Dual AMD EPYC 9354 (32-core each) |
| RAM | 512GB DDR5-4800 ECC RDIMM |
| PSU | 4x 3000W 80+ Titanium redundant |
| Chassis / Kuehlung | 4U Server, 2x
Weitere Beitraege (automatisch gefiltert):
– two months local 30b, real speedup nowhere near benchmark — keine konkreten Messwerte, keine nachbaubaren Daten