Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von praktischen Build-Berichten und Benchmarks geprägt. Besonders hervorzuheben sind die Einträge, die konkrete GPU-Setup-Vorschläge und realistische Leistungsdaten liefern. Ein Leser kann heute Abend mit den Einträgen von Krasis, DeepSeek V4 Flash und dem 12x32GB SXM V100 Cluster anfangen, um ein funktionierendes, nachbaubares Setup zu erstellen.
[Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM)] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer berichtet über die neuesten Ergebnisse des LLM-Runtimes Krasis, der Modelle lädt, die nicht in die VRAM passen. Es werden Leistungsdaten für verschiedene GPU-Setups und Modelle präsentiert.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3070 Mobile 8GB, 1x RTX 5080 16GB, 1x RTX A4500 20GB, 1x RTX 5090 32GB |
| CPU / Mainboard | Laptop (nicht spezifiziert), Threadripper (nicht spezifiziert) |
| RAM | 32GB (Laptop), 128GB (Server) |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | Krasis v1.0 |
| Modell + Quant | Qwen3.6-35B-A3B (Q4), Qwen3-Coder-Next (Q4) |
| Kontext-Laenge | 32k (KV-Cache OK) |
| tok/s (single) | 222 tok/s (3070 Mobile), 3,743 tok/s (5080), 2,235 tok/s (A4500), 10,030 tok/s (5090) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Krasis ermöglicht das effiziente Laufen von großen Modellen auf Laptops und Servern, die nicht über ausreichend VRAM verfügen. Die Leistungsdaten zeigen, dass selbst auf einem Laptop mit 8GB VRAM ein 35B-Modell mit annehmbaren Geschwindigkeiten läuft.
Was NICHT funktioniert / Limits: Die Leistung variiert stark je nach GPU und Modellgröße. Die Kontextlänge von 32k ist gut, aber für sehr lange Eingaben könnte es Engpässe geben.
Nachbau-Empfehlung: Dieses Setup ist besonders für Benutzer mit begrenztem Budget und mobilen Anwendungen geeignet. Es ist empfehlenswert, die GPU und RAM-Größe an die spezifischen Anforderungen anzupassen.
[DeepSeek V4 Flash at 8.4 tok/s on 3×3090: patching the GGUFs that won’t load on cchuter’s llama.cpp fork] (7/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Benutzer beschreibt, wie er DeepSeek V4 Flash auf 3x RTX 3090 laufen lassen konnte, indem er GGUF-Dateien gepatched hat, die aufgrund von Metadaten- und Tensor-Namen-Diskrepanzen nicht geladen wurden.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 3x RTX 3090 (72GB VRAM total) |
| CPU / Mainboard | 24-core Threadripper |
| RAM | 128GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | cchuter/llama.cpp @ feat/v4-port-cuda |
| Modell + Quant | DeepSeek V4 Flash (MXFP4_MOE) |
| Kontext-Laenge | 200-800 Tokens |
| tok/s (single) | 8.4 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? DeepSeek V4 Flash läuft auf 3x RTX 3090 mit einer Geschwindigkeit von 8.4 tok/s. Die Patching-Methode ermöglicht es, GGUF-Dateien zu korrigieren, die aufgrund von Metadaten- und Tensor-Namen-Diskrepanzen nicht geladen wurden.
Was NICHT funktioniert / Limits: Die Leistung ist für längere Eingaben und komplexe Aufgaben begrenzt. Die Patching-Methode erfordert technisches Know-how.
Nachbau-Empfehlung: Dieses Setup ist für Benutzer geeignet, die bereits technisches Wissen haben und bereit sind, GGUF-Dateien zu patchen. Für weniger technisch versierte Benutzer könnte es schwieriger sein, das Setup zu reproduzieren.
[Update on 12x32gb sxm v100 cluster / local AI for legal drafting] (9/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer, ein Anwalt, berichtet über sein 12x32GB SXM V100 Cluster, das für die automatische Erstellung von rechtlichen Dokumenten verwendet wird. Er beschreibt die Hardware-Konfiguration, die Software-Änderungen und die Leistungsdaten.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 12x V100-SXM2 32GB, 4x RTX 3090, 2x V100-PCIe |
| CPU / Mainboard | Threadripper Pro, EPYC 7302P |
| RAM | 512GB (Server 1), 512GB (Server 2) |
| PSU | 4x 3000W 80+ Titanium redundant |
| Chassis / Kuehlung | Supermicro AS-4125GS-TNRT, GIGABYTE G493-ZB3-AAP1, ASUS ESC8000A-E13 |
| Framework + Version | llama.cpp (mainline) |
| Modell + Quant | Gemma-4-26B-A4B (MoE), Qwen3.6-35B-A3B (MoE), Qwen3.5-122B-A10B (MoE) |
| Kontext-Laenge | 25k+ Tokens |
| tok/s (single) | 113 tok/s (Gemma-4-26B-A4B), 82 tok/s (Qwen3.6-35B-A3B), 50 tok/s (Qwen3.5-122B-A10B) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | ~8-10 kW |
| Rohkosten | ~$108K-$138K |
| Autarkie-Fit | JA |
Was funktioniert konkret? Das Cluster läuft stabil und ermöglicht das effiziente Laufen von großen MoE-Modellen. Die Leistung bei langen Kontexten ist ausgezeichnet, und die Modelle halten durch, ohne zusammenzubrechen.
Was NICHT funktioniert / Limits: Die Leistung von dichten Modellen ist begrenzt, und die Verwendung von NVLink-Paaren auf verschiedenen Boards führt zu erheblichen Leistungsverlusten.
Nachbau-Empfehlung: Dieses Setup ist ideal für Benutzer, die hohe Leistung und langfristige Zuverlässigkeit benötigen. Es ist jedoch ein teures Setup und erfordert technisches Know-how für die Konfiguration und Wartung.
Weitere Beiträge (kurz):
– I compared all specs of the major GPUs/machines that are being used here, because bandwidth is not everything. Some of ya’ll need a reality check. — keine Hardware belegt, kein nachbaubares Setup
– How do I make MTP work in llama-server? — keine Hardware belegt, reine Problem-Frage ohne Lösung
– The reason small-model agent stacks aren’t the default has nothing to do with whether they work — keine Hardware belegt, reine Diskussion
– Qwen Plays ̶p̶̶o̶̶k̶̶e̶̶m̶̶o̶̶n̶ ? / QWEN PLAYS DCSS! – qwen3.6-35b-a3b@q4_k_xl plays open source roguelike adventure DCSS (and does a decent job) — keine Hardware belegt, reine Demonstration
– TTS Benchmark Comparison (all known TTS up until May 2026) — keine Hardware belegt, reine Benchmarking
– If you’re missing Jeeves, you might want to check out my weekend project. — keine Hardware belegt, reine Demonstration
– Any reason to run dense over MOE for RAGs? — keine Hardware belegt, reine Diskussion