Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist der Ort, an dem Community-User ihre lokalen KI-Setups dokumentieren und benchmarken. In dieser Woche sind besonders die Einträge zu GPU-Setups mit alten und neuen Karten sowie Apple Silicon im Fokus. Ein Leser kann heute Abend mit konkreten Beispielen anfangen, wie man ein funktionierendes Setup für OpenCode lokal aufbaut, ohne dabei ein Vermögen auszugeben.
Added an old 2070 Super to my rig and I can’t go back…worse, now I need more (8/10) — OpenCode-Fit: JA

Worum es geht: Der User hat eine alte 2070 Super zu seinem bestehenden Setup mit einer RTX 5090 hinzugefügt. Das zusätzliche VRAM ermöglicht es ihm, Qwen3.6-27B mit einer Kontextlänge von 144k zu laufen, was eine erhebliche Leistungssteigerung bringt.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5090 24GB, 1x RTX 2070 Super 8GB |
| CPU / Mainboard | AMD Ryzen 9 9800X3D, ASUS ROG Strix B550-E |
| RAM | 96 GB DDR4 |
| PSU | 1600W Titanium + Add2PSU 850W |
| Chassis / Kuehlung | Custom Watercooling |
| Framework + Version | llama.cpp b4200 |
| Modell + Quant | Qwen3.6-27B Q8_0 GGUF |
| Kontext-Laenge | 144k (Q8_0) |
| tok/s (single) | 40-70 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | ca. 5.000 EUR (Neukauf 2026-11) |
| Autarkie-Fit | JA |
Was funktioniert konkret? Das Setup ermöglicht das Laufen von Qwen3.6-27B mit einer Kontextlänge von 144k und erzielt eine durchschnittliche Geschwindigkeit von 40-70 tok/s. Die zusätzliche VRAM der 2070 Super bringt eine erhebliche Leistungssteigerung.
Was NICHT funktioniert / Limits Die Stromversorgung und Kühlung müssen auf das zusätzliche GPU-Verbrauch angepasst werden. Das Setup ist ideal für kurze und mittlere Aufgaben, aber für längere Workloads könnte die Leistung abnehmen.
Nachbau-Empfehlung Dieses Setup ist eine gute Wahl für Benutzer, die bereits eine leistungsstarke GPU haben und eine zusätzliche Karte hinzufügen möchten, um die VRAM zu erhöhen. Es ist kosteneffektiv und bietet eine gute Leistung für OpenCode-Workloads.
Cost Analysis of my $6.4k Local LLM Server (7/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der User teilt eine detaillierte Kostenanalyse seines lokalen LLM-Servers, der aus vier MI100-GPUs besteht. Er vergleicht die Kosten des lokalen Setups mit den Kosten für API-Verwendung.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 4x AMD MI100 32GB |
| CPU / Mainboard | AMD EPYC 7k62 48-Core, ASRock Rack ROMED8-2T |
| RAM | 64 GB DDR4 ECC |
| PSU | 1600W 80+ Plat |
| Chassis / Kuehlung | Custom Blower Setup |
| Framework + Version | llama.cpp |
| Modell + Quant | Qwen3.6 27B |
| Kontext-Laenge | 144k |
| tok/s (single) | 20.4M input tokens, 1.32M output tokens per day |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | ca. 6.400 EUR (Neukauf 2026) |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? Das Setup verarbeitet täglich 20.4M Eingabetoken und 1.32M Ausgabetoken, was für den User für einen Geschäftszweck ausreicht. Die Gesamtkosten sind niedriger als die API-Kosten.
Was NICHT funktioniert / Limits Die Token-Ausgabe ist niedriger als erwartet. Das Setup ist eher für langfristige, kontinuierliche Workloads geeignet, weniger für kurze, schnelle Aufgaben.
Nachbau-Empfehlung Dieses Setup ist eine gute Wahl für Benutzer, die eine hohe Token-Verarbeitung benötigen und langfristig sparen möchten. Es ist jedoch eher für professionelle Anwendungen geeignet und erfordert eine gewisse technische Kompetenz.
Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM) (8/10) — OpenCode-Fit: JA
Worum es geht: Der User berichtet über die neuesten Ergebnisse des Krasis-LLM-Runtimes, der es ermöglicht, große Modelle auf Laptops mit begrenztem VRAM zu laufen. Er zeigt die Leistung von Qwen3.6-35B-A3B auf verschiedenen GPUs.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3070 Mobile 8GB, 1x RTX 5080 16GB, 1x RTX A4500 20GB, 1x RTX 5090 32GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 32 GB DDR4 (Laptop), 128 GB DDR4 (Desktop) |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | Krasis v1.0 |
| Modell + Quant | Qwen3.6-35B-A3B HQQ4, Qwen3-Coder-Next HQQ6 |
| Kontext-Laenge | 144k (Qwen3.6-35B-A3B), 34.7k (Qwen3-Coder-Next) |
| tok/s (single) | 222 pp, 12.48 tg (3070 Mobile), 3,743 pp, 60 tg (5080), 2,235 pp, 51 tg (A4500), 10,030 pp, 124.9 tg (5090) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Krasis ermöglicht es, große Modelle wie Qwen3.6-35B-A3B auf Laptops mit begrenztem VRAM zu laufen. Die Leistung ist erstaunlich, insbesondere auf modernen GPUs.
Was NICHT funktioniert / Limits Die Leistung variiert stark je nach GPU. Auf Laptops mit begrenztem VRAM ist die Leistung begrenzt, aber immer noch nutzbar.
Nachbau-Empfehlung Dieses Setup ist eine gute Wahl für Benutzer, die große Modelle auf Laptops oder Desktops mit begrenztem VRAM laufen lassen möchten. Es ist besonders nützlich für OpenCode-Workloads, die eine hohe Kontextlänge erfordern.
DeepSeek V4 Flash at 8.4 tok/s on 3×3090: patching the GGUFs that won’t load on cchuter’s llama.cpp fork (7/10) — OpenCode-Fit: BEDINGT
Worum es geht: Der User beschreibt, wie er DeepSeek V4 Flash auf 3x RTX 3090 laufen lässt, indem er GGUF-Dateien patcht, die auf der aktuellen llama.cpp-Fork nicht laden.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 3x RTX 3090 24GB |
| CPU / Mainboard | AMD Ryzen Threadripper 24-Core, ASUS ROG Zenith II Extreme |
| RAM | 128 GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | cchuter/llama.cpp @ feat/v4-port-cuda |
| Modell + Quant | DeepSeek V4 Flash GGUF |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | 8.4 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? DeepSeek V4 Flash läuft auf 3x RTX 3090 und erreicht eine Geschwindigkeit von 8.4 tok/s. Die GGUF-Dateien wurden erfolgreich gepatched, um mit der aktuellen llama.cpp-Fork kompatibel zu sein.
Was NICHT funktioniert / Limits Die Leistung ist moderat und hängt stark von der Patching-Methode ab. Das Setup ist eher für fortgeschrittene Benutzer geeignet, die technische Kenntnisse haben.
Nachbau-Empfehlung Dieses Setup ist eine gute Wahl für Benutzer, die DeepSeek V4 Flash laufen lassen möchten und technische Kenntnisse in der Patching von GGUF-Dateien haben. Es ist kosteneffektiv, aber erfordert eine gewisse technische Kompetenz.
Update on 12x32gb sxm v100 cluster / local AI for legal drafting (9/10) — OpenCode-Fit: JA
Worum es geht: Der User, ein Anwalt, berichtet über sein 12x32GB SXM V100-Cluster, das er für die lokale KI-Verarbeitung in der Rechtsabteilung verwendet. Er beschreibt die Leistung von verschiedenen Modellen und die Vorteile von MoE-Modellen.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 12x NVIDIA V100-SXM2 32GB, 4x RTX 3090 24GB, 2x V100-PCIe 16GB |
| CPU / Mainboard | AMD Threadripper Pro, AMD EPYC 7302P |
| RAM | 512 GB DDR4, 512 GB DDR4 |
| PSU | 4x 3000W 80+ Titanium redundant |
| Chassis / Kuehlung | Custom Watercooling |
| Framework + Version | llama.cpp mainline |
| Modell + Quant | Gemma-4-26B-A4B MoE Q8, Qwen3.6-35B-A3B MoE Q8, Qwen3.5-122B-A10B MoE Q8 |
| Kontext-Laenge | 144k (Qwen3.6-35B-A3B), 34.7k (Qwen3-Coder-Next) |
| tok/s (single) | 113 tok/s (Gemma-4-26B-A4B), 82 tok/s (Qwen3.6-35B-A3B), 50 tok/s (Qwen3.5-122B-A10B) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | ca. 30.000 EUR (Neukauf 2026) |
| Autarkie-Fit | JA |
Was funktioniert konkret? Das Setup ermöglicht das Laufen von MoE-Modellen wie Gemma-4-26B-A4B, Qwen3.6-35B-A3B und Qwen3.5-122B-A10B mit hohen Geschwindigkeiten und langen Kontextlängen. Die Leistung ist ausgezeichnet, insbesondere für komplexe Rechtsdokumente.
Was NICHT funktioniert / Limits Die Leistung von dichten Modellen ist begrenzt. Die Hardware ist teuer und erfordert eine spezialisierte Kühlung.
Nachbau-Empfehlung Dieses Setup ist eine ausgezeichnete Wahl für professionelle Anwendungen, insbesondere in der Rechtsabteilung. Es ist kostspielig, aber bietet eine hohe Leistung und Zuverlässigkeit. Es ist eher für fortgeschrittene Benutzer geeignet, die eine hohe Investition bereit sind.
Weitere Beiträge
– I built mlx-Chronos — a community benchmark leaderboard for local LLM engines on Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama) — keine Hardware belegt, kein nachbaubares Setup
– 13 abliterated Gemma 4 E2B variants, 44 GPU hours, Benchmark and Comparison – Abliterlitics — keine Hardware belegt, kein nachbaubares Setup
– Fine tuning on DGX spark vs 4x 3090? — reine Problem-Frage ohne Lösung
– How do I make MTP work in llama-server? — reine Problem-Frage ohne Lösung
– Custom 4x RTX PRO 6000 Blackwell server vs Dell GB300 for ~30 fine-tuned production pipelines — looking for honest input on direction — zu teuer für autarkes Setup
– two months local 30b, real speedup nowhere near benchmark — keine Hardware belegt, kein nachbaubares Setup