Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Community, in der Nutzer ihre lokalen KI-Setups dokumentieren und benchmarken. Diese Woche sind insbesondere die Einträge zu nachbauwürdigen Setups mit konkreten tok/s-Zahlen und Modell-Variationen hervorzuheben. Ein Leser kann heute Abend mit einem 27B-Modell auf einem 4x RTX 3090-Setup oder einem 35B-Modell auf einem 3070 Mobile-Laptop beginnen.
Added an old 2070 Super to my rig and I can’t go back…worse, now I need more (8/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Nutzer hat ein altes RTX 2070 Super in sein bestehendes Setup integriert, das bereits eine RTX 5090, einen 9800X3D und 96 GB RAM enthält. Mit der zusätzlichen VRAM kann er nun Qwen3.6-27B mit einer Kontextlänge von 144k und 40-70 tok/s laufen lassen. Dies hat ihn dazu inspiriert, weitere GPUs zu erwerben, um die Leistung weiter zu steigern.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5090 24GB, 1x RTX 2070 Super 8GB |
| CPU / Mainboard | 9800X3D, unbekanntes Mainboard |
| RAM | 96 GB DDR4 |
| PSU | unbekannt |
| Chassis / Kuehlung | unbekannt |
| Framework + Version | llama.cpp (neueste Version) |
| Modell + Quant | Qwen3.6-27B Q8_0 GGUF |
| Kontext-Laenge | 144k |
| tok/s (single) | 40-70 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Das Setup läuft stabil und ermöglicht das Laufen von Qwen3.6-27B mit einer Kontextlänge von 144k und 40-70 tok/s. Die zusätzliche VRAM des 2070 Super bringt eine signifikante Leistungssteigerung, insbesondere bei längeren Kontexten.
Was NICHT funktioniert / Limits (2-4 Sätze): Die Stromversorgung und Kühlung des Systems werden nicht näher beschrieben, was bei einem solchen Setup wichtig sein könnte. Die Leistung bei batched Anfragen und die genauen Stromverbrauchszahlen fehlen.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Nutzer mit einem Budget von 4.000-6.000 EUR geeignet, die bereits eine leistungsstarke GPU haben und durch eine zusätzliche GPU die Leistung weiter steigern möchten. Die Integration einer älteren GPU wie dem 2070 Super ist eine kostengünstige Option, um die VRAM zu erhöhen.
Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM) (7/10) — OpenCode-Fit: BEDINGT

Worum es geht (2-4 Sätze): Der Nutzer hat Krasis, einen LLM-Runtime, verwendet, um Qwen3.6-35B-A3B auf einem Laptop mit einer RTX 3070 Mobile 8GB und 32 GB RAM laufen zu lassen. Die Leistung bei der Dekodierung beträgt 12.48 tok/s, was als „Lesegeschwindigkeit“ bezeichnet wird.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3070 Mobile 8GB |
| CPU / Mainboard | unbekannt |
| RAM | 32 GB DDR4 |
| PSU | unbekannt |
| Chassis / Kuehlung | Laptop |
| Framework + Version | Krasis v1.0 |
| Modell + Quant | Qwen3.6-35B-A3B HQQ4, k4v4 |
| Kontext-Laenge | 222 pp, 12.48 tg |
| tok/s (single) | 12.48 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? (3-5 Sätze): Krasis ermöglicht es, große Modelle wie Qwen3.6-35B-A3B auf einem Laptop mit begrenzter VRAM zu laufen zu lassen. Die Leistung bei der Dekodierung beträgt 12.48 tok/s, was als „Lesegeschwindigkeit“ angesehen werden kann. Dies ist besonders nützlich für Nutzer, die keine hochleistungsfähigen GPUs haben.
Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung bei längeren Kontexten und komplexeren Aufgaben könnte begrenzt sein, da die VRAM des Laptops begrenzt ist. Die genauen Stromverbrauchszahlen und die Kosten des Setups fehlen.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Nutzer mit einem begrenzten Budget und einem Laptop geeignet, die trotzdem große Modelle laufen lassen möchten. Es ist besonders nützlich für einfache Aufgaben und kurze Textgenerierungen. Für anspruchsvollere Aufgaben und längere Kontexte wäre ein leistungsfähigerer GPU-Setup zu empfehlen.
Cost Analysis of my $6.4k Local LLM Server (6/10) — OpenCode-Fit: NEIN
Worum es geht (2-4 Sätze): Der Nutzer hat eine detaillierte Kostenaufstellung seines lokalen LLM-Servers bereitgestellt, der aus 4x MI100 32GB, einem ASRock EPYCD8-2T Mainboard, einem 1600W 80+ Plat PSU, 8x8GB DDR4 ECC RDIMMs, einem Epyc 7k62 48-Core CPU und einem ATX Case besteht. Das Setup läuft mit Ubuntu und ROCm und verarbeitet täglich 20.4M Input-Tokens und 1.32M Output-Tokens.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 4x MI100 32GB |
| CPU / Mainboard | Epyc 7k62 48-Core, ASRock EPYCD8-2T |
| RAM | 64 GB DDR4 ECC |
| PSU | 1600W 80+ Plat |
| Chassis / Kuehlung | ATX Case |
| Framework + Version | llama.cpp, Ubuntu, ROCm |
| Modell + Quant | Qwen3.6 27B |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | 20.4M Input-Tokens, 1.32M Output-Tokens per day |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | $6406.45 |
| Autarkie-Fit | NEIN |
Was funktioniert konkret? (3-5 Sätze): Das Setup ist für den Betrieb von Qwen3.6 27B optimiert und verarbeitet täglich eine große Menge an Tokens. Die Kosteneffizienz des Setups wird durch eine detaillierte Kostenaufstellung und den Vergleich mit API-Kosten dargestellt.
Was NICHT funktioniert / Limits (2-4 Sätze): Die genauen Leistungsdaten wie tok/s und die Stromverbrauchszahlen fehlen. Das Setup ist für einen spezifischen Geschäftszweck optimiert und könnte für andere Anwendungen nicht direkt übertragbar sein.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Nutzer mit einem Budget von 6.400 USD geeignet, die eine hohe Tokenverarbeitung benötigen. Für private Nutzer oder kleinere Projekte könnte ein weniger aufwendiges Setup ausreichen.
Weitere Beiträge (kurz):
– I built mlx-Chronos — a community benchmark leaderboard for local LLM engines on Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama) — keine Hardware belegt, kein nachbaubares Setup
– 13 abliterated Gemma 4 E2B variants, 44 GPU hours, Benchmark and Comparison – Abliterlitics — keine Hardware belegt, kein nachbaubares Setup
– Fine tuning on DGX spark vs 4x 3090? — keine Hardware belegt, kein nachbaubares Setup
– How do I make MTP work in llama-server? — keine Hardware belegt, kein nachbaubares Setup
– DeepSeek V4 Flash at 8.4 tok/s on 3×3090: patching the GGUFs that won’t load on cchuter’s llama.cpp fork — keine Hardware belegt, kein nachbaubares Setup
– Custom 4x RTX PRO 6000 Blackwell server vs Dell GB300 for ~30 fine-tuned production pipelines — looking for honest input on direction — keine Hardware belegt, kein nachbaubares Setup
– two months local 30b, real speedup nowhere near benchmark — keine Hardware belegt, kein nachbaubares Setup
– Update on 12x32gb sxm v100 cluster / local AI for legal drafting — keine Hardware belegt, kein nachbaubares Setup