Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für echte, funktionierende lokale KI-Setups. In dieser Woche sind insbesondere die Einträge zu GPU-Optimierungen und Benchmarking von verschiedenen Modellen hervorzuheben. Ein Benutzer hat beispielsweise gezeigt, wie ein alter 2070 Super seine Leistung erheblich verbessert, während ein anderer ein Benchmarking-Tool für Apple Silicon entwickelt hat. Diese Einträge bieten wertvolle Einblicke für Leser, die ein nachbaubares Setup für OpenCode lokal aufbauen möchten.
Added an old 2070 Super to my rig and I can’t go back…worse, now I need more (8/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Ein Benutzer hat einen alten 2070 Super zu seinem bestehenden Setup mit 5090, 9800X3D und 96GB RAM hinzugefügt. Dies hat die Leistung erheblich verbessert, insbesondere bei der Ausführung von Qwen3.6-27B mit einer Kontextgröße von 144k und einer Geschwindigkeit von 40-70 tok/s.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 2070 Super 8GB, 1x RTX 5090 24GB |
| CPU / Mainboard | 9800X3D, ASRock Rack ROMED8-2T |
| RAM | 96 GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp (neueste Version) |
| Modell + Quant | Qwen3.6-27B Q8_0 GGUF |
| Kontext-Laenge | 144k |
| tok/s (single) | 40-70 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | ca. 5.000 EUR (neu) + 2070 Super gebraucht |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Das Setup ermöglicht die Ausführung von Qwen3.6-27B mit einer Kontextgröße von 144k und einer Geschwindigkeit von 40-70 tok/s. Die Hinzufügung des 2070 Super hat die Leistung erheblich verbessert, insbesondere bei der Verarbeitung von größeren Kontexten.
Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung bei sehr langen Kontexten könnte weiter verbessert werden, insbesondere durch die Hinzufügung von weiteren GPUs. Die Stromversorgung und Kühlung könnten bei voller Last ein Limit darstellen.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist eine gute Wahl für Benutzer mit einem Budget von ca. 5.000 EUR, die eine hohe Leistung bei moderaten Kosten erzielen möchten. Die Hinzufügung eines alten 2070 Super ist eine kostengünstige Option, um die VRAM zu erhöhen und die Leistung zu steigern.
Cost Analysis of my $6.4k Local LLM Server (9/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Ein Benutzer hat eine detaillierte Kostenaufschlüsselung seines lokalen LLM-Servers bereitgestellt. Das Setup besteht aus 4x MI100 32GB, einem ASRock ROMED8-2T Mainboard, 1600W 80+ Plat PSU, 8x8GB DDR4 ECC RDIMMs, einem Epyc 7k62 48-Core CPU und einem ATX Case. Die Gesamtkosten betragen 6.406,45 USD.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 4x MI100 32GB |
| CPU / Mainboard | Epyc 7k62 48-Core, ASRock ROMED8-2T |
| RAM | 64 GB DDR4 ECC |
| PSU | 1600W 80+ Plat |
| Chassis / Kuehlung | ATX Case, 4x 75x30mm Blower |
| Framework + Version | llama.cpp (neueste Version) |
| Modell + Quant | Qwen3.6 27B |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | 20.4M input tokens, 1.32M output tokens per day |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | 6.406,45 USD |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Das Setup verarbeitet täglich 20,4M Eingabetoken und 1,32M Ausgabetoken, was einem täglichen API-Äquivalent von 10,14 USD entspricht. Die Gesamtkosten für ein Jahr betragen 3.701,10 USD, was deutlich günstiger ist als die API-Verwendung.
Was NICHT funktioniert / Limits (2-4 Sätze): Die token-Ausgabe ist niedriger als erwartet, was durch die Low-Power-Einstellungen der Komponenten erklärt werden könnte. Die Kühlung und Stromversorgung könnten bei voller Last ein Limit darstellen.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist eine kostengünstige Option für Benutzer, die eine hohe Token-Verarbeitung benötigen. Die Verwendung von gebrauchten Komponenten und Low-Power-Einstellungen reduziert die Gesamtkosten und Stromverbrauch.
Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM) (8/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Krasis ist ein LLM-Runtime, der Modelle ausführt, die nicht in die VRAM passen. Der Benutzer hat Qwen3.6-35B-A3B (Q4) auf einem Laptop mit 3070 Mobile 8GB und 32GB RAM getestet. Die Leistung beträgt 222 pp und 12,48 tg.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3070 Mobile 8GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 32 GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | Laptop |
| Framework + Version | Krasis v1.0 |
| Modell + Quant | Qwen3.6-35B-A3B (Q4) |
| Kontext-Laenge | 222 pp, 12,48 tg |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Krasis ermöglicht die Ausführung von Qwen3.6-35B-A3B (Q4) auf einem Laptop mit begrenzter VRAM. Die Leistung beträgt 222 pp und 12,48 tg, was für viele Anwendungen ausreichend ist.
Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung bei sehr langen Kontexten könnte begrenzt sein, da die VRAM des Laptops begrenzt ist. Die CPU und RAM könnten bei komplexeren Aufgaben ein Limit darstellen.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist eine gute Wahl für Benutzer, die ein kostengünstiges und portable Setup für die Ausführung von großen Modellen benötigen. Es ist besonders nützlich für Anwendungen, die keine sehr langen Kontexte erfordern.
Weitere Beiträge (kurz):
– 13 abliterated Gemma 4 E2B variants, 44 GPU hours, Benchmark and Comparison – Abliterlitics — keine Hardware belegt, kein nachbaubares Setup
– Fine tuning on DGX spark vs 4x 3090? — reine Problem-Frage ohne Lösung
– How do I make MTP work in llama-server? — reine Problem-Frage ohne Lösung
– DeepSeek V4 Flash at 8.4 tok/s on 3×3090: patching the GGUFs that won’t load on cchuter’s llama.cpp fork — keine Hardware belegt, kein nachbaubares Setup
– Custom 4x RTX PRO 6000 Blackwell server vs Dell GB300 for ~30 fine-tuned production pipelines — looking for honest input on direction — reine Problem-Frage ohne Lösung
– two months local 30b, real speedup nowhere near benchmark — reine Problem-Frage ohne Lösung
– Update on 12x32gb sxm v100 cluster / local AI for legal drafting — keine Hardware belegt, kein nachbaubares Setup