Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks bietet aktuell eine Fülle von konkreten Build- und Benchmark-Beiträgen, die lokale KI-Setups im Detail dokumentieren. Besonders hervorzuheben sind die Einträge, die sich mit der Performance von Modellen wie Mimo 2.5, Qwen3.6-35B-A3B und GLM-5.2 auf verschiedenen GPU-Konfigurationen befassen. Diese Beiträge liefern präzise Zahlen und praktische Empfehlungen, die für den Bau eines eigenen lokalen KI-Setups hilfreich sind.
Mimo 2.5 is _fast_ at large context (dual RTX Pro 6000) (8/10) — OpenCode-Fit: JA

Worum es geht: Der Beitrag beschreibt, wie das Modell Mimo 2.5 auf einem Setup mit 2x RTX Pro 6000 ausgeführt wird. Es wird insbesondere die Performance bei großen Kontexten (bis zu 150k) untersucht und mit anderen Modellen wie MiniMax M3 und DeepSeek V4 verglichen.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 2x RTX Pro 6000 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | SGLang, vLLM |
| Modell + Quant | Mimo 2.5, MiniMax M3, DeepSeek V4, Step 3.7 Flash |
| Kontext-Laenge | 150k (64k-150k) |
| tok/s (single) | 40 t/s (DeepSeek V4), 40 t/s (MiniMax M3), 40 t/s (Step 3.7 Flash), 40 t/s (Mimo 2.5) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Mimo 2.5 zeichnet sich durch eine ausgezeichnete Performance bei großen Kontexten aus. Es bleibt schnell und stabil, auch bei Kontexten von 150k. Die Modellqualität ist vergleichbar mit Sonnet, was es zu einer ausgezeichneten Wahl für agente Arbeit macht.
Was NICHT funktioniert / Limits: MiniMax M3 und DeepSeek V4 haben Probleme mit der Performance auf Consumer-GPUs. DeepSeek V4 fällt auf CPU zurück, während MiniMax M3 langsam wird. Step 3.7 Flash ist eine gute Alternative, aber es bleibt bei 40 t/s.
Nachbau-Empfehlung: Das Setup mit 2x RTX Pro 6000 ist empfehlenswert, insbesondere für Benutzer, die hohe Kontextlängen benötigen. Es ist kostengünstig und bietet eine ausgezeichnete Performance.
GLM-5.2 UD-IQ1_M on llama.cpp — 5090 + 3090 Ti speed test (~ 579 t/s prefill @ 8k ctx, ~324 t/s prefill @ 57k ctx, ~10.6 t/s decode) (8/10) — OpenCode-Fit: JA

Worum es geht: Der Beitrag enthält Speed-Tests für das Modell GLM-5.2 UD-IQ1_M auf einem Setup mit RTX 5090 und RTX 3090 Ti. Es werden detaillierte Benchmarks für verschiedene Kontextlängen präsentiert.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 5090 + RTX 3090 Ti 186 GB DDR5 |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp |
| Modell + Quant | GLM-5.2 UD-IQ1_M, q8_0 KV cache |
| Kontext-Laenge | 128k, 57k |
| tok/s (single) | 579 t/s (8k ctx), 324 t/s (57k ctx) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Das Modell GLM-5.2 UD-IQ1_M erreicht hohe Geschwindigkeiten bei verschiedenen Kontextlängen. Bei 8k Kontext erreicht es 579 t/s, bei 57k Kontext immer noch 324 t/s. Die Decode-Geschwindigkeit hält sich bei 10.6 t/s.
Was NICHT funktioniert / Limits: Die Performance bei sehr großen Kontexten (über 57k) sinkt, was bei extrem langen Texten zu berücksichtigen ist.
Nachbau-Empfehlung: Das Setup mit RTX 5090 und RTX 3090 Ti ist eine ausgezeichnete Wahl für Benutzer, die hohe Geschwindigkeiten bei großen Kontexten benötigen. Es ist kostengünstig und bietet eine gute Performance.
Qwen3.6-35B-A3B APEX on a Single RTX 3090 – Getting the Most Out of It (7/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Beitrag beschreibt, wie das Modell Qwen3.6-35B-A3B auf einem einzelnen RTX 3090 optimal konfiguriert werden kann. Es werden Speed-Benchmarks und eine Qualitätsanalyse durchgeführt.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 3090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp (ik_llama, spiritbuun) |
| Modell + Quant | Qwen3.6-35B-A3B, APEX I-Compact, APEX I-Quality |
| Kontext-Laenge | 128k |
| tok/s (single) | 146 t/s (APEX I-Compact), 137 t/s (APEX I-Quality) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? Das Modell Qwen3.6-35B-A3B erreicht gute Geschwindigkeiten bei 128k Kontext. Die Version APEX I-Compact ist besonders schnell, während APEX I-Quality eine bessere Qualität bietet.
Was NICHT funktioniert / Limits: Die Performance bei sehr großen Kontexten (über 128k) ist nicht getestet. Die Qualität von APEX I-Quality ist leicht besser, aber die Geschwindigkeit ist vergleichbar.
Nachbau-Empfehlung: Das Setup mit einem einzelnen RTX 3090 ist für Benutzer mit einem begrenzten Budget geeignet. Es bietet eine gute Balance zwischen Geschwindigkeit und Qualität, insbesondere bei 128k Kontext.
How I Got a 2.4x Real-World Speedup on a Dual RTX 3090 Setup Using vLLM Prefix Caching & OpenCode Parallel Agents (8/10) — OpenCode-Fit: JA

Worum es geht: Der Beitrag beschreibt, wie der Autor durch die Verwendung von vLLM Prefix Caching und Parallel Tool Calling die Performance eines Dual RTX 3090 Setups um 2.43x verbessert hat. Es werden detaillierte Konfigurationen und Benchmarks präsentiert.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 2x RTX 3090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM, FlashInfer |
| Modell + Quant | Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-GPTQ-Int4, GPTQ Int4 |
| Kontext-Laenge | 256k |
| tok/s (single) | 1,000+ t/s (synthetisch), 30 t/s (real) |
| tok/s (batched) | 5 coding subagents concurrently |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Durch die Verwendung von vLLM Prefix Caching und Parallel Tool Calling konnte die real-world Performance um 2.43x verbessert werden. Die Konfiguration ermöglicht es, 5 coding subagents gleichzeitig auszuführen, was die Entwicklerproduktivität erheblich steigert.
Was NICHT funktioniert / Limits: Die Performance bei sehr großen Kontexten (über 256k) kann immer noch eine Herausforderung sein, insbesondere wenn mehrere Subagents parallel laufen.
Nachbau-Empfehlung: Das Setup mit 2x RTX 3090 ist für Benutzer mit höheren Anforderungen an die Performance und die Parallelität geeignet. Es erfordert eine detaillierte Konfiguration, aber die Vorteile sind signifikant.
Weitere Beiträge:
– 7 Chinese companies are already shipping H100/H200-class AI chips, most IPO’d in the last 6 months. I mapped all of them. — keine Hardware belegt, kein nachbaubares Setup
– What should I build my local LLM machine around? RTX 3090s or Arc Pro B60s? — keine konkrete Hardware belegt, reine Frage
– Watch local LLMs escape the rooms you design — keine konkrete Hardware belegt, reine Frage
– Deep Neural Network that can turn any Image into a Playable Game! BUT LOCALLY, NOT ON DATACENTER — keine konkrete Hardware belegt, reine Frage
– Single RTX 3090 (MSI TRio) giving trouble on inference. — keine konkrete Hardware belegt, reine Frage
– I need help to run local Hermes Agent on my rig. llama-cpp self compiled — keine konkrete Hardware belegt, reine Frage
– GLM 5.2, what speeds are we getting locally? — keine konkrete Hardware belegt, reine Frage
Diese Beiträge bieten eine gute Übersicht über aktuelle Entwicklungen und praktische Erfahrungen im Bereich der lokalen KI-Setups. Die ausführlich analysierten Einträge sind besonders hilfreich für Benutzer, die konkrete und nachbaubare Setups suchen.