Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von Usern geprägt, die ihre lokalen KI-Setups detailliert dokumentieren und benchmarken. Besonders hervorzuheben sind die Einträge, die sich mit der Ausführung von Qwen 3.6 27B auf RTX 3090 und anderen GPU-Setups befassen. Diese Woche sind insbesondere die Einträge zu Qwen 3.6 35B MoE auf einem RTX 3090 und die Vergleichsbewertung von MiniMax M2.7 AWQ-4bit auf Spark- und RTX 6000-Clustern besonders belegt. Mit diesen Setups kann ein Leser heute Abend anfangen, um ein funktionierendes lokales KI-Setup aufzubauen.
[Qwen 3.6 35B MoE at full 262K context on an RTX 3090. Here’s exactly how I did it.] (4/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der User dokumentiert, wie er Qwen 3.6 35B MoE auf einem RTX 3090 mit einer Kontextlänge von 262K Tokens erfolgreich betreibt. Er beschreibt die Installation von llama.cpp-tq3, die Konfiguration des KV-Caches und die Integration in OpenCode unter WSL.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp-tq3“ |
| Modell + Quant | „Qwen 3.6 35B MoE TQ3_4S Q8_0“ |
| Kontext-Laenge | „262K“ |
| tok/s (single) | „111 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? (3-5 Sätze): Das Setup läuft stabil mit einer Kontextlänge von 262K Tokens und erreicht 111 Tokens pro Sekunde. Die KV-Cache-Optimierung hat erheblich zur Effizienz beigetragen, ohne dass es zu OOM-Fehlern kam. Das Modell ist für OpenCode-tauglich und kann komplexe Aufgaben lösen.
Was NICHT funktioniert / Limits (2-4 Sätze): Die Kontextlänge von 262K Tokens ist die Obergrenze, über die das Modell nicht hinausgeht. Die Performance könnte bei noch größeren Kontexten abnehmen. Es gibt keine Angaben zu Stromverbrauch und Kosten.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer mit einem RTX 3090 und einem Budget von ca. 1.000 EUR empfehlenswert. Es bietet eine gute Balance zwischen Performance und Autarkie. Für höhere Kontextlängen oder mehr GPUs könnte eine Anpassung der Hardware notwendig sein.
[MiniMax M2.7 AWQ-4bit on 2x Spark vs 2x RTX 6000 96GB – performance and energy efficiency] (5/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der User vergleicht die Performance und Energieeffizienz von MiniMax M2.7 AWQ-4bit auf einem 2x Spark-Cluster und einem 2x RTX 6000 96GB-Cluster. Er stellt detaillierte Benchmarks und Kostenberechnungen vor.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „2x Spark / 2x RTX 6000 96GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM“ |
| Modell + Quant | „MiniMax M2.7 AWQ-4bit“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „2.7x schneller auf RTX 6000“ |
| tok/s (batched) | „4.88x schneller auf RTX 6000“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „2x Spark: ca. 7.000 EUR, 2x RTX 6000: ca. 20.000 EUR“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? (3-5 Sätze): Der 2x RTX 6000-Cluster ist 2.7x schneller bei Prompt-Verarbeitung und 4.88x schneller bei Token-Generierung im Vergleich zum 2x Spark-Cluster. Die Energieeffizienz ist vergleichbar, was die Kosten pro Token reduziert. Das Modell läuft stabil und ist für OpenCode-tauglich.
Was NICHT funktioniert / Limits (2-4 Sätze): Bei parallelen Anfragen mit hohen Kontextlängen tritt eine Degradierung der Performance auf, da der KV-Cache seine Grenzen erreicht. Die Kosten für den 2x RTX 6000-Cluster sind signifikant höher, was die Autarkie beeinträchtigen kann.
Nachbau-Empfehlung (2-4 Sätze): Für Benutzer mit einem höheren Budget und der Notwendigkeit, hohe Performance zu erzielen, ist der 2x RTX 6000-Cluster zu empfehlen. Für kleinere Budgets oder weniger anspruchsvolle Anwendungen könnte der 2x Spark-Cluster eine gute Alternative sein.
[Qwen3.6-27B at 72 tok/s on RTX 3090 on Windows using native vLLM (no WSL, no Docker), portable launcher and installer] (5/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der User stellt eine native Windows-Installation von Qwen3.6-27B mit vLLM vor, die ohne WSL oder Docker läuft. Er bietet eine portable Installation und einen einfachen Start über eine Batch-Datei an.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM“ |
| Modell + Quant | „Qwen3.6-27B INT4“ |
| Kontext-Laenge | „127k (single GPU), 160k (PP=2)“ |
| tok/s (single) | „72 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? (3-5 Sätze): Das Setup erreicht 72 Tokens pro Sekunde auf einem RTX 3090 und kann eine Kontextlänge von 127k Tokens verarbeiten. Bei der Verwendung von 2x RTX 3090 kann die Kontextlänge auf 160k Tokens erhöht werden. Die Installation ist einfach und erfordert keine zusätzliche Software wie WSL oder Docker.
Was NICHT funktioniert / Limits (2-4 Sätze): Die Performance bei sehr hohen Kontextlängen könnte abnehmen. Es gibt keine Angaben zu Stromverbrauch und Kosten. Das Setup ist spezifisch für Windows und funktioniert nicht auf anderen Betriebssystemen.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer mit einem RTX 3090 und einem Windows-System ideal. Es bietet eine einfache Installation und gute Performance. Für Benutzer mit höheren Anforderungen oder anderen Betriebssystemen könnte eine Anpassung notwendig sein.
Weitere Beiträge (kurz):
– What a time to be alive from 1tk/sec to 20-100tk/sec for huge models — keine Hardware belegt, kein funktionierendes Setup
– Doesn’t look like there are any recent Linux distro suggestions. What’s your favorite and why? — keine Hardware belegt, reine Diskussion
– 3xR9700 for semi-autonomous research and development – looking for setup/config ideas. — keine genauen Zahlen, keine Autarkie-Fit-Bewertung
– What could they mean by „warmed steady-state“? — keine Hardware belegt, reine Frage
– Need advice on Qwen 3.6 27B INT4 quantization — keine genauen Zahlen, keine Autarkie-Fit-Bewertung
– Need help/pointers setting up 3090 on Linux…(second 3090 incoming) — keine genauen Zahlen, reine Frage
– 5070 Ti —> 3090 move. Worth it? — keine genauen Zahlen, reine Diskussion
– What’s your tps on 3090 + Qwen 3.6 27B in real tasks? — keine genauen Zahlen, reine Frage
– We are finally there: Qwen3.6-27B + agentic search; 95.7% SimpleQA on a single 3090, fully local — keine genauen Zahlen, reine Diskussion