Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fav

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für echte, funktionierende lokale KI-Setups. Diese Woche sind insbesondere die Einträge zu Qwen3.6-27B auf RTX 3090 und RTX 5090 sowie die Benchmarking-Ergebnisse für MiniMax M2.7 AWQ-4bit auf 2x Spark vs. 2x RTX 6000 96GB besonders belegt. Ein Leser kann heute Abend mit diesen Setups beginnen, um OpenCode-ähnliche Workloads lokal zu betreiben.

[Qwen3.6-27B at 72 tok/s on RTX 3090 on Windows using native vLLM (no WSL, no Docker), portable launcher and installer] (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Beitrag beschreibt, wie man Qwen3.6-27B auf einem RTX 3090 unter Windows einrichten kann, ohne WSL oder Docker zu verwenden. Der Autor stellt ein einfaches, portables Setup vor, das ohne Admin-Rechte und Python-Installation funktioniert.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM (patched for Windows)“ |
| Modell + Quant | „Qwen3.6-27B Q4_K“ |
| Kontext-Laenge | „127k (single GPU), 160k (2x 3090)“ |
| tok/s (single) | „72 tok/s (short prompt), 64.5 tok/s (long prompt), 53.4 tok/s (127k ctx)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Das Setup erreicht stabile 72 tok/s bei kurzen Prompts und 53.4 tok/s bei 127k Kontext. Es ist einfach zu installieren und erfordert keine zusätzliche Software wie WSL oder Docker. Das Modell läuft lokal und ist für OpenCode-ähnliche Workloads geeignet.

Was NICHT funktioniert / Limits: Das Setup ist auf Ampere- und Ada-Karten beschränkt (3090, 4090, A6000). Es funktioniert nicht auf Pascal, Turing, Arc oder AMD-Karten. Die Stromverbrauchsmessung und die genauen Hardwarekosten sind nicht im Post belegt.

Nachbau-Empfehlung: Dieses Setup ist für Anfänger und fortgeschrittene Benutzer gleichermaßen empfehlenswert. Es ist kostengünstig und einfach zu implementieren. Für Benutzer mit mehreren GPUs (z.B. 2x 3090) bietet es eine gute Skalierbarkeit.


[MiniMax M2.7 AWQ-4bit on 2x Spark vs 2x RTX 6000 96GB – performance and energy efficiency] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht: Der Beitrag vergleicht die Performance und Energieeffizienz von MiniMax M2.7 AWQ-4bit auf 2x Spark-Clustern und 2x RTX 6000 96GB. Es werden Benchmarks und Kostenunterschiede präsentiert.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „2x RTX 6000 96GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM Latest (vllm/vllm-openai:latest)“ |
| Modell + Quant | „MiniMax M2.7 AWQ-4bit“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „2.7x faster on prompt processing, 4.88x faster on token generation“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „Rent $3.78/hour (cheaper options exist) (or ~$20K to own)“ |
| Autarkie-Fit | „BEDINGT“ |

Was funktioniert konkret? Das Setup auf 2x RTX 6000 96GB ist 2.7x schneller bei Prompt-Verarbeitung und 4.88x schneller bei Token-Generierung im Vergleich zu 2x Spark-Clustern. Die Energieeffizienz ist vergleichbar, und die Kostenunterschiede sind signifikant.

Was NICHT funktioniert / Limits: Das Setup ist teurer und erfordert eine Cloud-Infrastruktur (RunPod). Es ist nicht ideal für autarke, private Haushalte geeignet, da es eine kontinuierliche Kostenstruktur hat.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit höherem Budget und Cloud-Infrastruktur geeignet. Für private Haushalte ist es weniger empfehlenswert, da es wirtschaftlich weniger attraktiv ist.


[Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)] (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag beschreibt, wie das Team die Performance von Qwen3.6-27B auf einem RTX 3090 verbessert hat. Es gelingt, den Kontext auf ~218K zu erweitern und gleichzeitig stabile Tool-Agent-Workloads zu erreichen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM dev205+“ |
| Modell + Quant | „Qwen3.6-27B Q4_K“ |
| Kontext-Laenge | „~218K (text, narr/code), ~198K + vision“ |
| tok/s (single) | „~50 / 66 TPS“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Das Setup erreicht ~218K Kontext und ~50–66 TPS. Tool-Agent-Workloads sind stabil, und OOM-Fehler bei langen Tool-Ausgaben wurden behoben.

Was NICHT funktioniert / Limits: Es gibt immer noch eine Speicherkante bei ~50–60K Kontext für single-GPU-Workloads. Diese Schwierigkeit kann durch Tensor-Parallelität (z.B. 2x 3090) umgangen werden.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem RTX 3090 und hohen Kontextanforderungen empfehlenswert. Es ist stabil und bietet eine gute Performance für Tool-Agent-Workloads.


[Long-context coding on RTX 5080 16GB: Qwen3.6-35B-A3B holds 30 t/s at 128K (89 t/s fresh), no quality drop] (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag beschreibt, wie der Autor Qwen3.6-35B-A3B auf einem RTX 5080 16GB für langen Kontext (65K–128K) einsetzt. Es wird eine stabile Performance von 30 t/s bei 128K Kontext erreicht, ohne Qualitätsverlust.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 5080 16GB“ |
| CPU / Mainboard | „Ryzen 9700X (8c/16t)“ |
| RAM | „96GB DDR5“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp (patched fork)“ |
| Modell + Quant | „Qwen3.6-35B-A3B“ |
| Kontext-Laenge | „128K“ |
| tok/s (single) | „30 t/s (128K), 89 t/s (fresh)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Das Setup erreicht eine stabile Performance von 30 t/s bei 128K Kontext, ohne Qualitätsverlust. Es ist ideal für langen Kontext und Coding-Agent-Workloads geeignet.

Was NICHT funktioniert / Limits: Die Performance sinkt bei sehr langen Kontexten (über 128K). CUDA 13.x ist nicht kompatibel, und CUDA 12.9.1 ist erforderlich.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem RTX 5080 16GB und hohen Kontextanforderungen empfehlenswert. Es ist stabil und bietet eine gute Performance für Coding-Agent-Workloads.


[We are finally there: Qwen3.6-27B + agentic search; 95.7% SimpleQA on a single 3090, fully local] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Beitrag beschreibt, wie Qwen3.6-27B auf einem RTX 3090 mit agenterischem Suchen und Tool-Aufrufen eine hohe Genauigkeit in SimpleQA erreicht. Es werden Benchmarks und Ergebnisse präsentiert.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „Ollama backend“ |
| Modell + Quant | „Qwen3.6-27B“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |

Was funktioniert konkret? Das Setup erreicht 95.7% Genauigkeit in SimpleQA und 77.0% in xbench-DeepSearch. Es ist lokal und verwendet agenterisches Suchen und Tool-Aufrufe.

Was NICHT funktioniert / Limits: Die Benchmarks sind nicht für langen Kontext optimiert. Es gibt keine genauen Zahlen für die Performance (tok/s) und den Stromverbrauch.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem RTX 3090 und der Notwendigkeit, SimpleQA und agenterisches Suchen lokal zu betreiben, empfehlenswert. Es ist jedoch weniger geeignet für Workloads mit sehr langem Kontext.


Weitere Beiträge:

5070 Ti —> 3090 move. Worth it? — keine Hardware belegt, kein funktionierendes Setup
What’s your tps on 3090 + Qwen 3.6 27B in real tasks? — keine Hardware belegt, kein funktionierendes Setup
I hate this group but not literally — keine Hardware belegt, kein funktionierendes Setup
love it – Qwen3.6-27B — UD-Q5_K_XL evaluation — keine Hardware belegt, kein funktionierendes Setup
nvidia/Gemma-4-26B-A4B-NVFP4 — keine Hardware belegt, kein funktionierendes Setup
Best RTX Pro 6000 vllm settings? — keine Hardware belegt, kein funktionierendes Setup

👁 5 Aufrufe 👤 4 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert