Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, funktionierende Setups zur lokalen Ausführung von KI-Modellen. Diese Woche gibt es besonders interessante Beiträge zu Qwen-3.6-27B, MiniMax M2.7, und verschiedenen GPU-Setups. Ein Leser kann heute Abend mit konkreten Benchmarks und Setup-Vorschlägen für Qwen-3.6-27B auf einem 3090 oder 3060 beginnen.
Benching local Qwen as a Codex validator, co-agent, and challenger (8/10) — OpenCode-Fit: JA

Worum es geht: Der Autor hat Qwen-3.6-27B lokal als Codex-Validator und Co-Agent getestet. Er hat ein Evaluierungssuite entwickelt, um verschiedene Qwen-3.6-27B-Profile zu testen, einschließlich Bartowski und Unsloth-Varianten, unterschiedliche Kontextgrößen und q8/f16 KV-Cache.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp“ |
| Modell + Quant | „Qwen-3.6-27B GGUF“ |
| Kontext-Laenge | „128k (KV-Cache OK) / 65k OOM“ |
| tok/s (single) | „72 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? Qwen-3.6-27B läuft stabil als Codex-Validator und Co-Agent. Die besten Profile für 128k Kontext sind Bartowski-128k-f16, Bartowski-128k-q8 und Unsloth-128k-q8. Die Kontextgröße hat mehr Einfluss als die KV-Cache-Variante (f16 vs. q8).
Was NICHT funktioniert / Limits Die 65k-Profile scheitern bei Kontextgrößen über 65k. Unsloth-128k-f16 hat lokale Speicher- und Durchsatzprobleme bei langen Kontexten.
Nachbau-Empfehlung Dieses Setup ist empfehlenswert für Entwickler, die Qwen-3.6-27B als Codex-Validator und Co-Agent einsetzen möchten. Es ist kostengünstig und bietet gute Leistung bei 128k Kontext.
MiniMax M2.7 AWQ-4bit on 2x Spark vs 2x RTX 6000 96GB – performance and energy efficiency (7/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Autor vergleicht die Leistung und Energieeffizienz von MiniMax M2.7 AWQ-4bit auf 2x Spark-GPUs und 2x RTX 6000 96GB-GPUs. Er stellt Benchmarks und Energieverbrauch dar.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „2x RTX 6000 96GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM“ |
| Modell + Quant | „MiniMax M2.7 AWQ-4bit“ |
| Kontext-Laenge | „128k (KV-Cache OK)“ |
| tok/s (single) | „30 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „ca. 20.000 EUR (neu)“ |
| Autarkie-Fit | „NEIN“ |
Was funktioniert konkret? MiniMax M2.7 AWQ-4bit läuft stabil auf 2x RTX 6000 96GB und erreicht 30 tok/s bei 128k Kontext. Die Energieeffizienz ist gut, aber die Kosten sind hoch.
Was NICHT funktioniert / Limits Die Spark-GPUs sind weniger leistungsfähig und energieintensiver. Parallel hochkontextuelle Anfragen führen zu Throttling und Leistungsverlust.
Nachbau-Empfehlung Dieses Setup ist für professionelle Anwendungen geeignet, aber wegen der hohen Kosten nicht für den privaten Haushalt. Für den privaten Einsatz sind günstigere Optionen wie 2x RTX 3090 zu empfehlen.
3xR9700 for semi-autonomous research and development – looking for setup/config ideas. (6/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Autor beschreibt sein Setup mit 3x R9700-GPUs und sucht nach Ideen für die Konfiguration. Er verwendet Qwen-3.6-27B auf 2x R9700-GPUs und plant, 3 agente zu betreiben.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „2x ASRock R9700, 1x XFX R9700“ |
| CPU / Mainboard | „9950X + ASUS ProArt X870E“ |
| RAM | „96 GB“ |
| PSU | „1300W Taichi T1300“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp mit Vulkan-Driver“ |
| Modell + Quant | „Qwen-3.6-27B Q8“ |
| Kontext-Laenge | „96GB VRAM (max 128k)“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |
Was funktioniert konkret? Das Setup läuft stabil mit Qwen-3.6-27B auf 2x R9700-GPUs. Es bietet ausreichend VRAM für 128k Kontext und kann für semi-autonome Forschung und Entwicklung genutzt werden.
Was NICHT funktioniert / Limits Die PCI-Verbindung des 3. GPUs ist eine Einschränkung. Die Leistung bei verteiltem Modellbetrieb könnte beeinträchtigt sein. Eine Upgrade auf Threadripper oder PCIe-Fabric-Karte wäre sinnvoll.
Nachbau-Empfehlung Dieses Setup ist für fortgeschrittene Benutzer geeignet, die semi-autonome Forschung und Entwicklung betreiben möchten. Für den privaten Haushalt sind günstigere Optionen wie 2x RTX 3090 zu empfehlen.
Weitere Beiträge:
– Building on a LLM Quants Testing Site/Ressource – Sharing a few insights from first month, so you can share your thoughts and wishes for the future. — keine Hardware belegt, kein nachbaubares Setup
– What a time to be alive from 1tk/sec to 20-100tk/sec for huge models — keine Hardware belegt, kein nachbaubares Setup
– Doesn’t look like there are any recent Linux distro suggestions. What’s your favorite and why? — keine Hardware belegt, kein nachbaubares Setup
– What could they mean by „warmed steady-state“? — keine Hardware belegt, kein nachbaubares Setup
– Need advice on Qwen 3.6 27B INT4 quantization — keine Hardware belegt, kein nachbaubares Setup
– Need help/pointers setting up 3090 on Linux…(second 3090 incoming) — keine Hardware belegt, kein nachbaubares Setup
– 5070 Ti —> 3090 move. Worth it? — keine Hardware belegt, kein nachbaubares Setup
– What’s your tps on 3090 + Qwen 3.6 27B in real tasks? — keine Hardware belegt, kein nachbaubares Setup
– We are finally there: Qwen3.6-27B + agentic search; 95.7% SimpleQA on a single 3090, fully local — keine Hardware belegt, kein nachbaubares Setup