Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist der Ort, an dem Community-User ihre lokalen KI-Setups dokumentieren und benchmarken. Diese Woche sind besonders die Setups mit Mac Studio M3 Ultra und RTX 5090 im Fokus. Ein Leser kann heute Abend mit konkreten Beispielen anfangen, wie er sein eigenes Setup bauen und optimieren kann.
[Qwen3.6 27B NVFP4 + MTP on a single RTX 5090: 200k context working in vLLM] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer teilt seine Erfahrungen mit dem Betrieb von Qwen3.6 27B NVFP4 auf einem einzelnen RTX 5090 GPU. Er hat das Modell mit Multi-Token Prediction (MTP) und 200k Kontext-Länge erfolgreich laufen lassen.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 5090 32GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM 0.20.1.dev0+g88d34c640.d20260502“ |
| Modell + Quant | „Peutlefaire/Qwen3.6-27B-NVFP4“ |
| Kontext-Laenge | „200k“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? Das Setup läuft stabil mit 200k Kontext-Länge und MTP. Die vLLM-Argumente sind gut dokumentiert, und der Benutzer hat die Konfiguration so eingestellt, dass das Modell effizient läuft.
Was NICHT funktioniert / Limits Das Setup ist spezifisch für den RTX 5090 optimiert und könnte bei anderen GPUs nicht die gleichen Leistungen erzielen. Die Stromverbrauchszahlen und die genauen Hardware-Kosten fehlen.
Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem RTX 5090 und einem Budget von ca. 1.500-2.000 EUR empfehlenswert. Es bietet eine ausgezeichnete Leistung für lokale KI-Anwendungen, insbesondere für Codierung und Textgenerierung.
[Mac Studio local loadout – May 2026] (7/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Benutzer teilt seine Erfahrungen mit verschiedenen Modellen auf einem Mac Studio M3 Ultra mit 512 GB RAM. Er beschreibt die Leistung und die Anwendungsfälle für GLM 5.1, Kimi K2.6, Minimax 2.7 und Qwen 3.6.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „Apple M3 Ultra“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „512 GB“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „nicht im Post belegt“ |
| Modell + Quant | „GLM 5.1, Kimi K2.6, Minimax 2.7, Qwen 3.6“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |
Was funktioniert konkret? GLM 5.1 und Kimi K2.6 sind besonders nützlich für Codierung und Textgenerierung. Minimax 2.7 ist schneller, aber für komplexe Aufgaben weniger geeignet. Qwen 3.6 9B ist für multimodale Aufgaben wie „translate this screenshot“ ausreichend und schneller als die größeren Modelle.
Was NICHT funktioniert / Limits Die 460 GB RAM des Mac Studio M3 Ultra sind begrenzt, insbesondere für größere Modelle wie Kimi K2.6. Gemma 4 31B hat Probleme mit der Unterstützung in llama.cpp und mlx-lm.
Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem Mac Studio M3 Ultra und einem Budget von ca. 3.000-4.000 EUR empfehlenswert. Es bietet eine gute Balance zwischen Leistung und Autarkie, aber die RAM-Begrenzung sollte berücksichtigt werden.
[Running Qwen3.5 / Qwen3.6 with NextN MTP (Multi-Token Prediction) speculative decode in llama.cpp — single RTX 3090 Ti GPU guide] (7/10) — OpenCode-Fit: JA
Worum es geht: Der Benutzer teilt eine detaillierte Anleitung, wie man Qwen3.5 und Qwen3.6 mit NextN MTP (Multi-Token Prediction) auf einem einzelnen RTX 3090 Ti GPU betreibt. Er beschreibt die erforderlichen PRs und den Build-Prozess.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 Ti 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp (Fork von nickstx)“ |
| Modell + Quant | „Qwen3.5-4B-MTP, Qwen3.6-27B-NVFP4“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „150 tok/s (35B-A3B)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? Die Anleitung ist gut strukturiert und hilft anderen Benutzern, das Setup zu reproduzieren. Qwen3.5 und Qwen3.6 laufen stabil mit MTP, was die Leistung erheblich steigert.
Was NICHT funktioniert / Limits Die PRs sind noch nicht in den offiziellen llama.cpp-Repositorys merged, was zusätzliche Arbeit bei der Installation erfordert. Die Kontext-Länge und die genauen Leistungsdaten fehlen.
Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem RTX 3090 Ti und einem Budget von ca. 1.500-2.000 EUR empfehlenswert. Es bietet eine ausgezeichnete Leistung für lokale KI-Anwendungen, insbesondere für Codierung und Textgenerierung.
[I Ralph-looped Opus overnight. It reduced my local model switching with cold backfilling context of 135k+ on llama.cpp from ~165s -> 5s!] (7/10) — OpenCode-Fit: JA
Worum es geht: Der Benutzer beschreibt, wie er die KV-Cache-Überlebensfähigkeit bei Modellwechseln auf einem einzelnen RTX 3090 Ti verbessert hat. Er verwendet zwei offene PRs und ein Python-Skript, um die KV-Cache-Dateien auf NVMe zu verlinken.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 Ti 24GB“ |
| CPU / Mainboard | „Ryzen 9950x“ |
| RAM | „96GB DDR5“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp“ |
| Modell + Quant | „Qwen3.6-27B, Qwen3-coder-30B, Gemma-4-31B, GPT-OSS-20B, Qwen3.6-35B, Nemotron-Cascade-2-30B, Qwen3.6-35B, Qwen3-coder-30B, Ministral-8B, Nemotron-Nano-4B, Qwen3-4B“ |
| Kontext-Laenge | „135k+“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? Die KV-Cache-Überlebensfähigkeit bei Modellwechseln wurde von 165 Sekunden auf 5 Sekunden reduziert. Dies ermöglicht eine nahezu vollständige Claude-Code-Erfahrung lokal.
Was NICHT funktioniert / Limits Die PRs sind noch nicht in den offiziellen llama.cpp-Repositorys merged, was zusätzliche Arbeit bei der Installation erfordert. Die genauen Leistungsdaten und die Stromverbrauchszahlen fehlen.
Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem RTX 3090 Ti und einem Budget von ca. 1.500-2.000 EUR empfehlenswert. Es bietet eine ausgezeichnete Leistung für lokale KI-Anwendungen, insbesondere für Codierung und Textgenerierung.
[DeepSeek V4 being 17x cheaper got me to actually measure what I send to cloud vs what I could run locally. the results are stupid.] (6/10) — OpenCode-Fit: BEDINGT
Worum es geht: Der Benutzer hat seine tägliche Codierungsarbeit analysiert und festgestellt, dass 65% der Aufgaben lokal mit Qwen3.6 27B auf einem RTX 3090 gelöst werden können. Dies hat seinen Cloud-Verbrauch erheblich reduziert.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „nicht im Post belegt“ |
| Modell + Quant | „Qwen3.6-27B“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |
Was funktioniert konkret? 65% der täglichen Codierungsarbeit kann lokal mit Qwen3.6 27B auf einem RTX 3090 gelöst werden, was den Cloud-Verbrauch erheblich reduziert.
Was NICHT funktioniert / Limits 35% der Aufgaben erfordern weiterhin Cloud-Modelle, insbesondere für komplexe Refaktorisierungen und Architektur-Entscheidungen.
Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem RTX 3090 und einem Budget von ca. 1.500-2.000 EUR empfehlenswert. Es bietet eine gute Balance zwischen lokaler und cloudbasierter Verarbeitung, insbesondere für Codierung und Textgenerierung.
[Benching local Qwen as a Codex validator, co-agent, and challenger] (6/10) — OpenCode-Fit: BEDINGT
Worum es geht: Der Benutzer hat Qwen3.6 27B als Codex-Validator, Co-Agent und Challenger getestet. Er hat verschiedene Quantisierungen und Kontext-Längen evaluiert und die Ergebnisse in einem benutzerdefinierten Test-Suite zusammengefasst.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 5090 32GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp“ |
| Modell + Quant | „Qwen3.6-27B (Bartowski-128k-f16, Bartowski-128k-q8, Unsloth-128k-q8)“ |
| Kontext-Laenge | „128k“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |
Was funktioniert konkret? Die 128k-Profile (Bartowski-128k-f16, Bartowski-128k-q8, Unsloth-128k-q8) haben sich in der Test-Suite gut bewährt. q8 KV hat keine messbare Genauigkeitsverluste gezeigt.
Was NICHT funktioniert / Limits Die 65k-Profile scheitern bei Aufgaben, die mehr als 65k Kontext erfordern. Die Unsloth-128k-f16-Profile haben lokale Speicher- und Durchsatzprobleme bei langen Kontexten.
Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem RTX 5090 und einem Budget von ca. 1.500-2.000 EUR empfehlenswert. Es bietet eine gute Leistung für lokale KI-Anwendungen, insbesondere für Codierung und Textgenerierung, aber die Kont