Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für echte, funktionierende lokale KI-Setups. In dieser Woche sind insbesondere die Einträge zu Qwen 3.6 35B, Gemma 4 und MiniMax 2.7 besonders belegt. Diese Beiträge bieten konkrete Hardware- und Software-Konfigurationen, die für den Betrieb von lokalen KI-Modellen geeignet sind. Ein Leser kann heute Abend mit einem der hier vorgestellten Setups beginnen, um ein eigenes lokales KI-Setup aufzubauen.
[Qwen3.5-27B on RTX 5090 served via vLLM @ 77 tps] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer hat Qwen3.5-27B auf einem RTX 5090 mit 24 GB VRAM eingerichtet und erreicht 77 Tokens pro Sekunde (tps) bei einem Kontextfenster von 218k Tokens. Er verwendet vLLM 0.19 und hat einige spezifische Konfigurationen angewendet, um die Leistung zu optimieren.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 5090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „32 GB DDR5 6400MHz“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM 0.19.0“ |
| Modell + Quant | „Qwen3.5-27B Text NVFP4“ |
| Kontext-Laenge | „218k“ |
| tok/s (single) | „77 tps“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? Qwen3.5-27B läuft stabil auf einem RTX 5090 mit 24 GB VRAM und erreicht 77 Tokens pro Sekunde bei einem Kontextfenster von 218k Tokens. Die Konfiguration ermöglicht auch das parallele Betreiben von zwei Sitzungen, wobei die Geschwindigkeit pro Sitzung entsprechend sinkt.
Was NICHT funktioniert / Limits Das Modell kann bei vLLM 0.19 nicht das vollständige Kontextfenster von 256k Tokens nutzen. Es gibt auch keine Informationen über den Stromverbrauch oder die Kosten des Setups.
Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem RTX 5090 und 32 GB RAM geeignet. Es bietet eine ausgezeichnete Leistung für den Betrieb von Qwen3.5-27B und ist für den privaten Einsatz geeignet. Für Benutzer mit höherem Budget könnten zusätzliche GPU- und RAM-Kapazitäten die Leistung weiter verbessern.
[Are we at the point where local AI isn’t a compromise anymore? (Gemma 4 experience)] (6/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Benutzer hat Gemma 4 (26B MoE) auf einem RTX 3090 getestet und ist der Meinung, dass lokale KI-Modelle inzwischen eine echte Alternative zu Cloud-Modellen sein können. Er erreicht 80-110 Tokens pro Sekunde bei einem großen Kontextfenster, aber es gibt noch einige Probleme wie Tool-Loops und Kontext-Reliabilität.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „nicht im Post belegt“ |
| Modell + Quant | „Gemma 4 26B MoE Q3_K_M“ |
| Kontext-Laenge | „groß“ |
| tok/s (single) | „80-110 tps“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |
Was funktioniert konkret? Gemma 4 (26B MoE) läuft stabil auf einem RTX 3090 mit 24 GB VRAM und erreicht 80-110 Tokens pro Sekunde bei einem großen Kontextfenster. Das Modell bietet gute Leistung und ist für viele Aufgaben geeignet.
Was NICHT funktioniert / Limits Es gibt Probleme mit Tool-Loops in Agent-Setups, Kontext-Reliabilität und einigen Inference-Bugs. Die Leistung kann je nach Konfiguration stark variieren.
Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem RTX 3090 und 24 GB VRAM geeignet. Es bietet eine gute Leistung für den Betrieb von Gemma 4, aber es gibt noch einige Einschränkungen, die berücksichtigt werden müssen. Für Benutzer mit höherem Budget könnten zusätzliche GPU- und RAM-Kapazitäten die Leistung weiter verbessern.
Weitere Beiträge
– Optimizing Qwen 3.6 35B A3B sampling parameters. — keine Hardware belegt, kein funktionierendes Setup
– I ran an experiment on the 30b class of gemma4 and qwen3.5 models to try to learn about energy cost and performance tradeoffs. — keine Hardware belegt, kein funktionierendes Setup
– eGPU vs system RAM — keine Hardware belegt, kein funktionierendes Setup
– Brand new dual 3090 PC – what should I install first for the best local agentic coding experience? — keine Hardware belegt, kein funktionierendes Setup
– Choosing a Mac Mini for local LLMs — what would YOU actually buy? — keine Hardware belegt, kein funktionierendes Setup
– MiniMax2.7 Local Results on Terminal Bench. Dud. Anyone using this for agent coding in Claude? — keine Hardware belegt, kein funktionierendes Setup
– Completely lost with AI instructions for RTX 4090 and 32 GB RAM — keine Hardware belegt, kein funktionierendes Setup
– Qwen3.5-27B, Qwen3.5-122B, and Qwen3.6-35B on 4x RTX 3090 — MoEs struggle with strict global rules — keine Hardware belegt, kein funktionierendes Setup
– Appreciate your feedback on llama 43t/s for my specs – 5090 24GB VRAM — keine Hardware belegt, kein funktionierendes Setup
Weitere Beitraege (automatisch gefiltert):
– Qwen 3.5B is so impressive, it found multiple bugs claude opus 4.7 couldnt — keine konkreten Messwerte, keine nachbaubaren Daten