Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für echte, funktionierende lokale KI-Setups. In dieser Woche sind insbesondere die Einträge zu Qwen-3.5-27B auf RTX 5090 und die Vergleiche zwischen verschiedenen Modellen auf Apple Silicon besonders belegt. Leser können heute Abend mit konkreten Beispielen und Zahlen beginnen, ihre eigenen lokalen KI-Setups zu planen und zu optimieren.
[Qwen3.5-27B on RTX 5090 served via vLLM @ 77 tps] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer hat Qwen3.5-27B auf einem RTX 5090 GPU mit 24 GB VRAM installiert und erreicht 77 tokens pro Sekunde (tps). Das Setup verwendet vLLM 0.19 und kann 218k Kontextfenster verarbeiten.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 5090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM 0.19.0“ |
| Modell + Quant | „Qwen3.5-27B INT8“ |
| Kontext-Laenge | „218k“ |
| tok/s (single) | „77 tps“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? Das Setup erreicht 77 tokens pro Sekunde, was für die meisten Anwendungen ausreichend ist. Es kann 218k Kontextfenster verarbeiten, was für die meisten Aufgaben reicht. Die Verwendung von vLLM 0.19 optimiert die Leistung und ermöglicht die parallele Verarbeitung von zwei Sitzungen.
Was NICHT funktioniert / Limits: Das Modell kann bei 256k Kontextfenster nicht stabil laufen. Es gibt auch keine Informationen über den Stromverbrauch oder die Kosten des Setups.
Nachbau-Empfehlung: Dieses Setup ist eine ausgezeichnete Wahl für Benutzer mit einem RTX 5090 und 24 GB VRAM. Es bietet eine gute Balance zwischen Leistung und Kontextgröße. Für Benutzer mit höheren Anforderungen oder mehr VRAM könnte ein Upgrade auf 32 GB VRAM sinnvoll sein.
[Qwen3.5-27B, Qwen3.5-122B, and Qwen3.6-35B on 4x RTX 3090 — MoEs struggle with strict global rules] (7/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Benutzer hat drei Qwen-Modelle (27B, 122B, 35B) auf 4x RTX 3090 GPUs getestet. Die Tests zeigen, dass die MoE-Modelle (122B und 35B) bei strengen globalen Regeln schlechter abschneiden als das dichte 27B-Modell.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „4x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM 0.19.0“ |
| Modell + Quant | „Qwen3.5-27B INT8, Qwen3.5-122B-A10B AWQ-INT4, Qwen3.6-35B-A3B FP8“ |
| Kontext-Laenge | „262k“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „250W“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |
Was funktioniert konkret? Das dichte Qwen3.5-27B-Modell zeigt bessere Leistungen bei strengen globalen Regeln. Es kann 262k Kontextfenster verarbeiten und erreicht eine gute Leistung bei 250W Leistungsaufnahme.
Was NICHT funktioniert / Limits: Die MoE-Modelle (122B und 35B) haben Schwierigkeiten, strengere Regeln einzuhalten, was ihre Eignung für bestimmte Anwendungen einschränkt. Es gibt auch keine genauen Zahlen zur Token-Generierung bei paralleler Verarbeitung.
Nachbau-Empfehlung: Für Benutzer, die strenge Regeln und hohe Kontextgrößen benötigen, ist das dichte Qwen3.5-27B-Modell die bessere Wahl. MoE-Modelle sind für weniger strenge Anwendungen geeignet, aber die Regelfolge muss sorgfältig überwacht werden.
[MiniMax2.7 Local Results on Terminal Bench. Dud. Anyone using this for agent coding in Claude?] (6/10) — OpenCode-Fit: NEIN

Worum es geht: Der Benutzer hat MiniMax2.7 (Q8_0, unsloth GGUF) auf einem Mac Studio M3 Ultra mit 512 GB Unified Memory getestet. Die Ergebnisse zeigen, dass MiniMax2.7 bei Terminal-Bench 2.0 schlechter abschneidet als MiniMax2.5.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „Apple M3 Ultra“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „512 GB Unified Memory“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp build 8680“ |
| Modell + Quant | „MiniMax2.7 Q8_0“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „10-17 tps“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „NEIN“ |
Was funktioniert konkret? MiniMax2.7 erreicht 10-17 tokens pro Sekunde, was für einfache Aufgaben ausreichend sein kann. Es kann lokal auf einem Mac Studio M3 Ultra laufen.
Was NICHT funktioniert / Limits: MiniMax2.7 zeigt bei Terminal-Bench 2.0 schlechtere Ergebnisse als MiniMax2.5. Es gibt mehr Timeouts und die Leistung ist insgesamt langsamer. Die Lizenzsituation ist auch problematisch.
Nachbau-Empfehlung: Für Benutzer, die eine zuverlässige und leistungsfähige Lösung benötigen, ist MiniMax2.5 die bessere Wahl. MiniMax2.7 ist derzeit nicht empfehlenswert, insbesondere aufgrund der Lizenzprobleme und der geringeren Leistung.
Weitere Beitraege:
– Can someone point me to an uncensored local llm that can run on a 5090? — keine Hardware belegt, kein nachbaubares Setup
– Optimizing Qwen 3.6 35B A3B sampling parameters. — keine Hardware belegt, kein nachbaubares Setup
– I ran an experiment on the 30b class of gemma4 and qwen3.5 models to try to learn about energy cost and performance tradeoffs. — keine Hardware belegt, kein nachbaubares Setup
– eGPU vs system RAM — keine Hardware belegt, kein nachbaubares Setup
– Brand new dual 3090 PC – what should I install first for the best local agentic coding experience? — keine Hardware belegt, kein nachbaubares Setup
– Are we at the point where local AI isn’t a compromise anymore? (Gemma 4 experience) — keine Hardware belegt, kein nachbaubares Setup
– Choosing a Mac Mini for local LLMs — what would YOU actually buy? — keine Hardware belegt, kein nachbaubares Setup
– Completely lost with AI instructions for RTX 4090 and 32 GB RAM — keine Hardware belegt, kein nachbaubares Setup
– Appreciate your feedback on llama 43t/s for my specs – 5090 24GB VRAM — keine Hardware belegt, kein nachbaubares Setup