Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Community, die sich mit der Dokumentation und Benchmarking von lokalen KI-Setups beschäftigt. In dieser Woche sind besonders die Einträge zu Qwen-3.6-27B auf einem RTX 3090 und die Portierung von EXL3 für Apple Silicon hervorzuheben. Diese Beiträge bieten konkrete Zahlen und Setup-Details, die für den Bau eines autarken, lokal laufenden KI-Setups hilfreich sind.
[Minimax M3 (4 bit MLX) Initial Benchmark on Mac Studio M3u 512gb] (8/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Beitrag enthält Benchmarks des Minimax M3 Modells in 4-bit MLX Quantisierung auf einem Mac Studio M3 Ultra mit 512 GB RAM. Der Benutzer hat verschiedene Testläufe durchgeführt und die Ergebnisse in einer Tabelle zusammengefasst.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | Apple M3 Ultra 512 GB |
| CPU / Mainboard | Apple M3 Ultra |
| RAM | 512 GB |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | MLX 0.20 |
| Modell + Quant | Minimax M3 4-bit MLX |
| Kontext-Laenge | 65k (mit OOM bei 16384) |
| tok/s (single) | 176.0 tok/s (bei 65k prompt) |
| tok/s (batched) | 269.1 tok/s (bei 8192 prompt) |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Das Setup erreicht hohe Token-per-Second-Raten, insbesondere bei kleineren Prompt-Größen. Die Kontext-Länge von 65k ist beeindruckend und ermöglicht komplexe Aufgaben. Die Benchmarks zeigen, dass das Modell stabil läuft und die Leistung gut ist.
Was NICHT funktioniert / Limits (2-4 Sätze): Bei sehr großen Prompt-Größen (16384 und höher) tritt OOM (Out of Memory) auf. Die Stromverbrauchswerte und die genauen Kosten des Setups sind nicht im Post belegt.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Benutzer mit einem Mac Studio M3 Ultra geeignet, die hohe Leistung und eine große Kontext-Länge benötigen. Es ist ideal für komplexe Aufgaben und Agenten, die viel Kontext benötigen. Die Kosten und Stromverbrauch sollten jedoch vor dem Bau geprüft werden.
[Cheapest hardware for Qwen 3.6: both 27B and 35B-A3B] (7/10) — OpenCode-Fit: BEDINGT

Worum es geht (2-4 Sätze): Der Benutzer stellt eine Parts-Liste vor, um Qwen 3.6 in den Versionen 27B und 35B-A3B lokal zu betreiben. Das Ziel ist es, ein kostengünstiges Setup zu finden, das mindestens 40 tok/s erreicht.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | MSI RTX 3090 VENTUS 3X 24G |
| CPU / Mainboard | Ryzen 5 5600X + ASUS TUF X570-PLUS |
| RAM | 32 GB DDR4 |
| PSU | Great Wall 1650W 80+ Gold |
| Chassis / Kuehlung | Phanteks PK620 Full Tower |
| Framework + Version | llama.cpp (nicht im Post belegt) |
| Modell + Quant | Qwen 3.6-27B, Qwen 3.6-35B-A3B |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | 40 tok/s (Ziel) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | $1,995.65 |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? (3-5 Sätze): Das Setup ist kostengünstig und bietet eine gute Balance zwischen Leistung und Preis. Es ist speziell für Qwen 3.6-27B und 35B-A3B optimiert und sollte die gewünschten 40 tok/s erreichen. Die Parts-Liste ist detailliert und nachbaubar.
Was NICHT funktioniert / Limits (2-4 Sätze): Die genauen Leistungsdaten und die Kontext-Länge sind nicht im Post belegt. Die Stromverbrauchswerte fehlen ebenfalls. Das Setup ist ideal für den Einsatz in einem privaten Haushalt, aber die Leistung sollte vor dem Bau geprüft werden.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Benutzer mit einem Budget von ca. 2000 EUR geeignet, die Qwen 3.6-27B und 35B-A3B lokal betreiben möchten. Es ist ein guter Kompromiss zwischen Leistung und Kosten, aber die genauen Leistungsdaten sollten vor dem Bau überprüft werden.
[This is amazing. Token speed doubled + kv cache now need low vram – qwen 27b] (9/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Benutzer berichtet von erheblichen Leistungsverbesserungen bei der Ausführung von Qwen 3.6-27B auf einem RTX 3090. Die Token-per-Second-Rate hat sich verdoppelt, und der VRAM-Verbrauch ist signifikant gesunken, während die Kontext-Länge von 256K beibehalten wurde.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 3090 24 GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | lucebox-hub (nicht im Post belegt) |
| Modell + Quant | Qwen3.6-27B Q4_K_M |
| Kontext-Laenge | 256K |
| tok/s (single) | 38.6 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Die Leistungssteigerung ist beeindruckend, die Token-per-Second-Rate hat sich verdoppelt, und der VRAM-Verbrauch ist von 21 GB auf 17.5 GB gesunken. Die Kontext-Länge von 256K bleibt erhalten, und die Genauigkeit der Ausgaben ist unverändert.
Was NICHT funktioniert / Limits (2-4 Sätze): Die genauen Hardware-Spezifikationen und die Stromverbrauchswerte sind nicht im Post belegt. Die Leistung sollte vor dem Bau geprüft werden, um sicherzustellen, dass das Setup den Anforderungen entspricht.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Benutzer geeignet, die hohe Leistung und eine große Kontext-Länge benötigen. Es ist ideal für komplexe Aufgaben und Agenten, die viel Kontext benötigen. Die genauen Hardware-Spezifikationen sollten vor dem Bau überprüft werden.
[I ported EXL3 to run well on Apple Silicon – PonyExl3] (8/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Benutzer hat EXL3 für Apple Silicon portiert und bietet Benchmarks für Qwen 3.6-27B und 35B-A3B auf einem M5 Max. Die Leistung ist beeindruckend, insbesondere bei der Verwendung von DFlash und MTP.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | Apple M5 Max |
| CPU / Mainboard | Apple M5 Max |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | PonyExl3 (nicht im Post belegt) |
| Modell + Quant | Qwen3.6-27B, Qwen3.6-35B-A3B |
| Kontext-Laenge | 256K (nicht im Post belegt) |
| tok/s (single) | ~17 tok/s (normal), ~38 tok/s (greedy) |
| tok/s (batched) | ~68.5 tok/s (Qwen3.6-35B-A3B) |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Die Portierung von EXL3 für Apple Silicon ist erfolgreich, und die Leistung ist beeindruckend. Qwen 3.6-27B erreicht ~17 tok/s bei normaler Temperatur und ~38 tok/s im Greedy-Modus. Qwen 3.6-35B-A3B erreicht sogar ~68.5 tok/s.
Was NICHT funktioniert / Limits (2-4 Sätze): Die genauen Hardware-Spezifikationen und die Stromverbrauchswerte sind nicht im Post belegt. Die Leistung sollte vor dem Bau geprüft werden, um sicherzustellen, dass das Setup den Anforderungen entspricht.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Benutzer mit Apple Silicon-Geräten geeignet, die hohe Leistung und eine große Kontext-Länge benötigen. Es ist ideal für komplexe Aufgaben und Agenten, die viel Kontext benötigen. Die genauen Hardware-Spezifikationen sollten vor dem Bau überprüft werden.
Weitere Beiträge (kurz):
– llama.cpp – how to free up even more space on your GPU — keine Hardware belegt, kein funktionierendes Setup
– Latest LM Studio update killed MTP performance — keine Hardware belegt, reine Problem-Frage ohne Lösung
– Build for local LLM with 2 separate GPUs — keine konkreten Benchmarks, nur Vorschläge
– RTX 5080 + RTX 3090 Setup: 80+ Tok/s on Qwen 3.6 27B Q8 — keine konkreten Benchmarks, nur Vorschläge
– Spent the weekend on the Apodex 4b, plus a quick look at the 35b mini — keine konkreten Benchmarks, nur Vorschläge
– DifussionGemma 4 on 4x7900xtx — keine konkreten Benchmarks, nur Vorschläge
– DiffusionGemma 26B A4B results on my 5090 — keine konkreten Benchmarks, nur Vorschläge