Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine wertvolle Quelle für Community-User, die ihre lokalen KI-Setups dokumentieren. Diese Woche sind besonders die Einträge zu Qwen3.6 27B auf RTX 3090 und 5090 sowie die Benchmarking-Ergebnisse für Gemma 4 26B auf RTX 5090 hervorzuheben. Ein Leser kann heute Abend mit diesen konkreten Beispielen anfangen, um ein funktionierendes Setup für OpenCode lokal zu bauen.

[BeeLlama.cpp: advanced DFlash & TurboQuant with support of reasoning and vision. Qwen 3.6 27B Q5 with 200k context on 3090, 2-3x faster than baseline (peak 135 tps!)] (8/10) — OpenCode-Fit: JA

Zum Original |

Worum es geht (2-4 Sätze): Der Beitrag stellt BeeLlama.cpp vor, eine leistungsstarke llama.cpp-Fork, die Qwen 3.6 27B Q5 auf einem RTX 3090 mit 200k Kontext und Vision-Unterstützung laufen lässt. Es verwendet DFlash spekulatives Decoding, TurboQuant KV-Cache-Kompression und reasoning-loop Schutz.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): BeeLlama.cpp ermöglicht das Laufen von Qwen 3.6 27B Q5 auf einem RTX 3090 mit 200k Kontext und Vision-Unterstützung. Die Leistung ist bis zu 2-3 Mal schneller als bei der Baseline, wobei die spekulativen Decoding-Techniken und KV-Cache-Kompression eine entscheidende Rolle spielen.

Was NICHT funktioniert / Limits (2-4 Sätze): Die CPU, RAM, PSU und Kühlung werden nicht spezifiziert, was die Nachbau-Empfehlung erschwert. Zudem fehlen die genauen Stromverbrauchszahlen und die Kosten des Setups.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer geeignet, die ein leistungsstarkes, aber kostengünstiges Setup für Qwen 3.6 27B mit 200k Kontext benötigen. Es wird empfohlen, die fehlenden Hardware-Komponenten und die Kosten zu recherchieren, um ein vollständiges Setup zu erstellen.

[Gemma 4 26B Hits 600 Tok/s on One RTX 5090] (8/10) — OpenCode-Fit: JA

Zum Original |

Worum es geht (2-4 Sätze): Der Beitrag beschreibt ein Benchmarking von Gemma 4 26B auf einem RTX 5090, wobei DFlash spekulatives Decoding verwendet wird, um die Leistung zu verbessern. Die Tests zeigen eine erhebliche Steigerung der Tokens pro Sekunde (tok/s) von 228 auf 578 bei 13 spekulativen Tokens.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Gemma 4 26B erreicht auf einem RTX 5090 mit DFlash spekulativem Decoding eine Leistung von 578 tok/s bei 262K Kontext. Die spekulativen Tokens verbessern die Durchsatzrate erheblich, was das Setup für anspruchsvolle Workloads geeignet macht.

Was NICHT funktioniert / Limits (2-4 Sätze): Die CPU, RAM, PSU und Kühlung werden nicht spezifiziert, was die Nachbau-Empfehlung erschwert. Zudem gibt es Berichte, dass DFlash bei hohen Kontextlängen (ab 20k) an Effizienz verliert.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer geeignet, die eine hohe Leistung bei großen Kontextlängen benötigen. Es wird empfohlen, die fehlenden Hardware-Komponenten und die Kosten zu recherchieren, um ein vollständiges Setup zu erstellen. Bei sehr hohen Kontextlängen sollte auf DFlash verzichtet werden.

[Benchmark Qwen 3.6 27B MTP on 2×3090 NVLINK] (7/10) — OpenCode-Fit: JA

Zum Original |

Worum es geht (2-4 Sätze): Der Beitrag beschreibt ein Benchmarking von Qwen 3.6 27B auf 4x RTX 3090 mit NVLink, wobei die Leistung bei unterschiedlichen Tensor-Parallelismus-Einstellungen (TP) verglichen wird. Die Tests zeigen, dass NVLink eine signifikante Leistungssteigerung gegenüber PCIe bietet.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Qwen 3.6 27B erreicht auf 4x RTX 3090 mit NVLink eine Leistung von 66.0 tok/s bei TP=2. NVLink bietet eine signifikante Leistungssteigerung gegenüber PCIe, insbesondere bei niedrigerem Parallelismus.

Was NICHT funktioniert / Limits (2-4 Sätze): Die CPU, RAM, PSU und Kühlung werden nicht spezifiziert, was die Nachbau-Empfehlung erschwert. Zudem wird bei TP=4 die Leistung wieder schlechter, was darauf hindeutet, dass NVLink nur bei niedrigerem Parallelismus optimal funktioniert.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer geeignet, die eine hohe Leistung bei moderatem Parallelismus benötigen. Es wird empfohlen, die fehlenden Hardware-Komponenten und die Kosten zu recherchieren, um ein vollständiges Setup zu erstellen. Bei höherem Parallelismus sollte auf NVLink verzichtet werden.

[Mac Studio local loadout – May 2026] (7/10) — OpenCode-Fit: BEDINGT

Zum Original |

Worum es geht (2-4 Sätze): Der Beitrag beschreibt die tägliche Nutzung verschiedener Modelle auf einem Mac Studio M3 Ultra mit 460GB RAM. Es gibt Vergleiche zwischen GLM 5.1, Kimi K2.6, Minimax 2.7 und Qwen 3.5 9B, wobei GLM 5.1 als der beste Kompromiss zwischen Größe und Leistung hervorgeht.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): GLM 5.1 ist der beste Kompromiss zwischen Größe und Leistung, wobei es für die tägliche Nutzung von Claude Code und anderen Aufgaben gut geeignet ist. Kimi K2.6 ist schneller, aber wegen der Größe weniger flexibel.

Was NICHT funktioniert / Limits (2-4 Sätze): Die CPU, RAM, PSU und Kühlung werden nicht spezifiziert, was die Nachbau-Empfehlung erschwert. Zudem gibt es Probleme mit der Offiziellunterstützung von Gemma 4 31B und Mimo 2.5.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer geeignet, die ein leistungsstarkes, aber flexibles Setup auf einem Mac Studio M3 Ultra benötigen. Es wird empfohlen, die fehlenden Hardware-Komponenten und die Kosten zu recherchieren, um ein vollständiges Setup zu erstellen. Bei der Wahl des Modells sollte auf GLM 5.1 oder Kimi K2.6 geachtet werden.

[Running Qwen3.5 / Qwen3.6 with NextN MTP (Multi-Token Prediction) speculative decode in llama.cpp — single RTX 3090 Ti GPU guide] (7/10) — OpenCode-Fit: JA

Zum Original |

Worum es geht (2-4 Sätze): Der Beitrag bietet eine Anleitung, wie man Qwen3.5 und Qwen3.6 mit NextN MTP (Multi-Token Prediction) spekulativem Decoding auf einem RTX 3090 Ti laufen lassen kann. Es werden die notwendigen PRs und Build-Schritte beschrieben.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Qwen3.5 und Qwen3.6 erreichen auf einem RTX 3090 Ti mit NextN MTP eine Leistung von 150 tok/s. Die spekulativen Decoding-Techniken verbessern die Leistung erheblich, wobei die Qualität erhalten bleibt.

Was NICHT funktioniert / Limits (2-4 Sätze): Die CPU, RAM, PSU und Kühlung werden nicht spezifiziert, was die Nachbau-Empfehlung erschwert. Zudem sind die PRs noch nicht im offiziellen llama.cpp-Repository merged, was zusätzliche Schritte zur Installation erfordert.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Ben

👁 3 Aufrufe 👤 2 Leser