Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build-Berichten und Benchmarks geprägt. Besonders hervorzuheben sind die Einträge, die funktionierende Setups mit konkreten tok/s-Zahlen und Modell-Varianten dokumentieren. Diese Woche sind insbesondere die Einträge zu Qwen3.6-27B auf V100s, das BeeLlama.cpp-Projekt und die Benchmark von Qwen 3.6 27B MTP auf 2×3090 NVLink besonders belegt. Leser, die heute Abend ein funktionierendes Setup aufbauen möchten, finden hier konkrete Anleitungen und Zahlen.

[BeeLlama.cpp: advanced DFlash & TurboQuant with support of reasoning and vision. Qwen 3.6 27B Q5 with 200k context on 3090, 2-3x faster than baseline (peak 135 tps!)] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag stellt eine neue llama.cpp-Fork namens BeeLlama.cpp vor, die speziell für die lokale Inferenz von Qwen 3.6 27B Q5 auf einem RTX 3090 entwickelt wurde. Es unterstützt DFlash speculative decoding, TurboQuant KV-cache-Kompression und multimodale Unterstützung.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? BeeLlama.cpp ermöglicht die lokale Inferenz von Qwen 3.6 27B Q5 auf einem RTX 3090 mit 200k Kontext-Länge und erreicht bis zu 135 tps. Die DFlash speculative decoding und TurboQuant KV-cache-Kompression sorgen für eine erhebliche Leistungssteigerung.

Was NICHT funktioniert / Limits Die Setup-Kosten und die genauen Stromverbrauchszahlen sind nicht im Post belegt. Die Komplexität der Installation und Konfiguration könnte für Anfänger ein Hindernis sein.

Nachbau-Empfehlung Dieses Setup ist besonders für fortgeschrittene Nutzer geeignet, die eine hohe Kontext-Länge und Leistung benötigen. Für Anfänger könnte ein einfacheres Setup mit weniger Komplexität sinnvoller sein.

[Got MTP + TurboQuant running — Qwen3.6-27B — 80+ t/s at 262K context on a single RTX 4090] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag beschreibt, wie der Nutzer MTP (Multi-Token Prediction) und TurboQuant auf Qwen3.6-27B auf einem RTX 4090 eingerichtet hat. Es erreicht bis zu 80-87 tps bei 262K Kontext-Länge.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht eine hohe Leistung von 80-87 tps bei 262K Kontext-Länge. Die MTP-Unterstützung und TurboQuant-Kompression sorgen für eine erhebliche Leistungssteigerung.

Was NICHT funktioniert / Limits Die genauen Stromverbrauchszahlen und die Komplexität der Installation sind nicht im Post belegt. Die Leistung kann bei sehr hohen Kontext-Längen abnehmen.

Nachbau-Empfehlung Dieses Setup ist besonders für fortgeschrittene Nutzer geeignet, die eine hohe Leistung und Kontext-Länge benötigen. Für Anfänger könnte ein einfacheres Setup mit weniger Komplexität sinnvoller sein.

[Gemma 4 26B Hits 600 Tok/s on One RTX 5090] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Beitrag beschreibt eine Benchmark von Gemma 4 26B auf einem RTX 5090 mit DFlash speculative decoding. Es erreicht bis zu 600 tok/s bei 256 Input- und 1024 Output-Tokens.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht eine hohe Leistung von 600 tok/s bei 256 Input- und 1024 Output-Tokens. DFlash speculative decoding sorgt für eine erhebliche Leistungssteigerung.

Was NICHT funktioniert / Limits Die Leistung kann bei sehr hohen Kontext-Längen abnehmen. Die genauen Stromverbrauchszahlen und die Komplexität der Installation sind nicht im Post belegt.

Nachbau-Empfehlung Dieses Setup ist besonders für fortgeschrittene Nutzer geeignet, die eine hohe Leistung benötigen. Für Anfänger könnte ein einfacheres Setup mit weniger Komplexität sinnvoller sein.

[Benchmark Qwen 3.6 27B MTP on 2×3090 NVLINK] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Beitrag beschreibt eine Benchmark von Qwen 3.6 27B MTP auf 2×3090 mit NVLink. Es zeigt, dass die Verwendung von NVLink eine erhebliche Leistungssteigerung bringt.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Die Verwendung von NVLink zwischen den GPUs führt zu einer erheblichen Leistungssteigerung von bis zu 25% bei einer Konkurrenz von 1 und 53% bei einer Konkurrenz von 4.

Was NICHT funktioniert / Limits Die Leistung kann bei sehr hohen Kontext-Längen abnehmen. Die genauen Stromverbrauchszahlen und die Komplexität der Installation sind nicht im Post belegt.

Weitere Beitraege (automatisch gefiltert):
– Mac Studio local loadout – May 2026 — keine Hardware belegt, kein nachbaubares Setup

👁 6 Aufrufe 👤 4 Leser