Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, nachbaubare Setups zur lokalen KI-Inferenz. In dieser Woche sind besonders die Einträge zu Qwen 3.6 27B, Gemma 4 26B und verschiedenen Optimierungen für RTX 3090 und 5090 hervorzuheben. Ein Leser kann heute Abend mit einem Setup beginnen, das 200k Kontext und 135 tok/s auf einem einzelnen RTX 3090 erreicht.

[BeeLlama.cpp: advanced DFlash & TurboQuant with support of reasoning and vision. Qwen 3.6 27B Q5 with 200k context on 3090, 2-3x faster than baseline (peak 135 tps!)] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Autor hat eine neue llama.cpp-Fork namens BeeLlama.cpp entwickelt, die DFlash speculative decoding, TurboQuant KV-cache-Kompression und reasoning-loop-Protection unterstützt. Das Setup ermöglicht das Laufen von Qwen 3.6 27B Q5 mit 200k Kontext auf einem einzelnen RTX 3090 und erreicht bis zu 135 tok/s.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? BeeLlama.cpp ermöglicht das Laufen von Qwen 3.6 27B Q5 mit 200k Kontext auf einem einzelnen RTX 3090 und erreicht bis zu 135 tok/s. Die DFlash speculative decoding und TurboQuant KV-cache-Kompression sorgen für eine erhebliche Leistungssteigerung.

Was NICHT funktioniert / Limits Es gibt keine Angaben zu CPU, RAM, PSU, Chassis und Kuehlung. Die Leistung könnte bei anderen Hardware-Konfigurationen variieren.

Nachbau-Empfehlung Dieses Setup ist für Benutzer geeignet, die ein leistungsstarkes, aber kostengünstiges Setup für lokale KI-Inferenz suchen. Es ist besonders empfehlenswert für den Einsatz von Qwen 3.6 27B mit hohem Kontext.

[Qwen3.6 27B NVFP4 + MTP on a single RTX 5090: 200k context working in vLLM] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Autor hat Qwen3.6 27B NVFP4 mit MTP auf einem einzelnen RTX 5090 getestet und erreicht 200k Kontext. Die Leistung beträgt 135 tok/s.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup ermöglicht das Laufen von Qwen3.6 27B NVFP4 mit 200k Kontext auf einem einzelnen RTX 5090 und erreicht 135 tok/s. Die Verwendung von MTP und flashinfer sorgt für eine hohe Leistung.

Was NICHT funktioniert / Limits Es gibt keine Angaben zu CPU, RAM, PSU, Chassis und Kuehlung. Die Leistung könnte bei anderen Hardware-Konfigurationen variieren.

[Gemma 4 26B Hits 600 Tok/s on One RTX 5090] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Autor hat ein Benchmark für Gemma 4 26B auf einem RTX 5090 durchgeführt und erreicht 600 tok/s mit DFlash speculative decoding.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup ermöglicht das Laufen von Gemma 4 26B auf einem RTX 5090 und erreicht 600 tok/s mit DFlash speculative decoding. Die Leistung ist beeindruckend, insbesondere bei hohen Kontext-Längen.

Was NICHT funktioniert / Limits Es gibt keine Angaben zu CPU, RAM, PSU, Chassis und Kuehlung. Die Leistung könnte bei anderen Hardware-Konfigurationen variieren. Zudem gibt es Berichte, dass DFlash bei hohen Kontext-Längen (20k+) Probleme hat.

Nachbau-Empfehlung Dieses Setup ist für Benutzer geeignet, die eine hohe Leistung bei lokaler KI-Inferenz suchen. Es ist besonders empfehlenswert für den Einsatz von Gemma 4 26B, aber die Anwendung bei sehr hohen Kontext-Längen sollte vorsichtig geprüft werden.

[Benchmark Qwen 3.6 27B MTP on 2×3090 NVLINK] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Autor hat ein Benchmark für Qwen 3.6 27B MTP auf 2x RTX 3090 mit NVLink durchgeführt. Die Leistung steigt um 25% bei einer GPU und um 53% bei vier GPUs.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup ermöglicht das Laufen von Qwen 3.6 27B MTP auf 2x RTX 3090 mit NVLink und erreicht 66.0 tok/s bei TP=2. Die Verwendung von NVLink sorgt für eine erhebliche Leistungssteigerung.

Was NICHT funktioniert / Limits Es gibt keine Angaben zu CPU, RAM, PSU, Chassis und Kuehlung. Die Leistung könnte bei anderen Hardware-Konfigurationen variieren. Zudem gibt es Berichte, dass die Verwendung von vier GPUs die Leistung nicht weiter verbessert.

Nachbau-Empfehlung Dieses Setup ist für Benutzer geeignet, die eine hohe Leistung bei lokaler KI-Inferenz suchen. Es ist besonders empfehlenswert für den Einsatz von Qwen 3.6 27B MTP, aber die Anwendung bei sehr hohen Kontext-Längen sollte vorsichtig geprüft werden.

[Mac Studio local loadout – May 2026] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Autor beschreibt seine tägliche Nutzung von verschiedenen Modellen auf einem Mac Studio M3 Ultra. Er vergleicht die Leistung und Anwendungsbereiche von GLM 5.1, Kimi K2.6, Minimax 2.7, Qwen 3.5 9B und Qwen 3.6 35B.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup ermöglicht das Laufen von verschiedenen Modellen auf einem Mac Studio M3 Ultra. GLM 5.1 und Kimi K2.6 sind besonders gut für den Einsatz in der Entwicklung, während Qwen 3.5 9B für multimodale Aufgaben geeignet ist.

Was NICHT funktioniert / Limits Es gibt keine Angaben zu CPU, PSU, Chassis und Kuehlung. Die Leistung und Anwendungsbereiche der Modelle variieren stark, und einige Modelle wie Gemma 4 31B haben noch Probleme.

Nachbau-Empfehlung Dieses Setup ist für Benutzer geeignet, die ein vielseitiges Setup für lokale KI-Inferenz auf einem Mac Studio M3 Ultra suchen. Es ist besonders empfehlenswert für den Einsatz in der Entwicklung, aber die Anwendung von größeren Modellen sollte vorsichtig geprüft werden.

Weitere Beiträge:

– Got MTP + TurboQuant running — Qwen3.6-27B — 80+ t/s at 262K context on a single RTX 4090 — keine Hardware belegt, kein funktionierendes Setup
– Strix Halo Clustering (Hardware Setup Discussion) — keine konkrete Hardware belegt, eher Theorie-Diskussion
– 4x m5 max 128gb ram RDMA vs 1 m3 ultra? — keine konkrete Hardware belegt, eher Theorie-Diskussion
– Follow-up: Trying to make NVIDIA GPUs plug-and-play on Macs. Found hidden RDMA symbols Apple doesn’t want you to see — zero-copy GPU memory sharing might already work. — keine konkrete Hardware belegt, eher Theorie-Diskussion
– [I Ralph-looped Opus overnight. It reduced my local model switching with cold backfilling context of 135k+ on llama.cpp from ~165s -> 5s! TL;DR – USE SLOTS!](https://old.reddit.com/r/LocalLLaMA/comments/1t58pwh/i_ralphlooped_opus

👁 4 Aufrufe 👤 4 Leser