Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, nachbaubare Setups zur lokalen Ausführung von KI-Modellen. Diese Woche sind insbesondere die Einträge zu Qwen-3.6-27B auf 3090 und 4090 sowie die BeeLlama.cpp-Fork mit DFlash und TurboQuant hervorzuheben. Diese Setups bieten hohe Leistung und sind für den privaten Einsatz geeignet. Ein Leser kann heute Abend mit diesen Beispielen beginnen, um ein eigenes lokales KI-Setup aufzubauen.

[Gemma 4 26B Hits 600 Tok/s on One RTX 5090] (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Benutzer hat eine Benchmark von Gemma 4 26B auf einem RTX 5090 durchgeführt, um den Einfluss von DFlash speculative decoding zu testen. Die Ergebnisse zeigen eine erhebliche Leistungssteigerung.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 5090 32GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM 0.19.2rc1“ |
| Modell + Quant | „cyankiwi/gemma-4-26B-A4B-it-AWQ-4bit“ |
| Kontext-Laenge | „256 input tokens, 1024 output tokens“ |
| tok/s (single) | „578 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Mit DFlash speculative decoding erreicht der Benutzer eine Leistung von 578 tok/s bei 256 Input-Tokens und 1024 Output-Tokens. Die E2E-Latenz beträgt 1738 ms, was eine erhebliche Verbesserung gegenüber der Baseline ohne DFlash darstellt.

Was NICHT funktioniert / Limits: DFlash speculative decoding funktioniert weniger gut bei hohen Kontext-Längen (ab ~20k). Die Leistung kann bei längeren Kontexten abnehmen.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem RTX 5090 und einem Bedarf an schnellem Token-Output geeignet. Es ist besonders nützlich für Anwendungen, die kurze und präzise Antworten erfordern. Für längere Kontexte sollten alternative Ansätze in Betracht gezogen werden.


[BeeLlama.cpp: advanced DFlash & TurboQuant with support of reasoning and vision. Qwen 3.6 27B Q5 with 200k context on 3090, 2-3x faster than baseline (peak 135 tps!)] (9/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Benutzer hat eine neue llama.cpp-Fork namens BeeLlama.cpp entwickelt, die DFlash speculative decoding, TurboQuant KV-cache-Kompression und reasoning-loop-Schutz unterstützt. Es ermöglicht das Ausführen von Qwen 3.6 27B Q5 mit 200k Kontext auf einem RTX 3090 oder 4090.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „BeeLlama.cpp“ |
| Modell + Quant | „Qwen 3.6 27B Q5“ |
| Kontext-Laenge | „200k“ |
| tok/s (single) | „135 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? BeeLlama.cpp ermöglicht das Ausführen von Qwen 3.6 27B Q5 mit 200k Kontext auf einem RTX 3090, was eine Leistung von 135 tok/s erreicht. Die spekulativen Decoding-Techniken und die KV-cache-Kompression sorgen für eine erhebliche Leistungssteigerung.

Was NICHT funktioniert / Limits: Die Implementierung ist noch in der Entwicklung, und es gibt möglicherweise noch Optimierungspotenzial. Die Komplexität der Einrichtung könnte für Anfänger eine Herausforderung darstellen.

Nachbau-Empfehlung: Dieses Setup ist für fortgeschrittene Benutzer geeignet, die hohe Leistung und lange Kontext-Längen benötigen. Es erfordert ein gewisses Maß an technischem Know-how, aber die Leistungssteigerung ist beeindruckend.


[Got MTP + TurboQuant running — Qwen3.6-27B — 80+ t/s at 262K context on a single RTX 4090] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat MTP (Multi-Token Prediction) und TurboQuant auf Qwen3.6-27B auf einem RTX 4090 implementiert. Die Leistung beträgt 80-87 tok/s bei 262K Kontext.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 4090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp-mtp“ |
| Modell + Quant | „Qwen3.6-27B-Heretic-v2 Q4_K_M“ |
| Kontext-Laenge | „262K“ |
| tok/s (single) | „80-87 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Die Implementierung von MTP und TurboQuant ermöglicht eine Leistung von 80-87 tok/s bei 262K Kontext auf einem RTX 4090. Die spekulativen Decoding-Techniken und die KV-cache-Kompression sorgen für eine erhebliche Leistungssteigerung.

Was NICHT funktioniert / Limits: Die Leistung kann bei längeren Kontexten abnehmen, und es gibt möglicherweise noch Optimierungspotenzial. Die Implementierung ist noch in der Entwicklung.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem RTX 4090 und einem Bedarf an schnellem Token-Output bei langen Kontexten geeignet. Es erfordert ein gewisses Maß an technischem Know-how, aber die Leistungssteigerung ist beeindruckend.


[Benchmark Qwen 3.6 27B MTP on 2×3090 NVLINK] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Benutzer hat eine Benchmark von Qwen 3.6 27B MTP auf 2x RTX 3090 mit NVLink durchgeführt. Die Ergebnisse zeigen, dass die Verwendung von NVLink eine erhebliche Leistungssteigerung bringt.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „2x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM 0.20.1“ |
| Modell + Quant | „cyankiwi/Qwen3.6-27B-AWQ-BF16-INT4“ |
| Kontext-Laenge | „1024 input / 256 output tokens“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „25% +25% throughput at concurrency 1, +53% at concurrency 4“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |

Was funktioniert konkret? Die Verwendung von NVLink zwischen den GPUs führt zu einer erheblichen Leistungssteigerung bei der Ausführung von Qwen 3.6 27B MTP. Die durchschnittliche Leistung steigt um 25% bei einer Konkurrenz von 1 und um 53% bei einer Konkurrenz von 4.

Was NICHT funktioniert / Limits: Die Verwendung von 4 GPUs (TP=4) führt zu einer Verschlechterung der Leistung. NVLink ist effektiver als PCIe, aber es gibt Grenzen bei der Skalierung.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit 2x RTX 3090 und NVLink geeignet. Es ist besonders nützlich für Anwendungen, die eine hohe Konkurrenz erfordern. Die Verwendung von 4 GPUs sollte vorsichtig evaluiert werden.


Weitere Beitraege (automatisch gefiltert):
Mac Studio local loadout – May 2026 — keine Hardware belegt, kein nachbaubares Setup

👁 2 Aufrufe 👤 2 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert