Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Benchmarks und Build-Berichten geprägt. Besonders hervorzuheben sind die Tests von Qwen 3.6-27B auf verschiedenen Quantisierungen, die auf RTX 3090 und M5 Max durchgeführt wurden. Diese Beiträge liefern wertvolle Einblicke in die Leistungsfähigkeit und den Autarkie-Fit dieser Modelle. Ein Leser kann heute Abend mit einem Setup beginnen, das 38.2% der Terminal-Bench 2.0-Aufgaben löst, was vergleichbar mit den Leistungen von Claude Opus 4.1 ist.

[Qwen 3.6 27B BF16 vs Q4_K_M vs Q8_0 GGUF evaluation] (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Beitrag vergleicht die Leistung von Qwen 3.6 27B in verschiedenen Quantisierungen (BF16, Q4_K_M, Q8_0) auf einem RTX 3090. Es werden Benchmarks für Code-Generierung, Allgemeinwissen und Funktionen durchgeführt.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 3090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 32 GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama-cpp-python, Neo AI Engineer |
| Modell + Quant | Qwen 3.6 27B (BF16, Q4_K_M, Q8_0) |
| Kontext-Laenge | 32768 |
| tok/s (single) | 15.5 tok/s (BF16), 22.5 tok/s (Q4_K_M), 18.0 tok/s (Q8_0) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Q4_K_M bietet eine ausgezeichnete Balance zwischen Leistung und Speicherverbrauch. Es erreicht 66.54% durchschnittliche Genauigkeit in den Benchmarks und ist 1.45x schneller als BF16, mit 48% weniger Peak-RAM und 68.8% kleinerer Modellgröße.

Was NICHT funktioniert / Limits: Q8_0 war in dieser Evaluation unterwhelming, da es mehr RAM verbraucht und langsamer ist als Q4_K_M, obwohl es in einigen Benchmarks leicht bessere Ergebnisse erzielt.

Nachbau-Empfehlung: Q4_K_M ist die beste Wahl für die meisten Anwendungen, insbesondere wenn eine gute Balance zwischen Leistung und Speicherverbrauch benötigt wird. Es ist besonders geeignet für lokale/CPU-Deployment, es sei denn, die Workload ist stark auf Code-Generierung fokussiert.

[Qwen 3.6-35B-A3B KV cache bench: f16 vs q8_0 vs turbo3 vs turbo4 from 0 to 1M context on M5 Max] (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Beitrag analysiert die Leistung von Qwen 3.6-35B-A3B in verschiedenen KV-Cache-Quantisierungen (f16, q8_0, turbo3, turbo4) auf einem MacBook Pro M5 Max. Es werden Benchmarks für verschiedene Kontextlängen durchgeführt.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | MacBook Pro M5 Max, 128 GB unified memory |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 128 GB unified memory |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama-cpp-turboquant, feature/turboquant-kv-cache branch |
| Modell + Quant | Qwen 3.6-35B-A3B (f16, q8_0, turbo3, turbo4) |
| Kontext-Laenge | 0 bis 1M tokens |
| tok/s (single) | 89.4 tok/s (f16), 87.4 tok/s (q8_0), 79.5 tok/s (turbo3), 79.7 tok/s (turbo4) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Turbo3 und Turbo4 zeigen ausgezeichnete Leistungen bei großen Kontexten. Turbo3 ist besonders effizient bei Prefill, während Turbo4 bessere Ergebnisse bei Decode liefert. Bei 1M Kontext erreicht Turbo3 eine Decodierungsgeschwindigkeit von 6.5 tok/s, was für overnight-agente Batch-Jobs arbeitsfähig ist.

Was NICHT funktioniert / Limits: F16 und q8_0 sind bei großen Kontexten weniger effizient. F16 und q8_0 erreichen OOM (Out of Memory) bei 256K und 512K Kontexten.

Nachbau-Empfehlung: Turbo3 ist die beste Wahl für Workloads mit tiefen Kontexten und vielen generierten Tokens. Turbo4 ist besser für RAG oder Batch-QA, wo viel Prefill erforderlich ist. Für kurze interaktive Szenarien unter 32K Kontext ist f16 die beste Wahl, wenn es passt, ansonsten q8_0.

[Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090] (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Beitrag stellt Luce DFlash vor, eine GGUF-Portierung des DFlash speculative decoding für Qwen3.6-27B. Es läuft auf einem RTX 3090 und bietet bis zu 2x die Durchsatzleistung im Vergleich zu autoregressiven Methoden.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 3090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | Luce DFlash (C++/CUDA, ggml) |
| Modell + Quant | Qwen3.6-27B (Q4_K_M, DFlash draft) |
| Kontext-Laenge | 256K (mit 4096-token sliding-window flash attention) |
| tok/s (single) | 89.7 tok/s (decode), 913 tok/s (prefill) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Luce DFlash erreicht eine durchschnittliche 1.98x höhere Leistung als autoregressive Methoden auf Qwen3.6-27B. Es kann 256K Kontext in 24 GB VRAM fitten und bietet eine ausgezeichnete Leistung bei long-context Workloads.

Was NICHT funktioniert / Limits: Die Leistung bei sehr langen Kontexten (über 256K) kann abnehmen, aber es bleibt immer noch arbeitsfähig.

Nachbau-Empfehlung: Luce DFlash ist eine ausgezeichnete Wahl für Nutzer mit einem RTX 3090, die eine hohe Leistung bei long-context Workloads benötigen. Es ist einfach zu installieren und erfordert keine zusätzlichen Abhängigkeiten.


Weitere Beiträge:

TurboQuant enabled Runtime Valkyr — keine Hardware belegt, kein nachbaubares Setup
llama.cpp benchmark native vs. non native NVFP4 on Blackwell – summary — keine Hardware belegt, kein nachbaubares Setup
llama.cpp – NVFP4 native support on Blackwell from now – b8967 — keine Hardware belegt, kein nachbaubares Setup
Abliterlitics: Benchmarks and Tensor Comparison for Heretic, Abliterlix, Huiui, HauhauCS for GLM 4.7 Flash — keine Hardware belegt, kein nachbaubares Setup
Local model on coding has reached a certain threshold to be feasible for real work — keine Hardware belegt, kein nachbaubares Setup
Are OSS runnable model good now? — keine Hardware belegt, kein nachbaubares Setup
Thinking to buy server chassis pcie 5.0 and 1x to 4x 3090 — keine Hardware belegt, kein nachbaubares Setup
For the 5 people here running vLLM on multiple R9700s, you need to patch in support for AITER Unified Attention. — keine Hardware belegt, kein nachbaubares Setup
GBNF grammar tweak for faster Qwen3.6 35B-A3B and Qwen3.6 27B — keine Hardware belegt, kein nachbaubares Setup

👁 1 Aufrufe 👤 1 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert