Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Benchmarks und Build-Berichten geprägt. Besonders hervorzuheben sind die Tests von Qwen 3.6-27B auf verschiedenen Quantisierungen, die auf RTX 3090 und M5 Max durchgeführt wurden. Diese Beiträge liefern wertvolle Einblicke in die Leistungsfähigkeit und den Autarkie-Fit dieser Modelle. Ein Leser kann heute Abend mit einem Setup beginnen, das 38.2% der Terminal-Bench 2.0-Aufgaben löst, was vergleichbar mit den Leistungen von Claude Opus 4.1 ist.

[Qwen 3.6 27B BF16 vs Q4_K_M vs Q8_0 GGUF evaluation] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag vergleicht die Leistung von Qwen 3.6 27B in verschiedenen Quantisierungen (BF16, Q4_K_M, Q8_0) auf einem RTX 3090. Es werden Benchmarks für Code-Generierung, Allgemeinwissen und Funktionen durchgeführt.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Q4_K_M bietet eine ausgezeichnete Balance zwischen Leistung und Speicherverbrauch. Es erreicht 66.54% durchschnittliche Genauigkeit in den Benchmarks und ist 1.45x schneller als BF16, mit 48% weniger Peak-RAM und 68.8% kleinerer Modellgröße.

Was NICHT funktioniert / Limits: Q8_0 war in dieser Evaluation unterwhelming, da es mehr RAM verbraucht und langsamer ist als Q4_K_M, obwohl es in einigen Benchmarks leicht bessere Ergebnisse erzielt.

Nachbau-Empfehlung: Q4_K_M ist die beste Wahl für die meisten Anwendungen, insbesondere wenn eine gute Balance zwischen Leistung und Speicherverbrauch benötigt wird. Es ist besonders geeignet für lokale/CPU-Deployment, es sei denn, die Workload ist stark auf Code-Generierung fokussiert.

[Qwen 3.6-35B-A3B KV cache bench: f16 vs q8_0 vs turbo3 vs turbo4 from 0 to 1M context on M5 Max] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag analysiert die Leistung von Qwen 3.6-35B-A3B in verschiedenen KV-Cache-Quantisierungen (f16, q8_0, turbo3, turbo4) auf einem MacBook Pro M5 Max. Es werden Benchmarks für verschiedene Kontextlängen durchgeführt.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Turbo3 und Turbo4 zeigen ausgezeichnete Leistungen bei großen Kontexten. Turbo3 ist besonders effizient bei Prefill, während Turbo4 bessere Ergebnisse bei Decode liefert. Bei 1M Kontext erreicht Turbo3 eine Decodierungsgeschwindigkeit von 6.5 tok/s, was für overnight-agente Batch-Jobs arbeitsfähig ist.

Was NICHT funktioniert / Limits: F16 und q8_0 sind bei großen Kontexten weniger effizient. F16 und q8_0 erreichen OOM (Out of Memory) bei 256K und 512K Kontexten.

Nachbau-Empfehlung: Turbo3 ist die beste Wahl für Workloads mit tiefen Kontexten und vielen generierten Tokens. Turbo4 ist besser für RAG oder Batch-QA, wo viel Prefill erforderlich ist. Für kurze interaktive Szenarien unter 32K Kontext ist f16 die beste Wahl, wenn es passt, ansonsten q8_0.

[Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag stellt Luce DFlash vor, eine GGUF-Portierung des DFlash speculative decoding für Qwen3.6-27B. Es läuft auf einem RTX 3090 und bietet bis zu 2x die Durchsatzleistung im Vergleich zu autoregressiven Methoden.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Luce DFlash erreicht eine durchschnittliche 1.98x höhere Leistung als autoregressive Methoden auf Qwen3.6-27B. Es kann 256K Kontext in 24 GB VRAM fitten und bietet eine ausgezeichnete Leistung bei long-context Workloads.

Was NICHT funktioniert / Limits: Die Leistung bei sehr langen Kontexten (über 256K) kann abnehmen, aber es bleibt immer noch arbeitsfähig.

Nachbau-Empfehlung: Luce DFlash ist eine ausgezeichnete Wahl für Nutzer mit einem RTX 3090, die eine hohe Leistung bei long-context Workloads benötigen. Es ist einfach zu installieren und erfordert keine zusätzlichen Abhängigkeiten.

Weitere Beiträge:

👁 1 Aufrufe 👤 1 Leser