Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für echte, nachbaubare KI-Setups. In dieser Woche sind insbesondere die Einträge zu Qwen3.6-35B-A3B auf einem Laptop RTX 4060 und das Setup mit 2x RTX 3090 besonders belegt. Diese Beiträge bieten konkrete Zahlen und Tipps für die Optimierung von lokalen KI-Modellen. Ein Leser kann heute Abend mit diesen Setups beginnen, um seine eigene lokalen KI-Infrastruktur aufzubauen.

[Running Qwen3.6-35B-A3B on a laptop RTX 4060 (8GB) — what worked, what didn’t, and a surprising speculative-decoding result] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht: Der Autor beschreibt, wie er das Modell Qwen3.6-35B-A3B auf einem Laptop mit RTX 4060 (8GB VRAM) betreibt. Er teilt seine Erfahrungen mit Optimierungen und den Effekten von verschiedenen Einstellungen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 4060 Laptop, 8GB VRAM |
| CPU / Mainboard | i7-13620H, 32GB DDR5-5600 dual-channel |
| RAM | 32GB DDR5-5600 dual-channel |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp b9484, CUDA build |
| Modell + Quant | Qwen3.6-35B-A3B (MoE, 35B total / ~3B active), Q4_K_M (~20GB) |
| Kontext-Laenge | 65536 (KV-Cache OK) |
| tok/s (single) | ~39 tok/s gen |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Das Modell läuft stabil auf dem Laptop, und durch Optimierungen wie `–no-mmap` und VRAM-Headroom konnte die Geschwindigkeit von ~11 auf ~43 tok/s gesteigert werden. Spekulative Decoding gab sogar eine zusätzliche +26% Geschwindigkeit.

Was NICHT funktioniert / Limits Das Modell ist aufgrund der begrenzten VRAM auf 8GB begrenzt. Die GPU ist nicht der Bottleneck, sondern der CPU-Last durch die Experten-Layer. Schließen von CPU-intensiven Anwendungen wie Discord und Browser-Tabellen verbessert die Leistung erheblich.

Nachbau-Empfehlung Dieses Setup ist für Nutzer mit einem Laptop und begrenzter VRAM geeignet. Es zeigt, dass auch kleinere Systeme mit den richtigen Optimierungen leistungsfähig sein können. Für eine bessere Leistung sollten jedoch mehr VRAM und eine stärkere CPU in Betracht gezogen werden.


[RTX Pro 4500 Blackwell Performance Numbers] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Autor beschreibt die Leistungssteigerung durch den Upgrade von einer RTX 5060 Ti 16GB zu einer RTX Pro 4500 Blackwell 32GB. Er teilt detaillierte Benchmarks für verschiedene Modelle und Quantisierungen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX Pro 4500 Blackwell 32GB |
| CPU / Mainboard | AMD Ryzen 7 7700, Corsair Vengeance RGB DDR5 5600MHz 32GB (2×16) |
| RAM | 32GB DDR5-5600 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp, vLLM |
| Modell + Quant | Qwen3.6-27B Q5_K_S, Qwen3.6-35B.A3B MXFP4, Gemma4 26B.A4B MXFP4 |
| Kontext-Laenge | 65536 (KV-Cache OK) |
| tok/s (single) | 2022.54 ± 35.19 (Qwen3.6-27B Q5_K_S) |
| tok/s (batched) | 159.81 ± 1.10 (Qwen3.6-35B.A3B MXFP4) |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Die RTX Pro 4500 Blackwell 32GB bietet erhebliche Leistungssteigerungen im Vergleich zur RTX 5060 Ti 16GB, insbesondere bei Modellen, die nicht in 16GB VRAM passen. Die Token-Generierung ist 1.8-2.6 mal schneller, und das Prompt-Processing ist 3-6 mal schneller.

Was NICHT funktioniert / Limits Die Leistung ist immer noch begrenzt durch die CPU und die System-RAM. Für noch größere Modelle könnte ein Upgrade der CPU und des RAM sinnvoll sein.

Nachbau-Empfehlung Dieses Setup ist ideal für Nutzer, die eine Leistungssteigerung durch mehr VRAM suchen. Es ist kosteneffektiv und passt gut in einen privaten Haushalt. Für noch größere Modelle sollte jedoch ein Upgrade der CPU und des RAM in Betracht gezogen werden.


[Qwen3.6-27B on 2x3090s: llama.cpp vs vLLM, all the flags, and the MTP acceptance/inference speed/context] (9/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Autor vergleicht die Leistung von Qwen3.6-27B auf 2x RTX 3090s mit llama.cpp und vLLM. Er teilt detaillierte Benchmarks und die verwendeten Flags.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 2x RTX 3090, 48GB total |
| CPU / Mainboard | Threadripper 1950X, 30GB RAM, NVMe |
| RAM | 30GB RAM |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp, vLLM 0.22 |
| Modell + Quant | Qwen3.6-27B Q6_K, Qwen3.6-27B Q8_0, Qwen3.6-27B INT4, Qwen3.6-27B INT8 |
| Kontext-Laenge | 131k (llama.cpp), 32k (vLLM INT4), 64k (vLLM INT8) |
| tok/s (single) | 43.1 tok/s (llama.cpp Q6_K), 51.6 tok/s (vLLM INT8) |
| tok/s (batched) | 44.2 tok/s (llama.cpp Q8_0), 53.7 tok/s (vLLM INT4) |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Beide Frameworks, llama.cpp und vLLM, bieten gute Leistung, wobei vLLM leicht schneller ist. Die MTP-Acceptance-Rate liegt bei ~54% für llama.cpp und ~77% für vLLM. Die Kontext-Länge von 131k bei llama.cpp ist besonders beeindruckend.

Was NICHT funktioniert / Limits Die Leistung von vLLM ist etwas begrenzt durch die fehlende PCIe P2P-Unterstützung auf dem Threadripper 1950X. Dies führt zu einer geringeren GPU-Verwendung und langsameren All-Reduce-Operationen.

Nachbau-Empfehlung Dieses Setup ist ideal für Nutzer, die eine hohe Leistung und große Kontext-Längen benötigen. Es ist gut für den privaten Einsatz geeignet, aber für noch größere Modelle könnte ein Upgrade der CPU und des RAM sinnvoll sein.


[New Google Gemma 4 12B Claims Near-26B Performance – We Tested Both!] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht: Der Autor vergleicht die Leistung von Google Gemma 4 12B und 26B-A4B auf einer RTX 4090. Er teilt detaillierte Benchmarks und die Ergebnisse bei der Erstellung von HTML5-Animationen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 4090 |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM 0.19.0, bf16 |
| Modell + Quant | Gemma 4 26B-A4B, Gemma 4 12B |
| Kontext-Laenge | 2048 |
| tok/s (single) | 138 tok/s (Gemma 4 26B-A4B), 80 tok/s (Gemma 4 12B) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Gemma 4 26B-A4B liefert bessere Ergebnisse und ist ~1.7x schneller als Gemma 4 12B. Gemma 4 12B ist jedoch ideal für Systeme mit 16GB VRAM, da es nur 9GB VRAM verbraucht.

Was NICHT funktioniert / Limits Die Leistung von Gemma 4 12B ist begrenzt durch die geringere VRAM-Verwendung. Für komplexe Aufgaben wie die Erstellung von HTML5-Animationen ist Gemma 4 26B-A4B die bessere Wahl.

Nachbau-Empfehlung Dieses Setup ist ideal für Nutzer, die eine Balance zwischen Leistung und VRAM-Verwendung suchen. Gemma 4 12B ist besonders geeignet für Laptops oder kleinere Systeme mit 16GB VRAM. Für höhere Anforderungen ist Gemma 4 26B-A4B zu empfehlen.


Weitere Beiträge (kurz):

Strange bug using llama.cpp server — keine Hardware belegt, kein funktionierendes Setup
I implemented KVarN in my llama.cpp fork and ran KLD benchmarks. It’s promising! — keine Hardware belegt, kein funktionierendes Setup
Here is my llama.cpp NVFP4/MXFP6 GGUF quantizer tool — keine Hardware belegt, kein funktionierendes Setup
BeeLlama v0.3.1 – latest llama.cpp with extras! DFlash, MTP, q6_0 cache, TurboQuant. Single RTX 3090: Qwen 3.6 27B & Gemma 4 31B up to 177.8 tps (4.93x over baseline) — keine Hardware belegt, kein funktionierendes Setup
I accidentally crippled my 4x RTX 3090 LLM rig with a hidden PCIe 2.0 x4 slot and fixing it doubled Mistral 128B performance — keine Hardware belegt, kein funktionierendes Setup
Live-ablating Gemma 4 12B: per-tensor quant sweet spots (Mixed Quanting) — keine Hardware belegt, kein funktionierendes Setup
How does the new abliteration tool Apostate compare with others? – Abliterlitics — keine Hardware belegt, kein funktionierendes Setup
Another shout out to llama.cpp build b9455 2×3090 — keine Hardware belegt, kein funktionierendes Setup

👁 0 Aufrufe 👤 0 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert