Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für echte, nachbaubare KI-Setups. In dieser Woche sind insbesondere die Einträge zu Qwen3.6-35B-A3B auf einem Laptop RTX 4060 und das Setup mit 2x RTX 3090 besonders belegt. Diese Beiträge bieten konkrete Zahlen und Tipps für die Optimierung von lokalen KI-Modellen. Ein Leser kann heute Abend mit diesen Setups beginnen, um seine eigene lokalen KI-Infrastruktur aufzubauen.

[Running Qwen3.6-35B-A3B on a laptop RTX 4060 (8GB) — what worked, what didn’t, and a surprising speculative-decoding result] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Autor beschreibt, wie er das Modell Qwen3.6-35B-A3B auf einem Laptop mit RTX 4060 (8GB VRAM) betreibt. Er teilt seine Erfahrungen mit Optimierungen und den Effekten von verschiedenen Einstellungen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Modell läuft stabil auf dem Laptop, und durch Optimierungen wie `–no-mmap` und VRAM-Headroom konnte die Geschwindigkeit von ~11 auf ~43 tok/s gesteigert werden. Spekulative Decoding gab sogar eine zusätzliche +26% Geschwindigkeit.

Was NICHT funktioniert / Limits Das Modell ist aufgrund der begrenzten VRAM auf 8GB begrenzt. Die GPU ist nicht der Bottleneck, sondern der CPU-Last durch die Experten-Layer. Schließen von CPU-intensiven Anwendungen wie Discord und Browser-Tabellen verbessert die Leistung erheblich.

Nachbau-Empfehlung Dieses Setup ist für Nutzer mit einem Laptop und begrenzter VRAM geeignet. Es zeigt, dass auch kleinere Systeme mit den richtigen Optimierungen leistungsfähig sein können. Für eine bessere Leistung sollten jedoch mehr VRAM und eine stärkere CPU in Betracht gezogen werden.

[RTX Pro 4500 Blackwell Performance Numbers] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Autor beschreibt die Leistungssteigerung durch den Upgrade von einer RTX 5060 Ti 16GB zu einer RTX Pro 4500 Blackwell 32GB. Er teilt detaillierte Benchmarks für verschiedene Modelle und Quantisierungen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Die RTX Pro 4500 Blackwell 32GB bietet erhebliche Leistungssteigerungen im Vergleich zur RTX 5060 Ti 16GB, insbesondere bei Modellen, die nicht in 16GB VRAM passen. Die Token-Generierung ist 1.8-2.6 mal schneller, und das Prompt-Processing ist 3-6 mal schneller.

Was NICHT funktioniert / Limits Die Leistung ist immer noch begrenzt durch die CPU und die System-RAM. Für noch größere Modelle könnte ein Upgrade der CPU und des RAM sinnvoll sein.

Nachbau-Empfehlung Dieses Setup ist ideal für Nutzer, die eine Leistungssteigerung durch mehr VRAM suchen. Es ist kosteneffektiv und passt gut in einen privaten Haushalt. Für noch größere Modelle sollte jedoch ein Upgrade der CPU und des RAM in Betracht gezogen werden.

[Qwen3.6-27B on 2x3090s: llama.cpp vs vLLM, all the flags, and the MTP acceptance/inference speed/context] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Autor vergleicht die Leistung von Qwen3.6-27B auf 2x RTX 3090s mit llama.cpp und vLLM. Er teilt detaillierte Benchmarks und die verwendeten Flags.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Beide Frameworks, llama.cpp und vLLM, bieten gute Leistung, wobei vLLM leicht schneller ist. Die MTP-Acceptance-Rate liegt bei ~54% für llama.cpp und ~77% für vLLM. Die Kontext-Länge von 131k bei llama.cpp ist besonders beeindruckend.

Was NICHT funktioniert / Limits Die Leistung von vLLM ist etwas begrenzt durch die fehlende PCIe P2P-Unterstützung auf dem Threadripper 1950X. Dies führt zu einer geringeren GPU-Verwendung und langsameren All-Reduce-Operationen.

Nachbau-Empfehlung Dieses Setup ist ideal für Nutzer, die eine hohe Leistung und große Kontext-Längen benötigen. Es ist gut für den privaten Einsatz geeignet, aber für noch größere Modelle könnte ein Upgrade der CPU und des RAM sinnvoll sein.

[New Google Gemma 4 12B Claims Near-26B Performance – We Tested Both!] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Autor vergleicht die Leistung von Google Gemma 4 12B und 26B-A4B auf einer RTX 4090. Er teilt detaillierte Benchmarks und die Ergebnisse bei der Erstellung von HTML5-Animationen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Gemma 4 26B-A4B liefert bessere Ergebnisse und ist ~1.7x schneller als Gemma 4 12B. Gemma 4 12B ist jedoch ideal für Systeme mit 16GB VRAM, da es nur 9GB VRAM verbraucht.

Was NICHT funktioniert / Limits Die Leistung von Gemma 4 12B ist begrenzt durch die geringere VRAM-Verwendung. Für komplexe Aufgaben wie die Erstellung von HTML5-Animationen ist Gemma 4 26B-A4B die bessere Wahl.

Nachbau-Empfehlung Dieses Setup ist ideal für Nutzer, die eine Balance zwischen Leistung und VRAM-Verwendung suchen. Gemma 4 12B ist besonders geeignet für Laptops oder kleinere Systeme mit 16GB VRAM. Für höhere Anforderungen ist Gemma 4 26B-A4B zu empfehlen.

Weitere Beiträge (kurz):

👁 0 Aufrufe 👤 0 Leser