Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fav

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für echte, nachbaubare Setups zur lokalen KI-Inferenz. Diese Woche sind besonders die Builds mit Qwen 3.6 27B, Gemma 4 12B und Mistral 128B im Fokus. Ein Leser kann heute Abend mit einem 24GB RTX 4090 oder einem 32GB RTX Pro 4500 Blackwell starten und bereits beeindruckende Ergebnisse erzielen.

The Gap Between Claude and Local: Can a Self-Hosted Coding Agent Compete? (7/10) — OpenCode-Fit: BEDINGT

Vorschau

Worum es geht: Der Autor vergleicht die Leistung eines self-hosted KI-Coding-Agents mit Claude Opus 4.7. Er testet beide Agenten an einem realen Projekt, einem Playwright E2E-Suite für eine Laravel 12 + Livewire Anwendung.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 4090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | OpenCode, Claude Code |
| Modell + Quant | Qwen 3.6 27B, Claude Opus 4.7 |
| Kontext-Laenge | 322k (median 222k per turn) |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA mit Einschränkung |

Was funktioniert konkret? Der local agent konnte ein funktionalen Test-Suite erstellen, aber Claude Opus 4.7 zeigte bessere Ergebnisse, insbesondere bei der Kontext-Länge und der Anzahl der geschriebenen Tests.

Was NICHT funktioniert / Limits Der 24GB RTX 4090 reicht nicht aus, um die volle Kontext-Länge von 322k Tokens zu halten. Dies führte zu Compaction, die die Leistung und die Qualität der generierten Code reduzierte.

Nachbau-Empfehlung Dieses Setup ist für fortgeschrittene Nutzer geeignet, die bereits Erfahrung mit lokalen KI-Setups haben. Für Anfänger könnte ein Setup mit mehr VRAM und einem besseren Kontext-Management sinnvoller sein.

Running Qwen3.6-35B-A3B on a laptop RTX 4060 (8GB) — what worked, what didn’t, and a surprising speculative-decoding result (8/10) — OpenCode-Fit: BEDINGT

Vorschau

Worum es geht: Der Autor beschreibt, wie er das 35B MoE-Modell Qwen3.6-35B-A3B auf einem Laptop mit RTX 4060 (8GB) betreibt. Er teilt seine Erfahrungen und Optimierungen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 4060 8GB |
| CPU / Mainboard | i7-13620H, 32GB DDR5-5600 dual-channel |
| RAM | 32GB DDR5-5600 dual-channel |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp b9484, CUDA build |
| Modell + Quant | Qwen3.6-35B-A3B, Q4_K_M |
| Kontext-Laenge | 65536 |
| tok/s (single) | ~39 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Der Autor konnte das Modell erfolgreich auf einem Laptop laufen lassen, indem er spezifische Optimierungen wie `–no-mmap` und VRAM-Headroom anwandte. Spekulatives Decoding verbesserte die Leistung um 26%.

Was NICHT funktioniert / Limits TurboQuant, Flash Attention und i-quants zeigten keine signifikanten Verbesserungen. Der CPU-Lastgrad und die Kontext-Länge sind begrenzt.

Nachbau-Empfehlung Dieses Setup ist ideal für Nutzer, die ein kompaktes und energieeffizientes Setup auf einem Laptop benötigen. Es ist besonders nützlich für Anwendungen, die nicht die volle Kontext-Länge benötigen.

RTX Pro 4500 Blackwell Performance Numbers (9/10) — OpenCode-Fit: JA

Vorschau

Worum es geht: Der Autor teilt seine Erfahrungen mit dem Upgrade von einem RTX 5060 Ti 16GB auf einen RTX Pro 4500 Blackwell 32GB. Er stellt Leistungsdaten für verschiedene Modelle vor.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX Pro 4500 Blackwell 32GB |
| CPU / Mainboard | AMD Ryzen 7 7700, Corsair Vengeance RGB DDR5 5600MHz 32GB (2×16) |
| RAM | 32GB DDR5-5600 dual-channel |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | nicht im Post belegt |
| Modell + Quant | Qwen3.6 27B IQ4_XS, Qwen3.6 35B.A3B MXFP4, Gemma4 26B.A4B MXFP4 |
| Kontext-Laenge | 512, 128 |
| tok/s (single) | 2022.54 ± 35.19 (Qwen3.6 27B), 5507.10 ± 101.16 (Qwen3.6 35B.A3B), 7177.80 ± 103.91 (Gemma4 26B.A4B) |
| tok/s (batched) | 45.19 ± 0.50 (Qwen3.6 27B), 159.81 ± 1.10 (Qwen3.6 35B.A3B), 144.74 ± 0.60 (Gemma4 26B.A4B) |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Der RTX Pro 4500 Blackwell 32GB zeigte signifikante Leistungsverbesserungen im Vergleich zum RTX 5060 Ti 16GB, insbesondere bei Modellen, die nicht in 16GB VRAM passen.

Was NICHT funktioniert / Limits Die Leistung bei kleineren Modellen, die in 16GB VRAM passen, verbesserte sich weniger stark. Die Stromverbrauchswerte und die Kosten wurden nicht angegeben.

Nachbau-Empfehlung Dieses Setup ist ideal für Nutzer, die eine hohe Kontext-Länge und eine bessere Leistung bei großen Modellen benötigen. Es ist besonders geeignet für fortgeschrittene Anwendungen und professionelle Nutzung.


Weitere Beiträge:

Qwen 3.6 27B MTP – Adding spec-type and spec-draft-n-max is dropping tps and reducing GPU utilization — keine Hardware belegt, kein funktionierendes Setup
Strange bug using llama.cpp server — keine Hardware belegt, reine Problem-Frage ohne Lösung
I implemented KVarN in my llama.cpp fork and ran KLD benchmarks. It’s promising! — keine Hardware belegt, kein funktionierendes Setup
Here is my llama.cpp NVFP4/MXFP6 GGUF quantizer tool — keine Hardware belegt, kein funktionierendes Setup
BeeLlama v0.3.1 – latest llama.cpp with extras! DFlash, MTP, q6_0 cache, TurboQuant. Single RTX 3090: Qwen 3.6 27B & Gemma 4 31B up to 177.8 tps (4.93x over baseline) — keine Hardware belegt, kein funktionierendes Setup
I accidentally crippled my 4x RTX 3090 LLM rig with a hidden PCIe 2.0 x4 slot and fixing it doubled Mistral 128B performance — keine Hardware belegt, reine Problem-Frage ohne Lösung
Qwen3.6-27B on 2x3090s: llama.cpp vs vLLM, all the flags, and the MTP acceptance/inference speed/context — keine Hardware belegt, kein funktionierendes Setup
Live-ablating Gemma 4 12B: per-tensor quant sweet spots (Mixed Quanting) — keine Hardware belegt, kein funktionierendes Setup
New Google Gemma 4 12B Claims Near-26B Performance – We Tested Both! — keine Hardware belegt, kein funktionierendes Setup

👁 0 Aufrufe 👤 0 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert