Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Community, in der Nutzer ihre lokalen KI-Setups dokumentieren und benchmarken. Diese Woche sind besonders zwei konkrete Setups hervorzuheben: Ein Setup mit einem RTX 3090, das Qwen2.5-Coder 32B Q4_K_M mit 18 tok/s laufen lässt, und ein Setup mit 2x RTX PRO 6000 Blackwell, das Qwen3.5-122B-A10B auf 198 tok/s bringt. Beide Setups sind für den OpenCode-Workload geeignet und bieten eine gute Balance zwischen Leistung und Autarkie.

Running a full agentic coding loop locally on a 3090. Here’s what actually works in 2026. (6/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Nutzer hat ein lokales Setup mit einem RTX 3090 und verschiedenen Modellen getestet, um einen vollständigen agentischen Coding-Loop zu realisieren. Die Tests umfassen Qwen2.5-Coder 32B Q4_K_M, DeepSeek-Coder-V3 Q4 und Llama 3.3 70B Q3_K_M.

Reales Setup (komplette Fakten-Tabelle — bitte als Markdown-Tabelle)

Was funktioniert konkret? (3-5 Sätze): Qwen2.5-Coder 32B Q4_K_M läuft stabil mit 18 tok/s und bietet eine gute Code-Qualität. DeepSeek-Coder-V3 Q4 halluciniert weniger bei langen Refaktorisierungen, ist aber etwas langsamer. 70B-Modelle sind bei Q3-Quantisierung zu langsam für agentische Loops, es sei denn, man hat mehrere GPUs.

Was NICHT funktioniert / Limits (2-4 Sätze): Der Hauptknackpunkt ist die Kontext-Management über mehrere Agentenschritte. 70B-Modelle sind bei Q3-Quantisierung zu langsam, um effektiv in agentischen Loops zu arbeiten. Q5_K_M oder Q6-Quantisierungen könnten hier helfen, aber es gibt keine konkreten Zahlen dazu.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für den OpenCode-Workload geeignet, insbesondere für den Einsatz von Qwen2.5-Coder 32B Q4_K_M. Für Budgets von 4.000-8.000 EUR ist ein RTX 3090 eine gute Wahl. Für höhere Budgets und komplexere Aufgaben könnten 2x RTX 3090 oder eine RTX 4090 in Betracht gezogen werden.

Qwen3.5-122B at 198 tok/s on 2x RTX PRO 6000 Blackwell — Budget build, verified results (8/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Nutzer hat ein Setup mit 2x RTX PRO 6000 Blackwell getestet, um Qwen3.5-122B-A10B zu laufen zu bringen. Das Setup erreicht 198 tok/s und ist budgetfreundlich im Vergleich zu Threadripper-Pro-Rigs.

Reales Setup (komplette Fakten-Tabelle — bitte als Markdown-Tabelle)

Was funktioniert konkret? (3-5 Sätze): Qwen3.5-122B-A10B läuft stabil mit 198 tok/s auf 2x RTX PRO 6000 Blackwell. Das Setup ist budgetfreundlich und bietet eine hohe Leistung, insbesondere für den OpenCode-Workload. Die Kontext-Länge von 32k ist ausreichend für die meisten Aufgaben.

Was NICHT funktioniert / Limits (2-4 Sätze): Das Setup hat eine OOM (Out of Memory) bei Modellen wie Qwen2.5-72B Q4_K_M auf einem einzelnen 32GB-GPU. Die Netzwerklatenz bei RPC-Verbindungen kann die Leistung bei kleineren Modellen beeinträchtigen, aber für 122B-Modelle ist der Rechenaufwand höher als die Netzwerklatenz.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist ideal für den OpenCode-Workload und bietet eine ausgezeichnete Kosteneffizienz. Es ist besonders geeignet für Budgets von 4.000-8.000 EUR. Für höhere Budgets könnten 2x RTX 4090 oder 3x RTX 3090 in Betracht gezogen werden, um die Leistung weiter zu steigern.

Gemma 4 26B achieves 40k context window (7/10) — OpenCode-Fit: BEDINGT

Worum es geht (2-4 Sätze): Der Nutzer hat eine Methode entwickelt, um die Kontext-Länge von Gemma 4 26B auf 40k Tokens zu erweitern, indem ältere KV-Blöcke in INT4 komprimiert werden. Das Setup läuft auf einem RTX 4090.

Reales Setup (komplette Fakten-Tabelle — bitte als Markdown-Tabelle)

Was funktioniert konkret? (3-5 Sätze): Die Methode ermöglicht es, die Kontext-Länge von Gemma 4 26B auf 40k Tokens zu erweitern, ohne dass es zu Speicherüberlauf kommt. Dies ist besonders nützlich für Aufgaben, die eine lange Kontext-Länge erfordern.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Methode ist komplex und erfordert eine sorgfältige Verwaltung der KV-Cache-Blöcke. Die Leistung in tok/s wird durch die zusätzliche Komplexität beeinträchtigt, und es gibt keine konkreten Zahlen dazu im Post.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders geeignet für Nutzer, die eine sehr lange Kontext-Länge benötigen. Es erfordert jedoch technisches Know-how und ist möglicherweise nicht für alle anwendbar. Für den allgemeinen OpenCode-Workload könnten einfacheere Setups mit 24k-32k Kontext-Länge ausreichend sein.

TinyGPU on Apple Silicon + RTX 5070 Ti: my real Qwen benchmarks vs Ollama/Metal (5/10) — OpenCode-Fit: NEIN

Worum es geht (2-4 Sätze): Der Nutzer hat TinyGPU auf einem Apple Silicon Mac mit einem externen RTX 5070 Ti getestet und die Leistung mit Ollama verglichen. TinyGPU funktioniert, ist aber im Vergleich zu Ollama auf dem internen Apple GPU langsamer.

Reales Setup (komplette Fakten-Tabelle — bitte als Markdown-Tabelle)

Was funktioniert konkret? (3-5 Sätze): TinyGPU funktioniert auf dem externen RTX 5070 Ti, aber die Leistung ist im Vergleich zu Ollama auf dem internen Apple GPU langsamer. Die Benchmarks zeigen, dass Ollama auf dem internen GPU besser abschneidet.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung von TinyGPU ist im Vergleich zu Ollama auf dem internen Apple GPU deutlich schlechter. Dies macht das Setup für den OpenCode-Workload ungeeignet, da die Geschwindigkeit ein wichtiger Faktor ist.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist nicht für den OpenCode-Workload geeignet. Für Nutzer mit Apple Silicon Macs ist es empfehlenswert, Ollama auf dem internen GPU zu verwenden, um die beste Leistung zu erzielen. Die Verwendung eines externen GPUs mit TinyGPU ist aktuell nicht empfehlenswert.

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload (7/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Nutzer hat eine Methode entwickelt, um häufig genutzte Experten in den VRAM zu laden, um die Token-Generierung von Qwen3.5-122B-A10B zu beschleunigen. Die Methode führt zu einer 27% höheren Geschwindigkeit im Vergleich zu layer-basierter Partial Offload.

Reales Setup (komplette Fakten-Tabelle — bitte als Markdown-Tabelle)

Was funktioniert konkret? (3-5 Sätze): Die Methode zur dynamischen Experten-Caching in VRAM führt zu einer 27% höheren Token-Generierung im Vergleich zu layer-basierter Partial Offload. Dies verbessert die Leistung von Qwen3.5-122B-A10B erheblich und macht das Setup für den OpenCode-Workload geeignet.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Methode erfordert eine sorgfältige Verwaltung der Experten-Cache-Blöcke und kann bei sehr großen Kontexten zu Speicherüberlauf führen. Die Leistung kann bei sehr hohen Kontexten abnehmen.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist ideal für den OpenCode-Workload und bietet eine ausgezeichnete Leistung. Es ist besonders geeignet für Nutzer mit einem RTX 4090 und einem leistungsstarken CPU. Die Methode zur dynamischen Experten-Caching kann die Leistung erheblich verbessern.

Weitere Beiträge (kurz):

– [Findings: Gemma4 26B-A4B fine-tuning on a single RTX 4090 — 10

👁 2 Aufrufe 👤 2 Leser