Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Community, die sich mit echten, nachbaubaren Setups für lokale KI-Modelle beschäftigt. In dieser Woche sind besonders die Benchmarks und Erfahrungsberichte mit Qwen 3.6-35B-A3B und Gemma4 26B-A4B hervorgetreten. Diese Modelle zeigen beeindruckende Leistungen auf Consumer-Hardware wie RTX 3090, 4090 und Mac Studio M4 Ultra. Ein Leser kann heute Abend mit diesen Setups beginnen, um eine lokale KI-Infrastruktur aufzubauen, die für OpenCode-Aufgaben geeignet ist.
[Qwen3.6 is incredible with OpenCode! (8/10) — OpenCode-Fit: JA]

Worum es geht: Der Benutzer hat Qwen3.6-35B-A3B auf einem RTX 4090 getestet und berichtet über seine Erfahrungen bei der Implementierung von RLS in einem großen Codebase mit mehreren Services in Rust, TypeScript und Python. Das Modell hat eine ausgezeichnete Leistung gezeigt, insbesondere bei der Iteration und Fehlerbehebung.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 4090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp |
| Modell + Quant | Qwen3.6-35B-A3B, IQ4_NL unsloth quant |
| Kontext-Laenge | 262k (KV-Cache OK) |
| tok/s (single) | 100+ tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Qwen3.6-35B-A3B hat eine ausgezeichnete Leistung bei der Implementierung von RLS in einer großen Codebase gezeigt. Es kann Compilerfehler erkennen und iterativ beheben, ohne sich zu verlieren. Die Kontextlänge von 262k ermöglicht es, komplexe Aufgaben zu bearbeiten, und die Geschwindigkeit von über 100 tok/s macht es zu einem effizienten Tool.
Was NICHT funktioniert / Limits: Das Modell ist noch nicht perfekt und hat manchmal Lücken oder Bugs, die manuell korrigiert werden müssen. Es ist auch ressourcenintensiv und erfordert eine gut ausgestattete GPU.
Nachbau-Empfehlung: Dieses Setup ist für Entwickler mit einem Budget von 1.000-2.000 EUR empfehlenswert, die eine leistungsstarke lokale KI-Infrastruktur für komplexe Coding-Aufgaben benötigen. Es ist besonders geeignet für die Arbeit mit großen Codebasen und komplexen Anwendungen.
[Qwen 3.6 vs 6 other models across 5 agent frameworks on M3 Ultra (9/10) — OpenCode-Fit: JA]

Worum es geht: Der Benutzer hat Qwen 3.6-35B-A3B und andere Modelle auf einem Apple M3 Ultra mit 256GB Unified Memory in fünf verschiedenen Agent-Frameworks getestet. Die Benchmarks zeigen, dass Qwen 3.6-35B-A3B in allen Frameworks hervorragende Ergebnisse erzielt, insbesondere bei der Tool-Calling-Fähigkeit.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | Apple M3 Ultra 256GB Unified Memory |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 256 GB Unified Memory |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | Hermes Agent, PydanticAI, LangChain, smolagents, OpenClaude/Anthropic SDK |
| Modell + Quant | Qwen3.6-35B-A3B, 4bit |
| Kontext-Laenge | 262k (KV-Cache OK) |
| tok/s (single) | 100 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Qwen 3.6-35B-A3B erzielt in allen getesteten Agent-Frameworks hervorragende Ergebnisse, insbesondere bei der Tool-Calling-Fähigkeit. Es ist in der Lage, komplexe Aufgaben zu lösen und erreicht Geschwindigkeiten von 100 tok/s. Die Kontextlänge von 262k ermöglicht es, große Codebasen und komplexe Anwendungen zu bearbeiten.
Was NICHT funktioniert / Limits: Andere Modelle wie Gemma 4 26B und DeepSeek-R1 32B zeigen weniger konsistente Ergebnisse, insbesondere in bestimmten Frameworks. Die Geschwindigkeit und die Tool-Calling-Fähigkeit variieren je nach Modell und Framework.
Nachbau-Empfehlung: Dieses Setup ist für Entwickler mit einem Budget von 2.000-3.000 EUR empfehlenswert, die eine leistungsstarke lokale KI-Infrastruktur für komplexe Agent-Aufgaben benötigen. Es ist besonders geeignet für die Arbeit mit großen Codebasen und der Integration von verschiedenen Agent-Frameworks.
[Qwen 3.6 is the first local model that actually feels worth the effort for me (8/10) — OpenCode-Fit: JA]

Worum es geht: Der Benutzer hat Qwen3.6-35B-A3B auf einem System mit 5090 und 4090 getestet und berichtet, dass es das erste lokale Modell ist, das für ihn wirklich nutzbringend ist. Es kann komplexe Aufgaben lösen und erfordert nur minimale Korrekturen.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 5090 + 4090 |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp |
| Modell + Quant | Qwen3.6-35B-A3B, Q8 |
| Kontext-Laenge | 260k (KV-Cache OK) |
| tok/s (single) | 170 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Qwen3.6-35B-A3B kann komplexe Aufgaben lösen und erfordert nur minimale Korrekturen. Es ist in der Lage, große Codebasen zu bearbeiten und erreicht Geschwindigkeiten von 170 tok/s. Die Kontextlänge von 260k ermöglicht es, komplexe Aufgaben zu bearbeiten.
Was NICHT funktioniert / Limits: Das Modell ist ressourcenintensiv und erfordert eine gut ausgestattete GPU. Es kann manchmal Lücken oder Bugs haben, die manuell korrigiert werden müssen.
Nachbau-Empfehlung: Dieses Setup ist für Entwickler mit einem Budget von 2.000-3.000 EUR empfehlenswert, die eine leistungsstarke lokale KI-Infrastruktur für komplexe Coding-Aufgaben benötigen. Es ist besonders geeignet für die Arbeit mit großen Codebasen und komplexen Anwendungen.
[TinyGPU on Apple Silicon + RTX 5070 Ti: my real Qwen benchmarks vs Ollama/Metal (7/10) — OpenCode-Fit: BEDINGT]

Worum es geht: Der Benutzer hat TinyGPU auf einem Apple Silicon Mac mit einem externen RTX 5070 Ti getestet und die Leistung mit Ollama verglichen. TinyGPU funktioniert, aber Ollama ist auf diesem Setup noch leistungsfähiger.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 5070 Ti 16GB (extern) |
| CPU / Mainboard | Apple M4 Pro |
| RAM | 256 GB Unified Memory |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | Thunderbolt 3 Enclosure |
| Framework + Version | TinyGPU/tinygrad, Ollama 0.20.7 |
| Modell + Quant | Qwen3.5-9B, Qwen3:0.6b |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? TinyGPU funktioniert auf einem Apple Silicon Mac mit einem externen RTX 5070 Ti, aber Ollama ist auf diesem Setup noch leistungsfähiger. Ollama nutzt die interne Apple GPU über Metal, während TinyGPU die externe GPU nutzt.
Was NICHT funktioniert / Limits: TinyGPU ist noch nicht so leistungsfähig wie Ollama auf diesem Setup. Es erfordert zusätzliche Optimierung und Konfiguration, um die volle Leistung der externen GPU zu nutzen.
Nachbau-Empfehlung: Dieses Setup ist für Entwickler mit einem Budget von 1.500-2.500 EUR empfehlenswert, die eine leistungsstarke lokale KI-Infrastruktur auf Apple Silicon mit externer GPU benötigen. Es ist besonders geeignet für die Arbeit mit großen Codebasen und komplexen Anwendungen, aber Ollama ist derzeit die bessere Wahl.
[Findings: Gemma4 26B-A4B fine-tuning on a single RTX 4090 — 10 patches, benchmark, PCIELink path #1 (7/10) — OpenCode-Fit: BEDINGT]

Worum es geht: Der Benutzer hat Gemma4 26B-A4B auf einem RTX 4090 mit 24GB VRAM fine-tuned und die notwendigen Patches dokumentiert. Die Benchmarks zeigen, dass das Modell gut funktioniert, aber einige Anpassungen erforderlich sind.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 4090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 60GB System RAM |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | bitsandbytes, transformers, peft |
| Modell + Quant | Gemma4 26B-A4B |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? Gemma4 26B-A4B kann auf einem RTX 4090 fine-tuned werden, aber es erfordert einige Patches und Anpassungen. Die Benchmarks zeigen, dass das Modell gut funktioniert und die Geschwindigkeit ist akzeptabel.
Was NICHT funktioniert / Limits: Die Fine-Tuning-Prozesse erfordern zusätzliche Patches und Anpassungen, die nicht trivial sind. Es gibt auch einige Einschränkungen in Bezug auf die Kontextlänge und die Geschwindigkeit.
Nachbau-Empfehlung: Dieses Setup ist für Entwickler mit einem Budget von 1.500-2.500 EUR empfehlenswert, die eine leistungsstarke lokale KI-Infrastruktur für Fine-Tuning-Aufgaben benötigen. Es ist besonders geeignet für die Arbeit mit großen Codebasen und komplexen Anwendungen, aber es erfordert technische Kenntnisse und manuelle Anpassungen.
Weitere Beiträge (kurz):
– Reachy Mini, amazing to build with the kid, painful experience with the applications — keine Hardware belegt, kein nachbaubares Setup
– Anyone tried using a Thunderbolt connection between a Mac studio M3 Ultra and an Nvidia PC for LLM inference? — keine Hardware belegt, reine Problem-Frage ohne Lösung
– Best French to English model that will easily run on a 3090? — keine Hardware belegt, reine Frage ohne Lösung
– Dev seeking advice: High-Context Local LLM for Coding (Verification/Bug-fixing loop) – Mac Studio vs. Multi-GPU Linux Rig? — keine Hardware belegt, reine Frage ohne Lösung
– [Benckmark Qwen 3.6-35b uncensored on Rtx3090](https://old.reddit.com/r/LocalLL