Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für echte, nachbaubare Setups zur lokalen Ausführung von KI-Modellen. In dieser Woche sind besonders die Setups mit Qwen 3.6 und Gemma 4 im Fokus. Diese Modelle zeigen beeindruckende Leistungen in verschiedenen Frameworks und auf unterschiedlichen Hardware-Konfigurationen. Ein Leser kann heute Abend mit einem funktionierenden Setup für Qwen 3.6 oder Gemma 4 beginnen, das sowohl in der Leistung als auch in der Autarkie gut abschneidet.

[Qwen 3.6 vs 6 other models across 5 agent frameworks on M3 Ultra] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Qwen 3.6, Qwen 3.5 und fünf andere Modelle auf fünf Agent-Frameworks auf einem Apple M3 Ultra getestet. Die Tests umfassen Tool-Calling, Decode-Geschwindigkeit und Modell-Qualität.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Qwen 3.6 35B (4bit) erzielt 100% Pass-Rate in allen getesteten Agent-Frameworks und erreicht eine Geschwindigkeit von 100 tok/s. Es ist besonders gut in Tool-Calling und zeigt hohe Leistung in Code-Generierung und Wissensfragen.

Was NICHT funktioniert / Limits Die anderen Modelle wie Qwen 3.5 35B (8bit) und Qwopus 27B (4bit) zeigen ebenfalls gute Ergebnisse, aber nicht so konstant wie Qwen 3.6. Längerfristig könnten die 70B-Modelle wie Llama 3.3 70B (4bit) bei sehr großen Kontexten Vorteile bieten, aber sie sind langsamer.

Nachbau-Empfehlung Qwen 3.6 35B (4bit) ist eine ausgezeichnete Wahl für Entwickler, die ein leistungsstarkes, autarkes Setup auf Apple Silicon suchen. Es ist schnell, zuverlässig und gut für Tool-Calling geeignet. Für Budget-User ist der 27B-Modell eine gute Alternative.

[Qwen3.6 is incredible with OpenCode!] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Qwen 3.6-35B-A3B auf einem RTX 4090 getestet und berichtet über seine Erfahrungen bei der Implementierung von Row-Level-Security (RLS) in einem großen Codebase mit mehreren Services in Rust, TypeScript und Python.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Qwen 3.6-35B-A3B hat eine beeindruckende Leistung bei der Implementierung von RLS in einer großen Codebase. Es kann Compilerfehler erkennen und iterativ korrigieren, ohne sich zu verlieren. Die Geschwindigkeit von 100+ tok/s macht es zu einem der schnellsten Modelle, die der Benutzer getestet hat.

Was NICHT funktioniert / Limits Das Modell hat einige Lücken und Bugs, aber es kann diese selbst korrigieren, wenn es darum gebeten wird. Die Verwendung von Parallel-Tools kann zu OOM-Fehlern führen, wenn nicht korrekt konfiguriert.

Nachbau-Empfehlung Qwen 3.6-35B-A3B ist eine ausgezeichnete Wahl für Entwickler, die komplexe Aufgaben lokal lösen möchten. Es ist besonders gut für Code-Generierung und -Bewertung geeignet. Für Benutzer mit einem RTX 4090 ist dieses Setup empfehlenswert.

[Qwen 3.6 is the first local model that actually feels worth the effort for me] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Qwen 3.6-35B-A3B auf einem Setup mit 5090 und 4090 getestet und berichtet, dass es das erste lokale Modell ist, das für ihn wirklich nützlich ist. Es kann komplexe Aufgaben lösen und erfordert nur minimale Korrekturen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Qwen 3.6-35B-A3B kann komplexe Aufgaben lösen und erfordert nur minimale Korrekturen. Es ist besonders gut in der Code-Generierung und -Bewertung. Die Geschwindigkeit von 170 tok/s macht es zu einem der schnellsten Modelle, die der Benutzer getestet hat.

Was NICHT funktioniert / Limits Das Modell ist groß und erfordert viel VRAM. Es kann bei sehr großen Kontexten OOM-Fehler werfen, wenn nicht korrekt konfiguriert. Die Dateigröße ist relativ groß, was bei begrenztem Speicherplatz ein Problem sein kann.

Nachbau-Empfehlung Qwen 3.6-35B-A3B ist eine ausgezeichnete Wahl für Entwickler, die ein leistungsstarkes, autarkes Setup suchen. Es ist besonders gut für Code-Generierung und -Bewertung geeignet. Für Benutzer mit einem RTX 5090 und 4090 ist dieses Setup empfehlenswert.

[TinyGPU on Apple Silicon + RTX 5070 Ti: my real Qwen benchmarks vs Ollama/Metal] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Benutzer hat TinyGPU auf einem Apple Silicon Mac mit einem externen RTX 5070 Ti getestet und die Leistung mit Ollama verglichen. TinyGPU funktioniert, ist aber noch nicht so leistungsfähig wie Ollama auf der internen Apple-GPU.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? TinyGPU funktioniert auf einem Apple Silicon Mac mit externem RTX 5070 Ti. Es kann Qwen-Modelle inferieren, aber die Leistung ist noch nicht so gut wie bei Ollama auf der internen Apple-GPU.

Was NICHT funktioniert / Limits TinyGPU ist noch nicht so leistungsfähig wie Ollama auf der internen Apple-GPU. Die CPU-Offload-Funktionen und die PCIe-Verbindung können zu Bottlenecks führen.

Nachbau-Empfehlung TinyGPU ist eine interessante Option für Benutzer, die einen externen GPU-Boost auf einem Apple Silicon Mac benötigen. Es ist jedoch noch nicht so leistungsfähig wie Ollama. Für Benutzer, die hohe Leistung benötigen, ist Ollama auf der internen Apple-GPU weiterhin die bessere Wahl.

[Gemma4 26b & E4B are crazy good, and replaced Qwen for me!] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Gemma4 26B-E4B auf einem Setup mit 2 RTX 3090s und 1 P40 getestet und berichtet, dass es Qwen ersetzt hat. Es ist besonders gut in der Code-Generierung und -Bewertung.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Gemma4 26B-E4B ist besonders gut in der Code-Generierung und -Bewertung. Es ersetzt erfolgreich Qwen in vielen Aufgaben und erfordert weniger manuelle Korrekturen.

Was NICHT funktioniert / Limits Die Verwendung von mehreren Modellen kann zu Overhead führen, insbesondere bei der Semantischen Routing-Schicht. Die GPU-Verfügbarkeit kann bei mehreren GPUs ein Problem sein.

Nachbau-Empfehlung Gemma4 26B-E4B ist eine ausgezeichnete Wahl für Entwickler, die ein leistungsstarkes, autarkes Setup suchen. Es ist besonders gut für Code-Generierung und -Bewertung geeignet. Für Benutzer mit mehreren GPUs ist dieses Setup empfehlenswert.

Weitere Beiträge (kurz):

– Abliterlitics: Benchmark and Tensor Analysis Comparing Qwen 3/3.5 with HauhauCS / Heretic / Huihui models — keine Hardware belegt, kein nachbaubares Setup
– Best French to English model that will easily run on a 3090? — reine Problem-Frage ohne Loesung
– Dev seeking advice: High-Context Local LLM for Coding (Verification/Bug-fixing loop) – Mac Studio vs. Multi-GPU Linux Rig? — keine konkrete Hardware belegt, eher Diskussion
– Benckmark Qwen 3.6-35b uncensored on Rtx3090 — keine konkrete Hardware belegt, kein nachbaubares Setup
– Findings: Gemma4 26B-A4B fine-tuning on a single RTX 4090 — 10 patches, benchmark, PCIELink path #1 — keine konkrete Hardware belegt, kein nachbaubares Setup
– Please help me pick the right Qwen3.5-27B format/quant for RTX5090 — reine Problem-Frage ohne Loesung
– Anyone here actually using a Mac Studio Ultra (512GB RAM) for local LLM work? Feels like overkill for my use case — keine konkrete Hardware belegt, eher Diskussion

👁 0 Aufrufe 👤 0 Leser