Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für echte, nachbaubare Setups zur lokalen Ausführung von KI-Modellen. In dieser Woche sind besonders die Setups mit Qwen 3.6 und Gemma 4 im Fokus. Diese Modelle zeigen beeindruckende Leistungen in verschiedenen Frameworks und auf unterschiedlichen Hardware-Konfigurationen. Ein Leser kann heute Abend mit einem funktionierenden Setup für Qwen 3.6 oder Gemma 4 beginnen, das sowohl in der Leistung als auch in der Autarkie gut abschneidet.

[Qwen 3.6 vs 6 other models across 5 agent frameworks on M3 Ultra] (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Benutzer hat Qwen 3.6, Qwen 3.5 und fünf andere Modelle auf fünf Agent-Frameworks auf einem Apple M3 Ultra getestet. Die Tests umfassen Tool-Calling, Decode-Geschwindigkeit und Modell-Qualität.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | Apple M3 Ultra 512 GB |
| CPU / Mainboard | Apple M3 Ultra |
| RAM | 256 GB Unified Memory |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | Hermes Agent, PydanticAI, LangChain, smolagents, OpenClaude/Anthropic SDK |
| Modell + Quant | Qwen 3.6 35B (4bit), Qwen 3.5 35B (8bit), Qwopus 27B (4bit), Qwen 3.5 27B (4bit), Gemma 4 26B (4bit), DeepSeek-R1 32B (4bit), Llama 3.3 70B (4bit) |
| Kontext-Laenge | 262k (KV-Cache OK) |
| tok/s (single) | 100 tok/s (Qwen 3.6 35B) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Qwen 3.6 35B (4bit) erzielt 100% Pass-Rate in allen getesteten Agent-Frameworks und erreicht eine Geschwindigkeit von 100 tok/s. Es ist besonders gut in Tool-Calling und zeigt hohe Leistung in Code-Generierung und Wissensfragen.

Was NICHT funktioniert / Limits Die anderen Modelle wie Qwen 3.5 35B (8bit) und Qwopus 27B (4bit) zeigen ebenfalls gute Ergebnisse, aber nicht so konstant wie Qwen 3.6. Längerfristig könnten die 70B-Modelle wie Llama 3.3 70B (4bit) bei sehr großen Kontexten Vorteile bieten, aber sie sind langsamer.

Nachbau-Empfehlung Qwen 3.6 35B (4bit) ist eine ausgezeichnete Wahl für Entwickler, die ein leistungsstarkes, autarkes Setup auf Apple Silicon suchen. Es ist schnell, zuverlässig und gut für Tool-Calling geeignet. Für Budget-User ist der 27B-Modell eine gute Alternative.


[Qwen3.6 is incredible with OpenCode!] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Qwen 3.6-35B-A3B auf einem RTX 4090 getestet und berichtet über seine Erfahrungen bei der Implementierung von Row-Level-Security (RLS) in einem großen Codebase mit mehreren Services in Rust, TypeScript und Python.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 4090 24 GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp |
| Modell + Quant | Qwen3.6-35B-A3B, IQ4_NL unsloth quant |
| Kontext-Laenge | 262k (KV-Cache OK) |
| tok/s (single) | 100+ tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Qwen 3.6-35B-A3B hat eine beeindruckende Leistung bei der Implementierung von RLS in einer großen Codebase. Es kann Compilerfehler erkennen und iterativ korrigieren, ohne sich zu verlieren. Die Geschwindigkeit von 100+ tok/s macht es zu einem der schnellsten Modelle, die der Benutzer getestet hat.

Was NICHT funktioniert / Limits Das Modell hat einige Lücken und Bugs, aber es kann diese selbst korrigieren, wenn es darum gebeten wird. Die Verwendung von Parallel-Tools kann zu OOM-Fehlern führen, wenn nicht korrekt konfiguriert.

Nachbau-Empfehlung Qwen 3.6-35B-A3B ist eine ausgezeichnete Wahl für Entwickler, die komplexe Aufgaben lokal lösen möchten. Es ist besonders gut für Code-Generierung und -Bewertung geeignet. Für Benutzer mit einem RTX 4090 ist dieses Setup empfehlenswert.


[Qwen 3.6 is the first local model that actually feels worth the effort for me] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Qwen 3.6-35B-A3B auf einem Setup mit 5090 und 4090 getestet und berichtet, dass es das erste lokale Modell ist, das für ihn wirklich nützlich ist. Es kann komplexe Aufgaben lösen und erfordert nur minimale Korrekturen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 2x RTX 5090 32GB, 1x RTX 4090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 32 GB System RAM |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp |
| Modell + Quant | Qwen3.6-35B-A3B, Q8 quant |
| Kontext-Laenge | 260k (KV-Cache OK) |
| tok/s (single) | 170 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Qwen 3.6-35B-A3B kann komplexe Aufgaben lösen und erfordert nur minimale Korrekturen. Es ist besonders gut in der Code-Generierung und -Bewertung. Die Geschwindigkeit von 170 tok/s macht es zu einem der schnellsten Modelle, die der Benutzer getestet hat.

Was NICHT funktioniert / Limits Das Modell ist groß und erfordert viel VRAM. Es kann bei sehr großen Kontexten OOM-Fehler werfen, wenn nicht korrekt konfiguriert. Die Dateigröße ist relativ groß, was bei begrenztem Speicherplatz ein Problem sein kann.

Nachbau-Empfehlung Qwen 3.6-35B-A3B ist eine ausgezeichnete Wahl für Entwickler, die ein leistungsstarkes, autarkes Setup suchen. Es ist besonders gut für Code-Generierung und -Bewertung geeignet. Für Benutzer mit einem RTX 5090 und 4090 ist dieses Setup empfehlenswert.


[TinyGPU on Apple Silicon + RTX 5070 Ti: my real Qwen benchmarks vs Ollama/Metal] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Benutzer hat TinyGPU auf einem Apple Silicon Mac mit einem externen RTX 5070 Ti getestet und die Leistung mit Ollama verglichen. TinyGPU funktioniert, ist aber noch nicht so leistungsfähig wie Ollama auf der internen Apple-GPU.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 5070 Ti 16GB, Apple M4 Pro |
| CPU / Mainboard | Apple Silicon Mac |
| RAM | 128 GB System RAM |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | Thunderbolt 3 Enclosure |
| Framework + Version | TinyGPU/tinygrad, Ollama 0.20.7 |
| Modell + Quant | Qwen3:0.6b, Qwen3.5:9b |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? TinyGPU funktioniert auf einem Apple Silicon Mac mit externem RTX 5070 Ti. Es kann Qwen-Modelle inferieren, aber die Leistung ist noch nicht so gut wie bei Ollama auf der internen Apple-GPU.

Was NICHT funktioniert / Limits TinyGPU ist noch nicht so leistungsfähig wie Ollama auf der internen Apple-GPU. Die CPU-Offload-Funktionen und die PCIe-Verbindung können zu Bottlenecks führen.

Nachbau-Empfehlung TinyGPU ist eine interessante Option für Benutzer, die einen externen GPU-Boost auf einem Apple Silicon Mac benötigen. Es ist jedoch noch nicht so leistungsfähig wie Ollama. Für Benutzer, die hohe Leistung benötigen, ist Ollama auf der internen Apple-GPU weiterhin die bessere Wahl.


[Gemma4 26b & E4B are crazy good, and replaced Qwen for me!] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Gemma4 26B-E4B auf einem Setup mit 2 RTX 3090s und 1 P40 getestet und berichtet, dass es Qwen ersetzt hat. Es ist besonders gut in der Code-Generierung und -Bewertung.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 2x RTX 3090 24GB, 1x P40 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 128 GB System RAM |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp, vLLM |
| Modell + Quant | Gemma4 26B-E4B, Qwen 3.5 30B A3B Q8XL, Qwen 3.5 27B Q8XL, Qwen 3 Next Coder 80B A3B Q6_K, Qwen 3.5 122B UD Q4KXL, Qwen 3.5 122B Q6 |
| Kontext-Laenge | 32k (KV-Cache OK) |
| tok/s (single) | 80-110 tok/s (Qwen 3.5 27B) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Gemma4 26B-E4B ist besonders gut in der Code-Generierung und -Bewertung. Es ersetzt erfolgreich Qwen in vielen Aufgaben und erfordert weniger manuelle Korrekturen.

Was NICHT funktioniert / Limits Die Verwendung von mehreren Modellen kann zu Overhead führen, insbesondere bei der Semantischen Routing-Schicht. Die GPU-Verfügbarkeit kann bei mehreren GPUs ein Problem sein.

Nachbau-Empfehlung Gemma4 26B-E4B ist eine ausgezeichnete Wahl für Entwickler, die ein leistungsstarkes, autarkes Setup suchen. Es ist besonders gut für Code-Generierung und -Bewertung geeignet. Für Benutzer mit mehreren GPUs ist dieses Setup empfehlenswert.


Weitere Beiträge (kurz):

Abliterlitics: Benchmark and Tensor Analysis Comparing Qwen 3/3.5 with HauhauCS / Heretic / Huihui models — keine Hardware belegt, kein nachbaubares Setup
Best French to English model that will easily run on a 3090? — reine Problem-Frage ohne Loesung
Dev seeking advice: High-Context Local LLM for Coding (Verification/Bug-fixing loop) – Mac Studio vs. Multi-GPU Linux Rig? — keine konkrete Hardware belegt, eher Diskussion
Benckmark Qwen 3.6-35b uncensored on Rtx3090 — keine konkrete Hardware belegt, kein nachbaubares Setup
Findings: Gemma4 26B-A4B fine-tuning on a single RTX 4090 — 10 patches, benchmark, PCIELink path #1 — keine konkrete Hardware belegt, kein nachbaubares Setup
Please help me pick the right Qwen3.5-27B format/quant for RTX5090 — reine Problem-Frage ohne Loesung
Anyone here actually using a Mac Studio Ultra (512GB RAM) for local LLM work? Feels like overkill for my use case — keine konkrete Hardware belegt, eher Diskussion

👁 0 Aufrufe 👤 0 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert