Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fav

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build-Berichten und Benchmarks geprägt. Besonders hervorzuheben sind die Einträge, die Qwen 3.6 auf verschiedenen Hardware-Setups testen und bewerten. Ein Benutzer berichtet von einem Setup mit RTX 4090, das 100+ tok/s bei 262k Kontext erreicht, während ein anderer Qwen 3.6 auf einem Mac Studio M3 Ultra testet und hohe Tool-Calling-Raten bei moderaten Geschwindigkeiten erzielt. Diese Einträge bieten praxisnahe Einblicke in die Leistung und Eignung lokaler KI-Modelle für OpenCode-Aufgaben.

Qwen3.6 is incredible with OpenCode! (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht (2-4 Sätze): Der Benutzer berichtet von seiner Erfahrung mit Qwen3.6-35B-A3B auf einem RTX 4090. Er hat das Modell für komplexe Aufgaben wie die Implementierung von Row-Level-Security (RLS) in einer PostgreSQL-Datenbank verwendet und ist von der Leistung und den iterativen Fähigkeiten des Modells beeindruckt.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 4090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp |
| Modell + Quant | Qwen3.6-35B-A3B, IQ4_NL unsloth quant |
| Kontext-Laenge | 262k |
| tok/s (single) | 100+ tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): Qwen3.6-35B-A3B zeigte sich als hochfunktionierendes Modell für komplexe Aufgaben wie die Implementierung von RLS in einer PostgreSQL-Datenbank. Es konnte iterativ an der Lösung arbeiten, Compilerfehler erkennen und korrigieren, und sogar komplexe Anforderungen wie die Minimierung von Code-Änderungen berücksichtigen. Die Geschwindigkeit von 100+ tok/s bei einem Kontext von 262k macht es zu einem leistungsstarken Tool für OpenCode-Aufgaben.

Was NICHT funktioniert / Limits (2-4 Sätze): Das Modell hat immer noch einige Schwachstellen, insbesondere bei der ersten Implementierung, wo es gelegentlich in die Falsche Richtung ging. Allerdings konnte es durch gezielte Anweisungen und Korrekturen schnell auf den richtigen Weg zurückgeführt werden. Die VRAM-Nutzung von ~21GB bei 262k Kontext ist relativ hoch, was die Verwendung auf GPUs mit weniger VRAM erschwert.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Entwickler geeignet, die komplexe Aufgaben lokal lösen möchten und über eine RTX 4090 verfügen. Für Benutzer mit weniger VRAM oder geringeren Leistungsanforderungen könnten kleinere Modelle oder andere Quantisierungen geeigneter sein.


Qwen 3.6 vs 6 other models across 5 agent frameworks on M3 Ultra (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer hat Qwen 3.6-35B und fünf andere Modelle auf fünf verschiedenen Agent-Frameworks auf einem Apple M3 Ultra getestet. Die Tests umfassten Tool-Calling, Multi-Tool-Auswahl, Multi-Turn-Interaktionen und andere Kriterien.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | Apple M3 Ultra |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 256GB unified memory |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | Hermes Agent, PydanticAI, LangChain, smolagents, OpenClaude/Anthropic SDK |
| Modell + Quant | Qwen3.6-35B (4bit), Qwen3.5-35B (8bit), Qwopus 27B (4bit), Qwen3.5-27B (4bit), Gemma 4 26B (4bit), DeepSeek-R1 32B (4bit), Llama 3.3 70B (4bit) |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | 100 tok/s (Qwen3.6-35B), 83 tok/s (Qwen3.5-35B), 38 tok/s (Qwopus 27B), 38 tok/s (Qwen3.5-27B), ~40 tok/s (Gemma 4 26B), ~30 tok/s (DeepSeek-R1 32B), ~20 tok/s (Llama 3.3 70B) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): Qwen 3.6-35B zeigte sich als überlegen in den meisten Agent-Frameworks, insbesondere in Tool-Calling und Multi-Tool-Auswahl. Es erreichte 100% Pass-Rate in den meisten Tests und lieferte hohe Geschwindigkeiten von 100 tok/s. Die anderen Qwen-Modelle und Qwopus 27B zeigten ebenfalls sehr gute Ergebnisse, während Gemma 4 26B und DeepSeek-R1 32B teilweise Schwierigkeiten hatten.

Was NICHT funktioniert / Limits (2-4 Sätze): Nicht alle Modelle funktionierten equally gut in allen Frameworks. Gemma 4 26B und DeepSeek-R1 32B zeigten in einigen Tests erhebliche Schwächen, insbesondere bei der Tool-Calling-Genauigkeit. Die Geschwindigkeit der größeren Modelle wie Llama 3.3 70B war deutlich geringer.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Benutzer geeignet, die auf Apple Silicon arbeiten und eine hohe Tool-Calling-Genauigkeit benötigen. Qwen 3.6-35B ist die beste Wahl für die meisten Aufgaben, während kleinere Modelle wie Qwen3.5-27B oder Qwopus 27B für schnellere, aber immer noch leistungsfähige Lösungen geeignet sind.


Qwen 3.6 is the first local model that actually feels worth the effort for me (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer berichtet, dass Qwen3.6-35B-A3B das erste lokale Modell ist, das er als nützlich für tägliche Aufgaben empfindet. Er hat es auf einem Setup mit RTX 5090 und 4090 getestet und ist von der Leistung und den Ergebnissen beeindruckt.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 2x RTX 5090, 1x RTX 4090 |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 32GB system RAM |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp |
| Modell + Quant | Qwen3.6-35B-A3B, Q8 quant |
| Kontext-Laenge | 260k |
| tok/s (single) | 170 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): Qwen3.6-35B zeigte sich als leistungsfähig und zuverlässig für tägliche Aufgaben wie Code-Generierung und -Bewertung. Es konnte komplexe Aufgaben lösen und benötigte nur minimale Korrekturen. Die Geschwindigkeit von 170 tok/s und der große Kontext von 260k machen es zu einem effizienten Tool für OpenCode-Aufgaben.

Was NICHT funktioniert / Limits (2-4 Sätze): Das Modell hat immer noch einige Schwachstellen, insbesondere bei der ersten Implementierung, wo es gelegentlich in die Falsche Richtung ging. Allerdings konnte es durch gezielte Anweisungen und Korrekturen schnell auf den richtigen Weg zurückgeführt werden. Die VRAM-Nutzung von ~21GB bei 260k Kontext ist relativ hoch, was die Verwendung auf GPUs mit weniger VRAM erschwert.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Entwickler geeignet, die komplexe Aufgaben lokal lösen möchten und über eine RTX 5090 und 4090 verfügen. Für Benutzer mit weniger VRAM oder geringeren Leistungsanforderungen könnten kleinere Modelle oder andere Quantisierungen geeigneter sein.


Weitere Beiträge (kurz):

Abliterlitics: Benchmark and Tensor Analysis Comparing Qwen 3/3.5 with HauhauCS / Heretic / Huihui models — keine Hardware belegt, kein nachbaubares Setup
Best French to English model that will easily run on a 3090? — keine Hardware belegt, kein nachbaubares Setup
Dev seeking advice: High-Context Local LLM for Coding (Verification/Bug-fixing loop) – Mac Studio vs. Multi-GPU Linux Rig? — keine konkrete Hardware belegt, nur Diskussion
Benckmark Qwen 3.6-35b uncensored on Rtx3090 — keine konkrete Hardware belegt, kein nachbaubares Setup
Findings: Gemma4 26B-A4B fine-tuning on a single RTX 4090 — 10 patches, benchmark, PCIELink path #1 — keine konkrete Hardware belegt, kein nachbaubares Setup
TinyGPU on Apple Silicon + RTX 5070 Ti: my real Qwen benchmarks vs Ollama/Metal — keine konkrete Hardware belegt, kein nachbaubares Setup
Gemma4 26b & E4B are crazy good, and replaced Qwen for me! — keine konkrete Hardware belegt, kein nachbaubares Setup
Please help me pick the right Qwen3.5-27B format/quant for RTX5090 — keine konkrete Hardware belegt, kein nachbaubares Setup

👁 0 Aufrufe 👤 0 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert