Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist in dieser Woche besonders aktiv, mit vielen Benutzern, die ihre lokalen KI-Setups dokumentieren und benchmarken. Besonders hervorzuheben sind die Einträge, die sich mit dem neuen Qwen 3.6-35B-A3B-Modell befassen, das sich als besonders leistungsfähig für tool-gestützte Workflows und lange Kontexte herausstellt. Ein Leser kann heute Abend mit dem Setup von Qwen 3.6-35B-A3B auf einem RTX 3090 oder 4090 beginnen, um eine robuste und effiziente lokale KI-Lösung zu implementieren.

Qwen3.6 is incredible with OpenCode! (8/10) — OpenCode-Fit: JA

Vorschau

Worum es geht: Der Benutzer hat Qwen3.6-35B-A3B auf einem RTX 4090 getestet und berichtet über seine beeindruckenden Leistungen bei komplexen Aufgaben, insbesondere beim Implementieren von Row-Level Security (RLS) in einer PostgreSQL-Datenbank. Das Modell hat eine kontinuierliche Iteration durchgeführt und ist in der Lage, Compilerfehler zu erkennen und zu korrigieren.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 4090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp“ |
| Modell + Quant | „Qwen3.6-35B-A3B, IQ4_NL unsloth quant“ |
| Kontext-Laenge | „262k“ |
| tok/s (single) | „100 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Qwen3.6-35B-A3B zeigt eine ausgezeichnete Leistung bei komplexen Aufgaben, insbesondere beim Implementieren von RLS in einer PostgreSQL-Datenbank. Das Modell ist in der Lage, Compilerfehler zu erkennen und zu korrigieren, und kann kontinuierlich iterieren, um die Aufgabe zu vervollständigen.

Was NICHT funktioniert / Limits: Das Modell hat noch einige Lücken und Bugs, aber insgesamt ist es in der Lage, komplexe Aufgaben zu lösen, die vorherige Modelle nicht bewältigen konnten. Die Leistung ist jedoch stark von der spezifischen Aufgabe abhängig.

Nachbau-Empfehlung: Dieses Setup ist besonders empfehlenswert für Entwickler, die komplexe Aufgaben lösen müssen und eine hohe Kontextlänge benötigen. Das Modell ist schnell und zuverlässig, aber es erfordert eine GPU mit mindestens 24GB VRAM.


Qwen 3.6 vs 6 other models across 5 agent frameworks on M3 Ultra (8/10) — OpenCode-Fit: JA

Vorschau

Worum es geht: Der Benutzer hat Qwen 3.6-35B-A3B und fünf andere Modelle auf fünf verschiedenen Agent-Frameworks auf einem Apple M3 Ultra getestet. Die Ergebnisse zeigen, dass Qwen 3.6-35B-A3B in fast allen Frameworks die besten Leistungen erzielt, insbesondere bei tool-gestützten Workflows.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „Apple M3 Ultra“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „256 GB Unified Memory“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „Hermes Agent, PydanticAI, LangChain, smolagents, OpenClaude/Anthropic SDK“ |
| Modell + Quant | „Qwen3.6-35B-A3B (4bit)“ |
| Kontext-Laenge | „262k“ |
| tok/s (single) | „100 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Qwen 3.6-35B-A3B erzielt in fast allen getesteten Agent-Frameworks die besten Leistungen, insbesondere bei tool-gestützten Workflows. Das Modell ist schnell und zuverlässig, was es zu einer ausgezeichneten Wahl für Entwickler macht.

Was NICHT funktioniert / Limits: Andere Modelle wie DeepSeek-R1 32B und Llama 3.3 70B zeigen weniger konsistente Leistungen, abhängig vom Framework. Die Leistung von Qwen 3.6-35B-A3B ist jedoch in fast allen Fällen überzeugend.

Nachbau-Empfehlung: Dieses Setup ist besonders empfehlenswert für Entwickler, die eine hohe Kontextlänge und tool-gestützte Workflows benötigen. Das Apple M3 Ultra bietet eine ausgezeichnete Kombination aus Leistung und Autarkie, was es zu einer soliden Wahl für private Haushalte macht.


Best French to English model that will easily run on a 3090? (7/10) — OpenCode-Fit: BEDINGT

Vorschau

Worum es geht: Der Benutzer sucht nach einem leistungsfähigen Modell zur Übersetzung von Französisch nach Englisch, das auf einem RTX 3090 läuft. Die Community empfiehlt Gemma 4 31B und Qwen3.6 35B-A3B.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „nicht im Post belegt“ |
| Modell + Quant | „Gemma 4 31B (Q4_K_XL), Qwen3.6-35B-A3B (Q4_K_XL)“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „20-25 tok/s (Gemma 4 31B), 100 tok/s (Qwen3.6-35B-A3B)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |

Was funktioniert konkret? Gemma 4 31B und Qwen3.6-35B-A3B sind beide leistungsfähige Modelle zur Übersetzung von Französisch nach Englisch. Gemma 4 31B ist besonders gut in der Auffassung von französischen Feinheiten, während Qwen3.6-35B-A3B eine höhere Token-Rate bietet.

Was NICHT funktioniert / Limits: Gemma 4 31B erfordert eine GPU mit mindestens 24GB VRAM, während Qwen3.6-35B-A3B bei 24GB VRAM noch Platz für eine gute Kontextlänge hat, aber möglicherweise bei sehr großen Kontexten Grenzen erreicht.

Nachbau-Empfehlung: Gemma 4 31B ist die bessere Wahl, wenn die Auffassung von französischen Feinheiten wichtig ist, während Qwen3.6-35B-A3B für schnellere Leistung geeignet ist. Beide Modelle sind auf einem RTX 3090 lauffähig, aber die Wahl des Modells sollte anhand der spezifischen Anforderungen getroffen werden.


Weitere Beitraege (automatisch gefiltert):
Dev seeking advice: High-Context Local LLM for Coding (Verification/Bug-fixing loop) – Mac Studio vs. Multi-GPU Linux Rig? — keine Hardware belegt, kein nachbaubares Setup

👁 1 Aufrufe 👤 1 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert