Qwen 3.6 lokal: Was läuft auf welcher Hardware?

# Qwen 3.6 lokal: Was läuft auf welcher Hardware? ![Vorschau](https://opengraph.githubassets.com/1/ollama/ollama) ## Die ehrliche Antwort (vorab) | Deine GPU | Realistisch | Nicht sinnvoll | |-----

Qwen 3.6 lokal: Was läuft auf welcher Hardware?

Vorschau

Die ehrliche Antwort (vorab)

| Deine GPU | Realistisch | Nicht sinnvoll |
|———–|————-|—————-|
| RTX 3090 (24GB) | 3B-32B in 4-bit, 3B-14B in 8-bit | 70B+ (zu langsam) |
| RTX 3080 (10GB) | 3B-7B in 4-bit/8-bit, 14B nur 4-bit | 32B+ (passt nicht) |

Was ist Qwen 3.6?

Qwen 3.6 ist ein chinesisches LLM (Large Language Model), das sowohl für Textgenerierung als auch für Codeerstellung geeignet ist. Es ist Open-Source und kann lokal auf deiner Hardware laufen.

Modellgrößen im Realitätscheck

3B-Modelle (Einsteiger)

– VRAM: ~2-4GB (4-bit bis 8-bit)
– Speed: 100-200 tok/s (sehr schnell)
RTX 3090: ✅ Langweilig einfach
RTX 3080: ✅ Langweilig einfach
Für was? Schnelle Chat-Antworten, einfache Aufgaben

7B-Modelle (Sweet Spot)

– VRAM: ~5-7GB (4-bit), ~10-12GB (8-bit)
– Speed: 60-120 tok/s (flüssig)
RTX 3090: ✅ Perfekt in 8-bit
RTX 3080: ✅ Gut in 4-bit, knapp in 8-bit
Für was? RAG, Code, Analyse – täglich nutzbar

14B-Modelle (Mittelklasse)

– VRAM: ~9-11GB (4-bit), ~18-22GB (8-bit)
– Speed: 30-60 tok/s (okay)
RTX 3090: ✅ Sehr gut in 8-bit
RTX 3080: ⚠️ Nur 4-bit, 8-bit passt nicht!
Für was? Komplexe Aufgaben, bessere Qualität

32B-Modelle (High-End)

– VRAM: ~18-20GB (4-bit stark komprimiert)
– Speed: 15-30 tok/s (langsam aber nutzbar)
RTX 3090: ✅ Ja, aber 4-bit nur
RTX 3080: ❌ Passt nicht (10GB zu wenig)
Für was? Maximale Qualität auf Consumer-Hardware

70B+-Modelle (Enthusiast)

– VRAM: ~35-45GB (4-bit extrem komprimiert)
– Speed: 5-15 tok/s (sehr langsam)
RTX 3090: ❌ Braucht 2x 3090 oder System-RAM Swap
RTX 3080: ❌ Vergiss es
Für was? Nicht praktikabel für Single-GPU

Geschwindigkeit im Vergleich

| Modell | RTX 3090 (tok/s) | RTX 3080 (tok/s) | Lesbar? |
|——–|——————|——————|———|
| 3B Q4 | 150-200 | 120-180 | ✅ Sehr |
| 7B Q4 | 80-120 | 60-90 | ✅ Ja |
| 14B Q4 | 40-60 | 25-40 | ✅ Ja |
| 32B Q4 | 20-30 | ❌ passt nicht | ✅ Ja |
| 70B Q4 | ❌ braucht Swap | ❌ geht nicht | ❌ Nein |

*Lesbar = Mensch liest mit (~10-15 tok/s), alles drüber ist „schnell“*

Quantisierung einfach erklärt

Was ist das? Modell komprimieren um weniger VRAM zu brauchen.

| Quantisierung | VRAM-Bedarf | Qualität | Empfehlung |
|—————|————-|———-|————|
| Q4 (4-bit) | ~50% | 90-95% | ✅ Beste Wahl |
| Q5 (5-bit) | ~60% | 95-97% | ✅ Wenn VRAM reicht |
| Q6 (6-bit) | ~70% | 97-98% | ✅ Für 3090 bei 7B |
| Q8 (8-bit) | ~90% | 98-99% | ⚠️ Nur wenn MUST |
| FP16 (16-bit) | 100% | 100% | ❌ Braucht niemand |

Faustregel: Q4_K_M ist der Sweet Spot für alle!

Meine ehrliche Empfehlung für DICH

Wenn du RTX 3090 (24GB) hast:

7B-14B in Q8 für tägliche Aufgaben (schnell + gut)
32B in Q4 für maximale Qualität (langsam aber okay)
70B+ vergessen (brauchst 2x 3090 oder A100)

Wenn du RTX 3080 (10GB) hast:

7B in Q4/Q8 für alles (perfekt für die Karte)
14B in Q4 wenn es sein muss (knapp aber geht)
32B+ vergessen (passt physikalisch nicht)

Installation (5 Minuten)

„`bash

1. Ollama installieren (Linux)

curl -fsSL https://ollama.com/install.sh | sh

2. Modell starten (Beispiel: 7B in 4-bit)

ollama run qwen3.6:7b

3. Fertig! Chat startet im Terminal

„`

Fazit: Was ist REALISTISCH?

RTX 3090 (24GB):
– 🟢 7B-14B in 8-bit = Daily Driver
– 🟢 32B in 4-bit = High-Quality bei Zeit
– 🔴 70B+ = Nicht praktikabel

RTX 3080 (10GB):
– 🟢 7B in 4-bit/8-bit = Perfect Match
– 🟡 14B in 4-bit = Geht so (VRAM knapp)
– 🔴 32B+ = Physikalisch unmöglich

Wichtig: Lokale KI ist kein Cloud-Ersatz!
– Erwartungen managen (nicht GPT-4 Niveau erwarten)
– Use Cases wählen die passen (RAG, Code, Analyse)
– Nicht für Everything-LLM verwenden

Quellen

Reddit r/LocalLLaMA
HackerNews
GitHub Qwen
HuggingFace

👁 2 Aufrufe 👤 1 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert