Qwen 3.6 lokal: Was läuft auf welcher Hardware?
Die ehrliche Antwort (vorab)
| Deine GPU | Realistisch | Nicht sinnvoll |
|———–|————-|—————-|
| RTX 3090 (24GB) | 3B-32B in 4-bit, 3B-14B in 8-bit | 70B+ (zu langsam) |
| RTX 3080 (10GB) | 3B-7B in 4-bit/8-bit, 14B nur 4-bit | 32B+ (passt nicht) |
Was ist Qwen 3.6?
Qwen 3.6 ist ein chinesisches LLM (Large Language Model), das sowohl für Textgenerierung als auch für Codeerstellung geeignet ist. Es ist Open-Source und kann lokal auf deiner Hardware laufen.
Modellgrößen im Realitätscheck
3B-Modelle (Einsteiger)
– VRAM: ~2-4GB (4-bit bis 8-bit)
– Speed: 100-200 tok/s (sehr schnell)
– RTX 3090: ✅ Langweilig einfach
– RTX 3080: ✅ Langweilig einfach
– Für was? Schnelle Chat-Antworten, einfache Aufgaben
7B-Modelle (Sweet Spot)
– VRAM: ~5-7GB (4-bit), ~10-12GB (8-bit)
– Speed: 60-120 tok/s (flüssig)
– RTX 3090: ✅ Perfekt in 8-bit
– RTX 3080: ✅ Gut in 4-bit, knapp in 8-bit
– Für was? RAG, Code, Analyse – täglich nutzbar
14B-Modelle (Mittelklasse)
– VRAM: ~9-11GB (4-bit), ~18-22GB (8-bit)
– Speed: 30-60 tok/s (okay)
– RTX 3090: ✅ Sehr gut in 8-bit
– RTX 3080: ⚠️ Nur 4-bit, 8-bit passt nicht!
– Für was? Komplexe Aufgaben, bessere Qualität
32B-Modelle (High-End)
– VRAM: ~18-20GB (4-bit stark komprimiert)
– Speed: 15-30 tok/s (langsam aber nutzbar)
– RTX 3090: ✅ Ja, aber 4-bit nur
– RTX 3080: ❌ Passt nicht (10GB zu wenig)
– Für was? Maximale Qualität auf Consumer-Hardware
70B+-Modelle (Enthusiast)
– VRAM: ~35-45GB (4-bit extrem komprimiert)
– Speed: 5-15 tok/s (sehr langsam)
– RTX 3090: ❌ Braucht 2x 3090 oder System-RAM Swap
– RTX 3080: ❌ Vergiss es
– Für was? Nicht praktikabel für Single-GPU
Geschwindigkeit im Vergleich
| Modell | RTX 3090 (tok/s) | RTX 3080 (tok/s) | Lesbar? |
|——–|——————|——————|———|
| 3B Q4 | 150-200 | 120-180 | ✅ Sehr |
| 7B Q4 | 80-120 | 60-90 | ✅ Ja |
| 14B Q4 | 40-60 | 25-40 | ✅ Ja |
| 32B Q4 | 20-30 | ❌ passt nicht | ✅ Ja |
| 70B Q4 | ❌ braucht Swap | ❌ geht nicht | ❌ Nein |
*Lesbar = Mensch liest mit (~10-15 tok/s), alles drüber ist „schnell“*
Quantisierung einfach erklärt
Was ist das? Modell komprimieren um weniger VRAM zu brauchen.
| Quantisierung | VRAM-Bedarf | Qualität | Empfehlung |
|—————|————-|———-|————|
| Q4 (4-bit) | ~50% | 90-95% | ✅ Beste Wahl |
| Q5 (5-bit) | ~60% | 95-97% | ✅ Wenn VRAM reicht |
| Q6 (6-bit) | ~70% | 97-98% | ✅ Für 3090 bei 7B |
| Q8 (8-bit) | ~90% | 98-99% | ⚠️ Nur wenn MUST |
| FP16 (16-bit) | 100% | 100% | ❌ Braucht niemand |
Faustregel: Q4_K_M ist der Sweet Spot für alle!
Meine ehrliche Empfehlung für DICH
Wenn du RTX 3090 (24GB) hast:
✅ 7B-14B in Q8 für tägliche Aufgaben (schnell + gut)
✅ 32B in Q4 für maximale Qualität (langsam aber okay)
❌ 70B+ vergessen (brauchst 2x 3090 oder A100)
Wenn du RTX 3080 (10GB) hast:
✅ 7B in Q4/Q8 für alles (perfekt für die Karte)
✅ 14B in Q4 wenn es sein muss (knapp aber geht)
❌ 32B+ vergessen (passt physikalisch nicht)
Installation (5 Minuten)
„`bash
1. Ollama installieren (Linux)
curl -fsSL https://ollama.com/install.sh | sh
2. Modell starten (Beispiel: 7B in 4-bit)
ollama run qwen3.6:7b
3. Fertig! Chat startet im Terminal
„`
Fazit: Was ist REALISTISCH?
RTX 3090 (24GB):
– 🟢 7B-14B in 8-bit = Daily Driver
– 🟢 32B in 4-bit = High-Quality bei Zeit
– 🔴 70B+ = Nicht praktikabel
RTX 3080 (10GB):
– 🟢 7B in 4-bit/8-bit = Perfect Match
– 🟡 14B in 4-bit = Geht so (VRAM knapp)
– 🔴 32B+ = Physikalisch unmöglich
Wichtig: Lokale KI ist kein Cloud-Ersatz!
– Erwartungen managen (nicht GPT-4 Niveau erwarten)
– Use Cases wählen die passen (RAG, Code, Analyse)
– Nicht für Everything-LLM verwenden
Quellen
– Reddit r/LocalLLaMA
– HackerNews
– GitHub Qwen
– HuggingFace