Qwen 3.6 lokal: Was läuft auf welcher Hardware?

Die ehrliche Antwort (vorab)

Was ist Qwen 3.6?

Qwen 3.6 ist ein chinesisches LLM (Large Language Model), das sowohl für Textgenerierung als auch für Codeerstellung geeignet ist. Es ist Open-Source und kann lokal auf deiner Hardware laufen.

Modellgrößen im Realitätscheck

3B-Modelle (Einsteiger)

– VRAM: ~2-4GB (4-bit bis 8-bit)
– Speed: 100-200 tok/s (sehr schnell)
– RTX 3090: ✅ Langweilig einfach
– RTX 3080: ✅ Langweilig einfach
– Für was? Schnelle Chat-Antworten, einfache Aufgaben

7B-Modelle (Sweet Spot)

– VRAM: ~5-7GB (4-bit), ~10-12GB (8-bit)
– Speed: 60-120 tok/s (flüssig)
– RTX 3090: ✅ Perfekt in 8-bit
– RTX 3080: ✅ Gut in 4-bit, knapp in 8-bit
– Für was? RAG, Code, Analyse – täglich nutzbar

14B-Modelle (Mittelklasse)

– VRAM: ~9-11GB (4-bit), ~18-22GB (8-bit)
– Speed: 30-60 tok/s (okay)
– RTX 3090: ✅ Sehr gut in 8-bit
– RTX 3080: ⚠️ Nur 4-bit, 8-bit passt nicht!
– Für was? Komplexe Aufgaben, bessere Qualität

32B-Modelle (High-End)

– VRAM: ~18-20GB (4-bit stark komprimiert)
– Speed: 15-30 tok/s (langsam aber nutzbar)
– RTX 3090: ✅ Ja, aber 4-bit nur
– RTX 3080: ❌ Passt nicht (10GB zu wenig)
– Für was? Maximale Qualität auf Consumer-Hardware

70B+-Modelle (Enthusiast)

– VRAM: ~35-45GB (4-bit extrem komprimiert)
– Speed: 5-15 tok/s (sehr langsam)
– RTX 3090: ❌ Braucht 2x 3090 oder System-RAM Swap
– RTX 3080: ❌ Vergiss es
– Für was? Nicht praktikabel für Single-GPU

Geschwindigkeit im Vergleich

| Modell | RTX 3090 (tok/s) | RTX 3080 (tok/s) | Lesbar? |
|——–|——————|——————|———|
| 3B Q4 | 150-200 | 120-180 | ✅ Sehr |
| 7B Q4 | 80-120 | 60-90 | ✅ Ja |
| 14B Q4 | 40-60 | 25-40 | ✅ Ja |
| 32B Q4 | 20-30 | ❌ passt nicht | ✅ Ja |
| 70B Q4 | ❌ braucht Swap | ❌ geht nicht | ❌ Nein |

*Lesbar = Mensch liest mit (~10-15 tok/s), alles drüber ist „schnell“*

Quantisierung einfach erklärt

Was ist das? Modell komprimieren um weniger VRAM zu brauchen.

| Quantisierung | VRAM-Bedarf | Qualität | Empfehlung |
|—————|————-|———-|————|
| Q4 (4-bit) | ~50% | 90-95% | ✅ Beste Wahl |
| Q5 (5-bit) | ~60% | 95-97% | ✅ Wenn VRAM reicht |
| Q6 (6-bit) | ~70% | 97-98% | ✅ Für 3090 bei 7B |
| Q8 (8-bit) | ~90% | 98-99% | ⚠️ Nur wenn MUST |
| FP16 (16-bit) | 100% | 100% | ❌ Braucht niemand |

Faustregel: Q4_K_M ist der Sweet Spot für alle!

Meine ehrliche Empfehlung für DICH

Wenn du RTX 3090 (24GB) hast:

✅ 7B-14B in Q8 für tägliche Aufgaben (schnell + gut)
✅ 32B in Q4 für maximale Qualität (langsam aber okay)
❌ 70B+ vergessen (brauchst 2x 3090 oder A100)

Wenn du RTX 3080 (10GB) hast:

✅ 7B in Q4/Q8 für alles (perfekt für die Karte)
✅ 14B in Q4 wenn es sein muss (knapp aber geht)
❌ 32B+ vergessen (passt physikalisch nicht)

Installation (5 Minuten)

„`bash

1. Ollama installieren (Linux)

curl -fsSL https://ollama.com/install.sh | sh

2. Modell starten (Beispiel: 7B in 4-bit)

ollama run qwen3.6:7b

3. Fertig! Chat startet im Terminal

„`

Fazit: Was ist REALISTISCH?

RTX 3090 (24GB):
– 🟢 7B-14B in 8-bit = Daily Driver
– 🟢 32B in 4-bit = High-Quality bei Zeit
– 🔴 70B+ = Nicht praktikabel

RTX 3080 (10GB):
– 🟢 7B in 4-bit/8-bit = Perfect Match
– 🟡 14B in 4-bit = Geht so (VRAM knapp)
– 🔴 32B+ = Physikalisch unmöglich

Wichtig: Lokale KI ist kein Cloud-Ersatz!
– Erwartungen managen (nicht GPT-4 Niveau erwarten)
– Use Cases wählen die passen (RAG, Code, Analyse)
– Nicht für Everything-LLM verwenden

Quellen

– Reddit r/LocalLLaMA
– HackerNews
– GitHub Qwen
– HuggingFace

👁 4 Aufrufe 👤 3 Leser