KI-Modelle für RTX 3080 & 3090
Täglicher HuggingFace-Scan · 10.03.2026 · 10 qualifizierte Modelle aus 421 analysiert
✓ 13B-Modelle (Q4)
✗ 13B Q8, 70B
✓ 13B in voller Präzision
✗ 70B (zu groß)
🎯 Top-Empfehlungen für RTX 3080 (10 GB)
Score 24/40
→ HuggingFace
Score 23/40
→ HuggingFace
Score 23/40
→ HuggingFace
Score 23/40
→ HuggingFace
Score 23/40
→ HuggingFace
Score 23/40
→ HuggingFace
Score 22/40
→ HuggingFace
Score 22/40
→ HuggingFace
🚀 Zusätzlich für RTX 3090 (24 GB)
Score 25/40
→ HuggingFace
Score 23/40
→ HuggingFace
🔬 Technische Plausibilitätsprüfung
VRAM = Gewichte + KV-Cache (ctx 4096) + 1.5 GB Overhead. RTX 3080: max 9.5 GB. RTX 3090: max 23 GB.
| Modell | Param | Quant | Gew.GB | KV GB | Total | Report | Urteil | Hinweis |
|---|---|---|---|---|---|---|---|---|
| Qwen3-Coder-30B-A3B-Instruct-GGUF | 30B | Q4 (geschätzt) | 16.9 | 15.0 | 33.4 | 18.4 | GRENZWERTIG | Nur mit Kontext <2k oder CPU-Offload realistisch ⚠ 3090 fraglich: inkl. KV ~33.4GB |
| LocoOperator-4B | 4B | Q4 (geschätzt) | 2.2 | 2.0 | 5.8 | 3.8 | GRENZWERTIG | Nur mit Kontext <2k oder CPU-Offload realistisch |
| gpt-oss-20b-GGUF | 20B | Q4 (geschätzt) | 11.2 | 10.0 | 22.8 | 12.8 | GRENZWERTIG | Nur mit Kontext <2k oder CPU-Offload realistisch |
| Jan-v3-4B-base-instruct-gguf | 4B | Q4 (geschätzt) | 2.2 | 2.0 | 5.8 | 3.8 | GRENZWERTIG | Nur mit Kontext <2k oder CPU-Offload realistisch |
| Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distille | 4B | Q4 (geschätzt) | 2.2 | 2.0 | 5.8 | 3.8 | GRENZWERTIG | Nur mit Kontext <2k oder CPU-Offload realistisch |
| Qwen3.5-2B-Claude-4.6-Opus-Reasoning-Distille | 2B | Q4 (geschätzt) | 1.1 | 1.0 | 3.6 | 2.6 | PLAUSIBEL | OK bei 4096-Kontext |
| Jan-code-4b-gguf | 4B | Q4 (geschätzt) | 2.2 | 2.0 | 5.8 | 3.8 | GRENZWERTIG | Nur mit Kontext <2k oder CPU-Offload realistisch |
| qwen3-adv-comp-v34 | 4B | Q4 (geschätzt) | 2.2 | 2.0 | 5.8 | 3.8 | GRENZWERTIG | Nur mit Kontext <2k oder CPU-Offload realistisch |
| Qwen3.5-PRISM-Dynamic-Quant-GGUF | 1B | Q4 (geschätzt) | 0.5 | 0.4 | 2.4 | 1.9 | PLAUSIBEL | OK bei 4096-Kontext |
| Nerdsking-python-coder-7B-i | 7B | Q4 (geschätzt) | 3.9 | 3.5 | 8.9 | 5.4 | GRENZWERTIG | Nur mit Kontext <2k oder CPU-Offload realistisch |
|——–|——-|——-|——–|——-|———-|——–|——–|———–|
| Qwen3-Coder-30B-A3B-Instruct-GGUF | 30B | Q4 (geschätzt) | 16.9GB | 15.0GB | 33.4GB | 18.4GB | GRENZWERTIG | – |
| LocoOperator-4B | 4B | Q4 (geschätzt) | 2.2GB | 2.0GB | 5.8GB | 3.8GB | GRENZWERTIG | – |
| gpt-oss-20b-GGUF | 20B | Q4 (geschätzt) | 11.2GB | 10.0GB | 22.8GB | 12.8GB | GRENZWERTIG | – |
| Jan-v3-4B-base-instruct-gguf | 4B | Q4 (geschätzt) | 2.2GB | 2.0GB | 5.8GB | 3.8GB | GRENZWERTIG | – |
| Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distille | 4B | Q4 (geschätzt) | 2.2GB | 2.0GB | 5.8GB | 3.8GB | GRENZWERTIG | – |
| Qwen3.5-2B-Claude-4.6-Opus-Reasoning-Distille | 2B | Q4 (geschätzt) | 1.1GB | 1.0GB | 3.6GB | 2.6GB | PLAUSIBEL | – |
| Jan-code-4b-gguf | 4B | Q4 (geschätzt) | 2.2GB | 2.0GB | 5.8GB | 3.8GB | GRENZWERTIG | – |
| qwen3-adv-comp-v34 | 4B | Q4 (geschätzt) | 2.2GB | 2.0GB | 5.8GB | 3.8GB | GRENZWERTIG | – |
| Qwen3.5-PRISM-Dynamic-Quant-GGUF | 1B | Q4 (geschätzt) | 0.5GB | 0.4GB | 2.4GB | 1.9GB | PLAUSIBEL | – |
| Nerdsking-python-coder-7B-i | 7B | Q4 (geschätzt) | 3.9GB | 3.5GB | 8.9GB | 5.4GB | GRENZWERTIG | – |
| **Report insgesamt:** | | | | | | | **teilweise schwammig** | |
⚡ Schnellstart mit llama.cpp (Windows/Linux)
curl -L https://huggingface.co/<model>/resolve/main/model.gguf -o model.gguf
# Inferenz starten (GPU-Offload)
./llama-cli -m model.gguf -ngl 99 –color -i -c 4096
# Als Server (API-kompatibel zu OpenAI)
./llama-server -m model.gguf -ngl 99 –host 0.0.0.0 –port 8080
-ngl 99 = alle Layer auf GPU |
-c 4096 = Kontextlänge |
CUDA erforderlich für GPU-Beschleunigung