KI-Modelle für RTX 3080 & 3090 – Tagesbericht 09.03.2026

11 aktuelle HuggingFace-Modelle für lokale GPU-Nutzung. 9 für RTX 3080 (10 GB), 11 für RTX 3090 (24 GB). Täglich aktualisiert.

🖥️

KI-Modelle für RTX 3080 & 3090

Täglicher HuggingFace-Scan · 09.03.2026 · 11 qualifizierte Modelle aus 423 analysiert

RTX 3080
10 GB VRAM
✓ 7B-Modelle (Q4–Q8)
✓ 13B-Modelle (Q4)
✗ 13B Q8, 70B
9 Modelle heute

RTX 3090
24 GB VRAM
✓ Alles bis 34B Q4
✓ 13B in voller Präzision
✗ 70B (zu groß)
11 Modelle heute

🎯 Top-Empfehlungen für RTX 3080 (10 GB)

#1

LocoOperator-4B

von locoremind
✓ RTX 3080 ✓ RTX 3090 Code

Codegenerierung & -vervollständigung offline. Läuft auf 3080 mit 3.8 GB VRAM
4B
Parameter

3.8 GB
VRAM

Q4 (geschätzt)
Quantisierung

5k
Downloads

Score 24/40
→ HuggingFace

✓ RTX 3080 ✓ RTX 3090 Code

Codegenerierung & -vervollständigung offline. Läuft auf 3080 mit 3.8 GB VRAM
4B
Parameter

3.8 GB
VRAM

Q4 (geschätzt)
Quantisierung

282k
Downloads

Score 23/40
→ HuggingFace

✓ RTX 3080 ✓ RTX 3090 Basis-LLM

Qwen-Architektur: stark in Mehrsprachigkeit + Code. Läuft auf 3080 mit 3.8 GB VRAM
4B
Parameter

3.8 GB
VRAM

Q4 (geschätzt)
Quantisierung

16k
Downloads

Score 23/40
→ HuggingFace

✓ RTX 3080 ✓ RTX 3090 Basis-LLM

Qwen-Architektur: stark in Mehrsprachigkeit + Code. Läuft auf 3080 mit 2.6 GB VRAM
2B
Parameter

2.6 GB
VRAM

Q4 (geschätzt)
Quantisierung

15k
Downloads

Score 23/40
→ HuggingFace

#5

Jan-code-4b-gguf

von janhq
✓ RTX 3080 ✓ RTX 3090 Code

Codegenerierung & -vervollständigung offline. Läuft auf 3080 mit 3.8 GB VRAM
4B
Parameter

3.8 GB
VRAM

Q4 (geschätzt)
Quantisierung

8k
Downloads

Score 23/40
→ HuggingFace

#6

qwen3-adv-comp-v34

von motobrew
✓ RTX 3080 ✓ RTX 3090 Agent/Tool-Use

Qwen-Architektur: stark in Mehrsprachigkeit + Code. Function-Calling für lokale Automatisierung (n8n, Home Assistant)
4B
Parameter

3.8 GB
VRAM

Q4 (geschätzt)
Quantisierung

1k
Downloads

Score 23/40
→ HuggingFace

✓ RTX 3080 ✓ RTX 3090 Basis-LLM

Qwen-Architektur: stark in Mehrsprachigkeit + Code. Läuft auf 3080 mit 9.4 GB VRAM
14B
Parameter

9.4 GB
VRAM

Q4 (geschätzt)
Quantisierung

93k
Downloads

Score 22/40
→ HuggingFace

✓ RTX 3080 ✓ RTX 3090 Chat/Instruct

Qwen-Architektur: stark in Mehrsprachigkeit + Code. Läuft auf 3080 mit 1.9 GB VRAM
1B
Parameter

1.9 GB
VRAM

Q4 (geschätzt)
Quantisierung

3k
Downloads

Score 22/40
→ HuggingFace

✓ RTX 3080 ✓ RTX 3090 Code

Codegenerierung & -vervollständigung offline. Läuft auf 3080 mit 5.4 GB VRAM
7B
Parameter

5.4 GB
VRAM

Q4 (geschätzt)
Quantisierung

2k
Downloads

Score 22/40
→ HuggingFace

🚀 Zusätzlich für RTX 3090 (24 GB)

✓ RTX 3090 Code

Unsloth-optimiert: 2x schnellere Inferenz. Qwen-Architektur: stark in Mehrsprachigkeit + Code
30B
Parameter

18.4 GB
VRAM

Q4 (geschätzt)
Quantisierung

181k
Downloads

Score 25/40
→ HuggingFace

#11

gpt-oss-20b-GGUF

von unsloth
✓ RTX 3090 Basis-LLM

Unsloth-optimiert: 2x schnellere Inferenz
20B
Parameter

12.8 GB
VRAM

Q4 (geschätzt)
Quantisierung

316k
Downloads

Score 23/40
→ HuggingFace

🔬 Technische Plausibilitätsprüfung

VRAM = Gewichte + KV-Cache (ctx 4096) + 1.5 GB Overhead. RTX 3080: max 9.5 GB. RTX 3090: max 23 GB.

Modell Param Quant Gew.GB KV GB Total Report Urteil Hinweis
Qwen3-Coder-30B-A3B-Instruct-GGUF 30B Q4 (geschätzt) 16.9 15.0 33.4 18.4 GRENZWERTIG Nur mit Kontext <2k oder CPU-Offload realistisch
⚠ 3090 fraglich: inkl. KV ~33.4GB
LocoOperator-4B 4B Q4 (geschätzt) 2.2 2.0 5.8 3.8 GRENZWERTIG Nur mit Kontext <2k oder CPU-Offload realistisch
gpt-oss-20b-GGUF 20B Q4 (geschätzt) 11.2 10.0 22.8 12.8 GRENZWERTIG Nur mit Kontext <2k oder CPU-Offload realistisch
Jan-v3-4B-base-instruct-gguf 4B Q4 (geschätzt) 2.2 2.0 5.8 3.8 GRENZWERTIG Nur mit Kontext <2k oder CPU-Offload realistisch
Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distille 4B Q4 (geschätzt) 2.2 2.0 5.8 3.8 GRENZWERTIG Nur mit Kontext <2k oder CPU-Offload realistisch
Qwen3.5-2B-Claude-4.6-Opus-Reasoning-Distille 2B Q4 (geschätzt) 1.1 1.0 3.6 2.6 PLAUSIBEL OK bei 4096-Kontext
Jan-code-4b-gguf 4B Q4 (geschätzt) 2.2 2.0 5.8 3.8 GRENZWERTIG Nur mit Kontext <2k oder CPU-Offload realistisch
qwen3-adv-comp-v34 4B Q4 (geschätzt) 2.2 2.0 5.8 3.8 GRENZWERTIG Nur mit Kontext <2k oder CPU-Offload realistisch
Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Dist 14B Q4 (geschätzt) 7.9 7.0 16.4 9.4 GRENZWERTIG Nur mit Kontext <2k oder CPU-Offload realistisch
⚠ 3080 fraglich: inkl. KV ~16.4GB
Qwen3.5-PRISM-Dynamic-Quant-GGUF 1B Q4 (geschätzt) 0.5 0.4 2.4 1.9 PLAUSIBEL OK bei 4096-Kontext
Nerdsking-python-coder-7B-i 7B Q4 (geschätzt) 3.9 3.5 8.9 5.4 GRENZWERTIG Nur mit Kontext <2k oder CPU-Offload realistisch
| Modell | Param | Quant | Gew_GB | KV_GB | Total_GB | Report | Urteil | Korrektur |
|——–|——-|——-|——–|——-|———-|——–|——–|———–|
| Qwen3-Coder-30B-A3B-Instruct-GGUF | 30B | Q4 (geschätzt) | Gew=16.9GB | KV=15.0GB | Total=33.4GB | Report=18.4GB | Urteil:GRENZWERTIG | |
| LocoOperator-4B | 4B | Q4 (geschätzt) | Gew=2.2GB | KV=2.0GB | Total=5.8GB | Report=3.8GB | Urteil:GRENZWERTIG | |
| gpt-oss-20b-GGUF | 20B | Q4 (geschätzt) | Gew=11.2GB | KV=10.0GB | Total=22.8GB | Report=12.8GB | Urteil:GRENZWERTIG | |
| Jan-v3-4B-base-instruct-gguf | 4B | Q4 (geschätzt) | Gew=2.2GB | KV=2.0GB | Total=5.8GB | Report=3.8GB | Urteil:GRENZWERTIG | |
| Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distille | 4B | Q4 (geschätzt) | Gew=2.2GB | KV=2.0GB | Total=5.8GB | Report=3.8GB | Urteil:GRENZWERTIG | |
| Qwen3.5-2B-Claude-4.6-Opus-Reasoning-Distille | 2B | Q4 (geschätzt) | Gew=1.1GB | KV=1.0GB | Total=3.6GB | Report=2.6GB | Urteil:PLAUSIBEL | |
| Jan-code-4b-gguf | 4B | Q4 (geschätzt) | Gew=2.2GB | KV=2.0GB | Total=5.8GB | Report=3.8GB | Urteil:GRENZWERTIG | |
| qwen3-adv-comp-v34 | 4B | Q4 (geschätzt) | Gew=2.2GB | KV=2.0GB | Total=5.8GB | Report=3.8GB | Urteil:GRENZWERTIG | |
| Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Dist | 14B | Q4 (geschätzt) | Gew=7.9GB | KV=7.0GB | Total=16.4GB | Report=9.4GB | Urteil:GRENZWERTIG | |
| Qwen3.5-PRISM-Dynamic-Quant-GGUF | 1B | Q4 (geschätzt) | Gew=0.5GB | KV=0.4GB | Total=2.4GB | Report=1.9GB | Urteil:PLAUSIBEL | |
| Nerdsking-python-coder-7B-i | 7B | Q4 (geschätzt) | Gew=3.9GB | KV=3.5GB | Total=8.9GB | Report=5.4GB | Urteil:GRENZWERTIG | |
| **Report insgesamt:** | | | | | | | **teilweise schwammig** | |

⚡ Schnellstart mit llama.cpp (Windows/Linux)

# Modell herunterladen (Beispiel Qwen2.5-7B-Q4)
curl -L https://huggingface.co/<model>/resolve/main/model.gguf -o model.gguf

# Inferenz starten (GPU-Offload)
./llama-cli -m model.gguf -ngl 99 –color -i -c 4096

# Als Server (API-kompatibel zu OpenAI)
./llama-server -m model.gguf -ngl 99 –host 0.0.0.0 –port 8080

-ngl 99 = alle Layer auf GPU |
-c 4096 = Kontextlänge |
CUDA erforderlich für GPU-Beschleunigung

👁 2 Aufrufe 👤 2 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert