KI-Modelle für RTX 3080 & 3090

🖥️

Täglicher HuggingFace-Scan · 10.03.2026 · 10 qualifizierte Modelle aus 421 analysiert

RTX 3080

10 GB VRAM

✓ 7B-Modelle (Q4–Q8)
✓ 13B-Modelle (Q4)
✗ 13B Q8, 70B

8 Modelle heute

RTX 3090

24 GB VRAM

✓ Alles bis 34B Q4
✓ 13B in voller Präzision
✗ 70B (zu groß)

10 Modelle heute

🎯 Top-Empfehlungen für RTX 3080 (10 GB)

#1

LocoOperator-4B
von locoremind

✓ RTX 3080 ✓ RTX 3090 Code

Codegenerierung & -vervollständigung offline. Läuft auf 3080 mit 3.8 GB VRAM

Parameter

3.8 GB

VRAM

Q4 (geschätzt)

Quantisierung

10k

Downloads

Score 24/40
→ HuggingFace

#2

Jan-v3-4B-base-instruct-gguf
von janhq

✓ RTX 3080 ✓ RTX 3090 Code

Codegenerierung & -vervollständigung offline. Läuft auf 3080 mit 3.8 GB VRAM

Parameter

3.8 GB

VRAM

Q4 (geschätzt)

Quantisierung

285k

Downloads

Score 23/40
→ HuggingFace

#3

Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
von jackrong

✓ RTX 3080 ✓ RTX 3090 Basis-LLM

Qwen-Architektur: stark in Mehrsprachigkeit + Code. Läuft auf 3080 mit 3.8 GB VRAM

Parameter

3.8 GB

VRAM

Q4 (geschätzt)

Quantisierung

20k

Downloads

Score 23/40
→ HuggingFace

#4

Qwen3.5-2B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
von jackrong

✓ RTX 3080 ✓ RTX 3090 Basis-LLM

Qwen-Architektur: stark in Mehrsprachigkeit + Code. Läuft auf 3080 mit 2.6 GB VRAM

Parameter

2.6 GB

VRAM

Q4 (geschätzt)

Quantisierung

19k

Downloads

Score 23/40
→ HuggingFace

#5

Jan-code-4b-gguf
von janhq

✓ RTX 3080 ✓ RTX 3090 Code

Codegenerierung & -vervollständigung offline. Läuft auf 3080 mit 3.8 GB VRAM

Parameter

3.8 GB

VRAM

Q4 (geschätzt)

Quantisierung

Downloads

Score 23/40
→ HuggingFace

#6

qwen3-adv-comp-v34
von motobrew

✓ RTX 3080 ✓ RTX 3090 Agent/Tool-Use

Qwen-Architektur: stark in Mehrsprachigkeit + Code. Function-Calling für lokale Automatisierung (n8n, Home Assistant)

Parameter

3.8 GB

VRAM

Q4 (geschätzt)

Quantisierung

Downloads

Score 23/40
→ HuggingFace

#7

Qwen3.5-PRISM-Dynamic-Quant-GGUF
von ex0bit

✓ RTX 3080 ✓ RTX 3090 Chat/Instruct

Qwen-Architektur: stark in Mehrsprachigkeit + Code. Läuft auf 3080 mit 1.9 GB VRAM

Parameter

1.9 GB

VRAM

Q4 (geschätzt)

Quantisierung

Downloads

Score 22/40
→ HuggingFace

#8

Nerdsking-python-coder-7B-i
von nerdsking

✓ RTX 3080 ✓ RTX 3090 Code

Codegenerierung & -vervollständigung offline. Läuft auf 3080 mit 5.4 GB VRAM

Parameter

5.4 GB

VRAM

Q4 (geschätzt)

Quantisierung

Downloads

Score 22/40
→ HuggingFace

🚀 Zusätzlich für RTX 3090 (24 GB)

#9

Qwen3-Coder-30B-A3B-Instruct-GGUF
von unsloth

✓ RTX 3090 Code

Unsloth-optimiert: 2x schnellere Inferenz. Qwen-Architektur: stark in Mehrsprachigkeit + Code

30B

Parameter

18.4 GB

VRAM

Q4 (geschätzt)

Quantisierung

179k

Downloads

Score 25/40
→ HuggingFace

#10

gpt-oss-20b-GGUF
von unsloth

✓ RTX 3090 Basis-LLM

Unsloth-optimiert: 2x schnellere Inferenz

20B

Parameter

12.8 GB

VRAM

Q4 (geschätzt)

Quantisierung

319k

Downloads

Score 23/40
→ HuggingFace

🔬 Technische Plausibilitätsprüfung

VRAM = Gewichte + KV-Cache (ctx 4096) + 1.5 GB Overhead. RTX 3080: max 9.5 GB. RTX 3090: max 23 GB.

Modell	Param	Quant	Gew.GB	KV GB	Total	Report	Urteil	Hinweis
Qwen3-Coder-30B-A3B-Instruct-GGUF	30B	Q4 (geschätzt)	16.9	15.0	33.4	18.4	GRENZWERTIG	Nur mit Kontext <2k oder CPU-Offload realistisch ⚠ 3090 fraglich: inkl. KV ~33.4GB
LocoOperator-4B	4B	Q4 (geschätzt)	2.2	2.0	5.8	3.8	GRENZWERTIG	Nur mit Kontext <2k oder CPU-Offload realistisch
gpt-oss-20b-GGUF	20B	Q4 (geschätzt)	11.2	10.0	22.8	12.8	GRENZWERTIG	Nur mit Kontext <2k oder CPU-Offload realistisch
Jan-v3-4B-base-instruct-gguf	4B	Q4 (geschätzt)	2.2	2.0	5.8	3.8	GRENZWERTIG	Nur mit Kontext <2k oder CPU-Offload realistisch
Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distille	4B	Q4 (geschätzt)	2.2	2.0	5.8	3.8	GRENZWERTIG	Nur mit Kontext <2k oder CPU-Offload realistisch
Qwen3.5-2B-Claude-4.6-Opus-Reasoning-Distille	2B	Q4 (geschätzt)	1.1	1.0	3.6	2.6	PLAUSIBEL	OK bei 4096-Kontext
Jan-code-4b-gguf	4B	Q4 (geschätzt)	2.2	2.0	5.8	3.8	GRENZWERTIG	Nur mit Kontext <2k oder CPU-Offload realistisch
qwen3-adv-comp-v34	4B	Q4 (geschätzt)	2.2	2.0	5.8	3.8	GRENZWERTIG	Nur mit Kontext <2k oder CPU-Offload realistisch
Qwen3.5-PRISM-Dynamic-Quant-GGUF	1B	Q4 (geschätzt)	0.5	0.4	2.4	1.9	PLAUSIBEL	OK bei 4096-Kontext
Nerdsking-python-coder-7B-i	7B	Q4 (geschätzt)	3.9	3.5	8.9	5.4	GRENZWERTIG	Nur mit Kontext <2k oder CPU-Offload realistisch

| Modell | Param | Quant | Gew_GB | KV_GB | Total_GB | Report | Urteil | Korrektur |

|——–|——-|——-|——–|——-|———-|——–|——–|———–|

| Qwen3-Coder-30B-A3B-Instruct-GGUF | 30B | Q4 (geschätzt) | 16.9GB | 15.0GB | 33.4GB | 18.4GB | GRENZWERTIG | – |

| LocoOperator-4B | 4B | Q4 (geschätzt) | 2.2GB | 2.0GB | 5.8GB | 3.8GB | GRENZWERTIG | – |

| gpt-oss-20b-GGUF | 20B | Q4 (geschätzt) | 11.2GB | 10.0GB | 22.8GB | 12.8GB | GRENZWERTIG | – |

| Jan-v3-4B-base-instruct-gguf | 4B | Q4 (geschätzt) | 2.2GB | 2.0GB | 5.8GB | 3.8GB | GRENZWERTIG | – |

| Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distille | 4B | Q4 (geschätzt) | 2.2GB | 2.0GB | 5.8GB | 3.8GB | GRENZWERTIG | – |

| Qwen3.5-2B-Claude-4.6-Opus-Reasoning-Distille | 2B | Q4 (geschätzt) | 1.1GB | 1.0GB | 3.6GB | 2.6GB | PLAUSIBEL | – |

| Jan-code-4b-gguf | 4B | Q4 (geschätzt) | 2.2GB | 2.0GB | 5.8GB | 3.8GB | GRENZWERTIG | – |

| qwen3-adv-comp-v34 | 4B | Q4 (geschätzt) | 2.2GB | 2.0GB | 5.8GB | 3.8GB | GRENZWERTIG | – |

| Qwen3.5-PRISM-Dynamic-Quant-GGUF | 1B | Q4 (geschätzt) | 0.5GB | 0.4GB | 2.4GB | 1.9GB | PLAUSIBEL | – |

| Nerdsking-python-coder-7B-i | 7B | Q4 (geschätzt) | 3.9GB | 3.5GB | 8.9GB | 5.4GB | GRENZWERTIG | – |

| **Report insgesamt:** | | | | | | | **teilweise schwammig** | |

⚡ Schnellstart mit llama.cpp (Windows/Linux)

    # Modell herunterladen (Beispiel Qwen2.5-7B-Q4)

    curl -L https://huggingface.co/<model>/resolve/main/model.gguf -o model.gguf
    # Inferenz starten (GPU-Offload)

    ./llama-cli -m model.gguf -ngl 99 –color -i -c 4096
    # Als Server (API-kompatibel zu OpenAI)

    ./llama-server -m model.gguf -ngl 99 –host 0.0.0.0 –port 8080
  

-ngl 99 = alle Layer auf GPU |
-c 4096 = Kontextlänge |
CUDA erforderlich für GPU-Beschleunigung

👁 10 Aufrufe 👤 10 Leser