Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fav

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks bietet aktuell eine Fülle von konkreten Setup-Berichten und Benchmarks für lokale KI-Modelle. Die Community teilt detaillierte Hardware-Konfigurationen, Tok/s-Zahlen und Erfahrungen mit verschiedenen Modellen. In dieser Woche sind insbesondere die Einträge zu Qwen3.6-27B auf 2x RTX 3090 und die Optimierung eines 4x RTX 3090 Rigs besonders belegt. Diese Einträge bieten praxisnahe Einblicke in die Leistung und die Grenzen solcher Setups.

[Qwen3.6-27B on 2x3090s: llama.cpp vs vLLM, all the flags, and the MTP acceptance/inference speed/context] (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht (2-4 Sätze): Der Autor vergleicht die Leistung von Qwen3.6-27B auf 2x RTX 3090 mit llama.cpp und vLLM. Er teilt detaillierte Benchmarks, einschließlich MTP-Acceptance-Raten und Kontextlängen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 2x RTX 3090, 48GB total |
| CPU / Mainboard | Threadripper 1950X, 30GB RAM, NVMe |
| RAM | 30GB DDR4 |
| PSU | Nicht im Post belegt |
| Chassis / Kuehlung | Nicht im Post belegt |
| Framework + Version | llama.cpp, vLLM 0.22 |
| Modell + Quant | Qwen3.6-27B Q6_K, Q8_0, INT4, INT8 |
| Kontext-Laenge | 131k (llama.cpp), 32k (vLLM INT8), 64k (vLLM INT4) |
| tok/s (single) | 43.1 (llama.cpp Q6_K), 44.2 (llama.cpp Q8_0), 51.6 (vLLM INT8), 53.7 (vLLM INT4) |
| tok/s (batched) | Nicht im Post belegt |
| Strom (full load) | Nicht im Post belegt |
| Rohkosten | Nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): Qwen3.6-27B läuft stabil auf 2x RTX 3090 mit beiden Backends. llama.cpp erreicht 43.1 tok/s bei Q6_K und 44.2 tok/s bei Q8_0, während vLLM 51.6 tok/s bei INT8 und 53.7 tok/s bei INT4 erreicht. Die MTP-Acceptance-Raten liegen bei 54% (llama.cpp) und 77% (vLLM INT8).

Was NICHT funktioniert / Limits (2-4 Sätze): Die Kontextlänge bei vLLM ist begrenzt auf 32k bei INT8 und 64k bei INT4, während llama.cpp 131k erreicht. Die Leistung von vLLM ist etwas höher, aber die Kontextlänge ist ein wichtiger Faktor.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für den privaten Einsatz gut geeignet, insbesondere wenn eine hohe Kontextlänge wichtig ist. llama.cpp ist hierbei die bessere Wahl, während vLLM für höhere Leistung bei kürzeren Kontexten empfohlen wird.


[I accidentally crippled my 4x RTX 3090 LLM rig with a hidden PCIe 2.0 x4 slot and fixing it doubled Mistral 128B performance] (7/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht (2-4 Sätze): Der Autor beschreibt, wie er versehentlich eine seiner 4x RTX 3090-Karten in einen PCIe 2.0 x4-Slot eingebaut hat, was die Leistung stark beeinträchtigte. Nach der Korrektur der Slot-Belegung stieg die Leistung erheblich.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 4x RTX 3090, 96GB total |
| CPU / Mainboard | Gigabyte X399 Designare EX, Threadripper 1950X, 128GB DDR4 |
| RAM | 128GB DDR4 |
| PSU | Nicht im Post belegt |
| Chassis / Kuehlung | Nicht im Post belegt |
| Framework + Version | llama.cpp, vLLM |
| Modell + Quant | Mistral Medium 3.5 128B Q4_K, Qwen3.6-27B BF16 |
| Kontext-Laenge | 260K (Qwen3.6-27B), 131K (llama.cpp) |
| tok/s (single) | 11 tok/s (vorher), 24.7 tok/s (nachher) |
| tok/s (batched) | Nicht im Post belegt |
| Strom (full load) | Nicht im Post belegt |
| Rohkosten | Nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): Nach der Korrektur der PCIe-Slots stieg die Leistung von Mistral Medium 3.5 128B Q4_K von 11 tok/s auf 24.7 tok/s. Qwen3.6-27B erreicht 78-80 tok/s bei 260K Kontextlänge.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung war vor der Korrektur stark beeinträchtigt, da eine der Karten in einem PCIe 2.0 x4-Slot eingebaut war. Die Kontextlänge bei Mistral Medium 3.5 128B ist begrenzt.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist ein gutes Beispiel für die Bedeutung der korrekten PCIe-Slot-Belegung. Es ist für den privaten Einsatz geeignet, insbesondere wenn man mehrere GPUs verwendet. Die Kontextlänge sollte bei der Wahl des Modells berücksichtigt werden.


[New Google Gemma 4 12B Claims Near-26B Performance – We Tested Both!] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Autor vergleicht die Leistung von Google Gemma 4 12B und 26B-A4B auf einem RTX 4090. Die 26B-A4B-Version erreicht höhere Leistungen, aber die 12B-Version ist für 16GB-GPUs besser geeignet.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 4090, 32GB |
| CPU / Mainboard | Nicht im Post belegt |
| RAM | Nicht im Post belegt |
| PSU | Nicht im Post belegt |
| Chassis / Kuehlung | Nicht im Post belegt |
| Framework + Version | vLLM 0.19.0 |
| Modell + Quant | Gemma 4 12B, Gemma 4 26B-A4B |
| Kontext-Laenge | 2048 |
| tok/s (single) | 80 tok/s (12B), 138 tok/s (26B-A4B) |
| tok/s (batched) | Nicht im Post belegt |
| Strom (full load) | Nicht im Post belegt |
| Rohkosten | Nicht im Post belegt |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? (3-5 Sätze): Die 26B-A4B-Version erreicht 138 tok/s und 15 GB VRAM-Verbrauch, während die 12B-Version 80 tok/s und 9 GB VRAM-Verbrauch erreicht. Die 26B-A4B-Version ist in den meisten Aufgaben besser, aber die 12B-Version ist für 16GB-GPUs geeignet.

Was NICHT funktioniert / Limits (2-4 Sätze): Die 12B-Version hat einen geringeren VRAM-Verbrauch, was sie für 16GB-GPUs besser geeignet macht, aber die Leistung ist geringer. Die 26B-A4B-Version ist leistungsstärker, aber sie erfordert mehr VRAM.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für den privaten Einsatz geeignet, insbesondere wenn man eine 16GB-GPU verwendet. Die 12B-Version ist die bessere Wahl, wenn der VRAM-Verbrauch begrenzt ist, während die 26B-A4B-Version für höhere Leistung geeignet ist.


[Cost Analysis of my $6.4k Local LLM Server] (5/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Autor teilt eine detaillierte Kostenanalyse seines lokalen LLM-Servers mit 4x MI100 32GB. Er vergleicht die Kosten des lokalen Setups mit den Kosten der Verwendung von API-Diensten.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 4x MI100 32GB, 128GB total |
| CPU / Mainboard | Epyc 7k62 48 core, ASRock ROMED8-2T |
| RAM | 64GB DDR4 ECC |
| PSU | 1600W 80+ Plat |
| Chassis / Kuehlung | ATX Case |
| Framework + Version | llama.cpp |
| Modell + Quant | Qwen3.6-27B |
| Kontext-Laenge | 260K |
| tok/s (single) | 20.4M input tokens, 1.32M output tokens per day |
| tok/s (batched) | Nicht im Post belegt |
| Strom (full load) | Nicht im Post belegt |
| Rohkosten | $6406.45 |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? (3-5 Sätze): Der Server verarbeitet 20.4M Eingabetoken und 1.32M Ausgabetoken pro Tag. Die Gesamtkosten des lokalen Setups betragen $6406.45, was günstiger ist als die API-Kosten von $3701.10 pro Jahr.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Ausgabetokenrate ist niedriger als erwartet. Die Hardware-Kosten sind relativ hoch, was das Setup für den privaten Einsatz begrenzt.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für den privaten Einsatz geeignet, insbesondere wenn man eine hohe Tokenverarbeitung benötigt. Die Kosten sind jedoch relativ hoch, was es für den privaten Einsatz weniger attraktiv macht. Es ist eher für professionelle oder geschäftliche Anwendungen geeignet.


Weitere Beiträge (kurz):

Here is my llama.cpp NVFP4/MXFP6 GGUF quantizer tool — keine Hardware belegt, kein nachbaubares Setup
BeeLlama v0.3.1 – latest llama.cpp with extras! DFlash, MTP, q6_0 cache, TurboQuant. Single RTX 3090: Qwen 3.6 27B & Gemma 4 31B up to 177.8 tps (4.93x over baseline) — keine Hardware belegt, kein nachbaubares Setup
Live-ablating Gemma 4 12B: per-tensor quant sweet spots (Mixed Quanting) — keine Hardware belegt, kein nachbaubares Setup
How does the new abliteration tool Apostate compare with others? – Abliterlitics — keine Hardware belegt, kein nachbaubares Setup
Another shout out to llama.cpp build b9455 2×3090 — keine Hardware belegt, kein nachbaubares Setup
Added an old 2070 Super to my rig and I can’t go back…worse, now I need more — keine Hardware belegt, kein nachbaubares Setup
I built mlx-Chronos — a community benchmark leaderboard for local LLM engines on Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama) — keine Hardware belegt, kein nachbaubares Setup
13 abliterated Gemma 4 E2B variants, 44 GPU hours, Benchmark and Comparison – Abliterlitics — keine Hardware belegt, kein nachbaubares Setup

👁 0 Aufrufe 👤 0 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert