Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine wertvolle Quelle für Community-User, die ihre lokalen KI-Setups dokumentieren. In dieser Woche sind besonders die Einträge zu GPU-Kombinationen wie RTX 3090, RTX 5070 und RTX 5090 sowie deren Leistung bei verschiedenen Modellen und Quantisierungen hervorzuheben. Ein Leser kann heute Abend mit konkreten Benchmarks und Setup-Details beginnen, um ein funktionierendes, autarkes KI-System zu bauen.

[Ran the same models across Strix Halo, RTX 3090, and RTX 5070 because I wanted my own numbers] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Autor hat die gleichen Modelle auf verschiedenen GPUs (Strix Halo, RTX 3090, RTX 5070) getestet, um einen direkten Vergleich zu ermöglichen. Er hat eine öffentliche Seite erstellt, die die Ergebnisse als YAML-Dumps enthält.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „RTX 5070 12GB, RTX 3090 24GB, Strix Halo“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM 0.20.2, CUDA, Vulkan, ROCm“ |
| Modell + Quant | „Gemma-3-4B, Gemma-4-E4B, LFM2-8B-A1B, Qwen3.6-27B“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „156.6 tok/s (Gemma-3-4B, RTX 5070), 142.0 tok/s (Gemma-3-4B, RTX 3090)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Die RTX 5070 übertrifft die RTX 3090 bei Modellen, die in 12 GB VRAM passen. Bei größeren Modellen, die in 24 GB VRAM passen, ist die RTX 3090 deutlich schneller. Die Vulkan-Backend auf der Strix Halo ist oft etwas schneller als ROCm.

Was NICHT funktioniert / Limits: Die RTX 5070 hat eine VRAM-Begrenzung von 12 GB, was bei größeren Modellen ein Hindernis sein kann. Die RTX 3090 ist besser für Modelle mit höherer Kontext-Länge geeignet.

Nachbau-Empfehlung: Wenn du ein kleineres Modell mit maximal 12 GB VRAM betreiben möchtest, ist die RTX 5070 eine gute Wahl. Für größere Modelle und längere Kontexte ist die RTX 3090 zu empfehlen. Die Strix Halo ist eine gute Alternative, wenn du ROCm oder Vulkan verwenden möchtest.


[Finding the 4x 3090 Sweet Spot] (7/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Autor hat die Effizienzkurve für ein 4x RTX 3090 Setup getestet, um den optimalen Power-Limit zu finden. Er hat verschiedene Power-Limits getestet und die Leistung und Effizienz gemessen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „4x RTX 3090 24GB“ |
| CPU / Mainboard | „9950X3D, 256GB DDR4-5600MHz“ |
| RAM | „256GB DDR4-5600MHz“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „10x TL-C12C-S (5 auf jeder Seite der GPUs perpendikulär)“ |
| Framework + Version | „vLLM v0.20.2“ |
| Modell + Quant | „Qwen3.6-27B (FP16)“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „269 tok/s (350W), 261 tok/s (250W)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „350W, 300W, 275W, 250W, 220W, 200W“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Der 220W Power-Limit ist der optimale Sweet Spot für Effizienz und Leistung. Die GPU-Temperaturen bleiben unter Kontrolle, und die Leistung ist immer noch sehr gut.

Was NICHT funktioniert / Limits: Die Leistungsfähigkeit sinkt bei niedrigeren Power-Limits, aber die Effizienz steigt. Die maximalen Power-Limits (350W) bieten nur marginale Leistungsverbesserungen.

Nachbau-Empfehlung: Wenn du ein 4x RTX 3090 Setup bauen möchtest, ist ein Power-Limit von 220W eine gute Wahl für eine optimale Effizienz. Die Kühllösung mit 10x TL-C12C-S ist empfehlenswert, um die Temperaturen zu stabilisieren.


[club-5060ti: practical RTX 5060 Ti local LLM notes and configs] (7/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Autor hat ein öffentliches Repo erstellt, das konkrete Konfigurationen und Testergebnisse für RTX 5060 Ti 16GB local LLM-Setups enthält. Es sind detaillierte Anleitungen für vLLM, llama.cpp und lange Kontexte enthalten.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „2x RTX 5060 Ti 16GB“ |
| CPU / Mainboard | „Dell Precision Tower 7810, Dual Xeon E5-2680 v4, 128GB DDR4-2133“ |
| RAM | „128GB DDR4-2133“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM 0.20.2, llama.cpp“ |
| Modell + Quant | „Qwen3.6-27B (NVFP4/MTP, Q4/Q6)“ |
| Kontext-Laenge | „204800, 65536“ |
| tok/s (single) | „127.9 tok/s (256k context, 2x 5060 Ti)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Das Setup mit 2x RTX 5060 Ti 16GB läuft stabil und erreicht gute Leistungsdaten, insbesondere bei langen Kontexten. Die Konfigurationen sind gut dokumentiert und leicht reproduzierbar.

Was NICHT funktioniert / Limits: Die Leistung kann bei sehr langen Kontexten (über 200k) abnehmen. Es gibt auch einige Einschränkungen bei der Verwendung von P2P-Verbindungen, die jedoch in den meisten Fällen irrelevant sind.

Nachbau-Empfehlung: Wenn du ein 2x RTX 5060 Ti 16GB Setup bauen möchtest, ist dieses Repo eine hervorragende Quelle für detaillierte Konfigurationen und Testergebnisse. Es ist besonders empfehlenswert, wenn du lange Kontexte und stabile Leistung benötigst.


[local llama.cpp parallel users – still so fast?!] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht: Der Autor hat ein Setup mit 2x RTX 5090 und 1x RTX 5060 getestet und festgestellt, dass es bei parallelen Benutzern immer noch sehr gute Leistungsdaten liefert. Er erreicht 24 tok/s pro Benutzer bei 3 parallelen Benutzern.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 5090, 1x RTX 5060“ |
| CPU / Mainboard | „9950X3D, 256GB DDR4-5600MHz“ |
| RAM | „256GB DDR4-5600MHz“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp“ |
| Modell + Quant | „Qwen3.6-27B (8-bit Quant)“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „30 tok/s (ein Benutzer), 24 tok/s (3 Benutzer)“ |
| tok/s (batched) | „24 tok/s (3 Benutzer)“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |

Was funktioniert konkret? Das Setup läuft stabil und erreicht gute Leistungsdaten bei parallelen Benutzern. Die Leistungsfähigkeit bei mehreren Benutzern ist überraschend gut.

Was NICHT funktioniert / Limits: Die Kombination von 5090 und 5060 ist nicht optimal, da die 5060 die Leistung der 5090 einschränkt. Es gibt auch keine detaillierten Informationen über die Hardware-Konfiguration und die genaue Leistung bei sehr langen Kontexten.

Nachbau-Empfehlung: Wenn du ein Setup mit parallelen Benutzern bauen möchtest, ist diese Konfiguration eine gute Ausgangsbasis. Es ist jedoch zu empfehlen, nur GPUs vom gleichen Modell zu verwenden, um die Leistung zu maximieren.


Weitere Beiträge:

Can a 5090 with qwen3.6 achieve > 3,000 tok/s ? bring your pitchforks (open-dllm) — keine Hardware belegt, kein nachbaubares Setup
Running Mimo 2.5 q4_k_m on single rtx5090 need recommendations — keine Hardware belegt, kein nachbaubares Setup
Advice for creating a best model table — keine Hardware belegt, kein nachbaubares Setup
China modded GPU (eg. 4090 48gb) –> I’m gonna figure it out. IS THERE NO ONE ELSE CURIOUS?? — keine Hardware belegt, kein nachbaubares Setup
Is there a big gap between Q4 and Q6 on Qwen3.6? — keine Hardware belegt, kein nachbaubares Setup
– [[Benchmark] 5090RTX: Promt Parsing, Token Generation and Power Level](https://old.reddit.com/r/LocalLLaMA/comments/1tcvji7/benchmark_5090rtx_promt_parsing_token_generation/) — keine Hardware belegt, kein nachbaubares Setup
– [[FOLLOW UP] Qwen3.6 27b q5_k_M MTP – 256k context – 5090](https://old.reddit.com/r/LocalLLaMA/comments/1tcqqjh/follow_up_qwen36_27b_q5_k_m_mtp_256k_context_5090/) — keine Hardware belegt, kein nachbaubares Setup
Simpler self hosted alt to Open WebUI — keine Hardware belegt, kein nachbaubares Setup

👁 4 Aufrufe 👤 4 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert