Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fav

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build-Berichten und Benchmarks geprägt. Besonders hervorzuheben sind die Einträge, die detaillierte Hardware- und Software-Konfigurationen sowie realistische Leistungsdaten liefern. Diese Woche sind insbesondere die Einträge zu 5090-GPU-Setups und 3090-Quadrigas besonders belegt. Mit diesen Setups kann ein Leser heute Abend anfangen, um ein funktionierendes, autonomes KI-Setup zu bauen.

local llama.cpp parallel users – still so fast?! (8/10) — OpenCode-Fit: JA

Vorschau

Worum es geht: Der Benutzer betreibt ein Dual-GPU-Rig mit einer RTX 5090 und einer RTX 5060. Er läuft Qwen 3.6 27B 8-Quant mit einer Tensor-Split-Einstellung von 4,1, wobei 80% der Last auf der 5090 liegen. Er erreicht etwa 30 tok/s bei einem einzelnen Benutzer und 24 tok/s bei drei gleichzeitigen Benutzern.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 5090, 1x RTX 5060“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp“ |
| Modell + Quant | „Qwen 3.6 27B 8-Quant“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „30 tok/s“ |
| tok/s (batched) | „24 tok/s aggregate bei 3 streams“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Das Setup läuft stabil und kann mehrere gleichzeitige Benutzer mit annehmbaren Leistungsdaten bedienen. Die Batch-Verarbeitung funktioniert gut, was die Effizienz erhöht.

Was NICHT funktioniert / Limits Es gibt keine bekannten Limits oder Bugs. Die Leistung bei mehreren Benutzern ist überraschend gut, was die Skalierbarkeit des Setups unterstreicht.

Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem Budget von etwa 2.000-3.000 EUR geeignet. Es ist besonders empfehlenswert für die Betriebsumgebung in einem privaten Haushalt, da es effizient und leistungsfähig ist.


Finding the 4x 3090 Sweet Spot (9/10) — OpenCode-Fit: JA

Vorschau

Worum es geht: Der Benutzer hat eine 4x RTX 3090 Setup getestet, um den Effizienz-Süßpunkt zu finden. Er verwendet das Modell Qwen3.6-27B (FP16) mit dem Backend vLLM v0.20.2 (TP=4) und hat verschiedene Power-Limits getestet.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „4x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „256 GB DDR4 ECC“ |
| PSU | „1600W Titanium + Add2PSU 850W“ |
| Chassis / Kuehlung | „10x TL-C12C-S (5 auf jeder Seite der GPUs perpendikulär)“ |
| Framework + Version | „vLLM v0.20.2“ |
| Modell + Quant | „Qwen3.6-27B (FP16)“ |
| Kontext-Laenge | „64k (KV-Cache OK) / 128k OOM“ |
| tok/s (single) | „269 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „~1130 W gemessen“ |
| Rohkosten | „ca. 4.800 EUR (Gebraucht 2026-04)“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Das Setup erreicht eine Spitzenleistung von 269 tok/s bei einem Power-Limit von 220W pro GPU. Die Effizienz ist am höchsten bei diesem Limit, was die Energieeffizienz und Leistung optimal ausbalanciert.

Was NICHT funktioniert / Limits Bei höheren Power-Limits gibt es nur geringe Leistungssteigerungen, was die Effizienz reduziert. Die Kontext-Länge von 128k führt zu Out-of-Memory-Fehlern.

Nachbau-Empfehlung Dieses Setup ist ideal für Benutzer mit einem Budget von etwa 4.000-5.000 EUR. Es ist besonders geeignet für die Betriebsumgebung in einem privaten Haushalt, da es leistungsfähig und energieeffizient ist.


club-5060ti: practical RTX 5060 Ti local LLM notes and configs (8/10) — OpenCode-Fit: JA

Vorschau

Worum es geht: Der Benutzer hat ein kleines öffentliches Repo für RTX 5060 Ti 16GB local LLM-Setups erstellt. Es enthält detaillierte Konfigurationen für vLLM und llama.cpp, einschließlich Kontext-Längen, KV-Einstellungen und Benchmarks.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „2x RTX 5060 Ti 16GB“ |
| CPU / Mainboard | „Dell Precision Tower 7810 / Dell 0GWHMW Board, dual Xeon E5-2680 v4“ |
| RAM | „128 GB DDR4-2133“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM, llama.cpp“ |
| Modell + Quant | „Qwen3.6-27B NVFP4/MTP, Qwen3.6-27B Q4/Q6“ |
| Kontext-Laenge | „204800 (direkt), 65536 (sicherer Router)“ |
| tok/s (single) | „43 tok/s (Qwen3.6 35B Moe Q6)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Das Setup läuft stabil und kann verschiedene Modelle und Quantisierungen effizient betreiben. Die detaillierten Konfigurationen und Benchmarks sind hilfreich für die Reproduzierbarkeit.

Was NICHT funktioniert / Limits Bei der Verwendung von Qwen 3.6 27B in IQ3XXS-Quantisierung bei 65k Kontext läuft es langsamer und ist weniger intelligent als die 35B Moe-Version in Q6-Quantisierung.

Nachbau-Empfehlung Dieses Setup ist ideal für Benutzer mit einem Budget von etwa 3.000-4.000 EUR. Es ist besonders geeignet für die Betriebsumgebung in einem privaten Haushalt, da es leistungsfähig und flexibel ist.


Weitere Beiträge

Can a 5090 with qwen3.6 achieve > 3,000 tok/s ? bring your pitchforks (open-dllm) — keine Hardware belegt, kein nachbaubares Setup
Running Mimo 2.5 q4_k_m on single rtx5090 need recommendations — keine Hardware belegt, kein nachbaubares Setup
Advice for creating a best model table — keine Hardware belegt, kein nachbaubares Setup
China modded GPU (eg. 4090 48gb) –> I’m gonna figure it out. IS THERE NO ONE ELSE CURIOUS?? — keine Hardware belegt, kein nachbaubares Setup
Is there a big gap between Q4 and Q6 on Qwen3.6? — keine Hardware belegt, kein nachbaubares Setup
– [[Benchmark] 5090RTX: Promt Parsing, Token Generation and Power Level](https://old.reddit.com/r/LocalLLaMA/comments/1tcvji7/benchmark_5090rtx_promt_parsing_token_generation/) — keine Hardware belegt, kein nachbaubares Setup
– [[FOLLOW UP] Qwen3.6 27b q5_k_M MTP – 256k context – 5090](https://old.reddit.com/r/LocalLLaMA/comments/1tcqqjh/follow_up_qwen36_27b_q5_k_m_mtp_256k_context_5090/) — keine Hardware belegt, kein nachbaubares Setup
Simpler self hosted alt to Open WebUI — keine Hardware belegt, kein nachbaubares Setup
Meet Mindflow, the free local mindmap with local AI dev by some quantitized models 😛 — keine Hardware belegt, kein nachbaubares Setup

👁 0 Aufrufe 👤 0 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert