Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build- und Benchmark-Reports geprägt. Benutzer dokumentieren ihre lokalen KI-Setups mit genauen Hardware- und Software-Konfigurationen, oft mit konkreten tok/s-Zahlen und Modell-Variationen. Diese Woche sind insbesondere die Einträge zu 5090-GPU-Setups und der Optimierung von Qwen3.6-Modellen besonders belegt. Ein Leser kann heute Abend mit diesen konkreten Beispielen anfangen, um ein funktionierendes Setup zu bauen.

local llama.cpp parallel users – still so fast?! (8/10) — OpenCode-Fit: JA

Vorschau

Worum es geht: Der Benutzer betreibt ein Dual-GPU-Rig mit einer RTX 5090 und einer RTX 5060. Er führt Qwen 3.6 27B 8-Quant auf diesem Setup aus und erreicht etwa 30 tok/s. Bei der parallelen Verarbeitung von 3 Benutzern erreicht er 24 tok/s pro Benutzer, was er als sehr gut bewertet.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5090 24GB, 1x RTX 5060 16GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp (Version nicht belegt) |
| Modell + Quant | Qwen3.6 27B 8-Quant |
| Kontext-Laenge | 128k (KV-Cache OK) |
| tok/s (single) | 30 tok/s |
| tok/s (batched) | 24 tok/s aggregate bei 3 Streams |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Das Setup läuft stabil und erreicht gute tok/s-Werte, auch bei paralleler Verarbeitung mehrerer Benutzer. Es ist gut für OpenCode-Workloads geeignet.

Was NICHT funktioniert / Limits Es fehlen genaue Angaben zur Hardware-Konfiguration und zum Stromverbrauch. Die CPU und das Mainboard sind nicht spezifiziert, was die Nachbau-Empfehlung erschwert.

Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem Budget von 4.000-6.000 EUR geeignet. Es ist empfehlenswert, die CPU und das Mainboard genauer zu spezifizieren, um die Nachbau-Qualität zu verbessern.


Finding the 4x 3090 Sweet Spot (9/10) — OpenCode-Fit: JA

Vorschau

Worum es geht: Der Benutzer hat eine detaillierte Effizienzanalyse für ein 4x RTX 3090 Setup durchgeführt. Er testet verschiedene Power Limits und misst die tok/s-Werte sowie den Stromverbrauch. Das Setup läuft Qwen3.6 27B mit vLLM v0.20.2.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 4x RTX 3090 24GB |
| CPU / Mainboard | Dual Xeon E5-2680 v4, 128GB DDR4-2133 RAM, Proxmox LXC |
| RAM | 128 GB DDR4-2133 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | Open Build auf einem generischen Mining Frame, 10x TL-C12C-S |
| Framework + Version | vLLM v0.20.2 (TP=4) |
| Modell + Quant | Qwen3.6 27B (FP16) |
| Kontext-Laenge | 128k (KV-Cache OK) |
| tok/s (single) | 29 tok/s |
| tok/s (batched) | 269 tok/s aggregate bei 4 Streams |
| Strom (full load) | 220W (Süßer Spot) |
| Rohkosten | ca. 4.800 EUR (Gebraucht 2026-04) |
| Autarkie-Fit | JA |

Was funktioniert konkret? Das Setup erreicht optimale Effizienz bei einem Power Limit von 220W. Es ist sehr gut für OpenCode-Workloads geeignet und läuft stabil.

Was NICHT funktioniert / Limits Es fehlen genaue Angaben zur Stromversorgung und zum Chassis. Die CPU und das Mainboard sind spezifiziert, aber die genaue Konfiguration der LXC-Umgebung könnte verbessert werden.

Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem Budget von 4.000-6.000 EUR ideal. Es ist empfehlenswert, die Stromversorgung und das Chassis genauer zu spezifizieren, um die Nachbau-Qualität zu verbessern.


club-5060ti: practical RTX 5060 Ti local LLM notes and configs (8/10) — OpenCode-Fit: JA

Vorschau

Worum es geht: Der Benutzer hat ein öffentliches Repo für RTX 5060 Ti 16GB local LLM-Setups erstellt. Es enthält detaillierte Konfigurationen und Testergebnisse für Qwen3.6 27B und andere Modelle. Das Setup läuft auf 2x RTX 5060 Ti 16GB mit vLLM und llama.cpp.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 2x RTX 5060 Ti 16GB |
| CPU / Mainboard | Dell Precision Tower 7810, Dual Xeon E5-2680 v4, 128GB DDR4-2133 RAM, Proxmox LXC |
| RAM | 128 GB DDR4-2133 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM v0.20.2, llama.cpp (Version nicht belegt) |
| Modell + Quant | Qwen3.6 27B (Q4/Q6) |
| Kontext-Laenge | 204800 (KV-Cache OK) |
| tok/s (single) | 25 tok/s (Qwen3.6 27B Q4_K_M) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Das Setup läuft stabil und erreicht gute tok/s-Werte, insbesondere bei der Verwendung von Qwen3.6 27B. Es ist gut für OpenCode-Workloads geeignet.

Was NICHT funktioniert / Limits Es fehlen genaue Angaben zur Stromversorgung und zum Chassis. Die CPU und das Mainboard sind spezifiziert, aber die genaue Konfiguration der LXC-Umgebung könnte verbessert werden.

Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem Budget von 4.000-6.000 EUR ideal. Es ist empfehlenswert, die Stromversorgung und das Chassis genauer zu spezifizieren, um die Nachbau-Qualität zu verbessern.


[Weitere Beiträge (kurz):]

Can a 5090 with qwen3.6 achieve > 3,000 tok/s ? bring your pitchforks (open-dllm) — keine Hardware belegt, kein funktionierendes Setup
Running Mimo 2.5 q4_k_m on single rtx5090 need recommendations — keine Hardware belegt, kein funktionierendes Setup
Advice for creating a best model table — keine Hardware belegt, kein funktionierendes Setup
China modded GPU (eg. 4090 48gb) –> I’m gonna figure it out. IS THERE NO ONE ELSE CURIOUS?? — keine Hardware belegt, kein funktionierendes Setup
Is there a big gap between Q4 and Q6 on Qwen3.6? — keine Hardware belegt, kein funktionierendes Setup
– [[Benchmark] 5090RTX: Promt Parsing, Token Generation and Power Level](https://old.reddit.com/r/LocalLLaMA/comments/1tcvji7/benchmark_5090rtx_promt_parsing_token_generation/) — keine Hardware belegt, kein funktionierendes Setup
– [[FOLLOW UP] Qwen3.6 27b q5_k_M MTP – 256k context – 5090](https://old.reddit.com/r/LocalLLaMA/comments/1tcqqjh/follow_up_qwen36_27b_q5_k_m_mtp_256k_context_5090/) — keine Hardware belegt, kein funktionierendes Setup
Simpler self hosted alt to Open WebUI — keine Hardware belegt, kein funktionierendes Setup
Meet Mindflow, the free local mindmap with local AI dev by some quantitized models 😛 — keine Hardware belegt, kein funktionierendes Setup

👁 0 Aufrufe 👤 0 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert