Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build- und Benchmark-Reports geprägt. Benutzer dokumentieren ihre lokalen KI-Setups mit genauen Hardware- und Software-Konfigurationen, oft mit konkreten tok/s-Zahlen und Modell-Variationen. Diese Woche sind insbesondere die Einträge zu 5090-GPU-Setups und der Optimierung von Qwen3.6-Modellen besonders belegt. Ein Leser kann heute Abend mit diesen konkreten Beispielen anfangen, um ein funktionierendes Setup zu bauen.

local llama.cpp parallel users – still so fast?! (8/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer betreibt ein Dual-GPU-Rig mit einer RTX 5090 und einer RTX 5060. Er führt Qwen 3.6 27B 8-Quant auf diesem Setup aus und erreicht etwa 30 tok/s. Bei der parallelen Verarbeitung von 3 Benutzern erreicht er 24 tok/s pro Benutzer, was er als sehr gut bewertet.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup läuft stabil und erreicht gute tok/s-Werte, auch bei paralleler Verarbeitung mehrerer Benutzer. Es ist gut für OpenCode-Workloads geeignet.

Was NICHT funktioniert / Limits Es fehlen genaue Angaben zur Hardware-Konfiguration und zum Stromverbrauch. Die CPU und das Mainboard sind nicht spezifiziert, was die Nachbau-Empfehlung erschwert.

Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem Budget von 4.000-6.000 EUR geeignet. Es ist empfehlenswert, die CPU und das Mainboard genauer zu spezifizieren, um die Nachbau-Qualität zu verbessern.

Finding the 4x 3090 Sweet Spot (9/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer hat eine detaillierte Effizienzanalyse für ein 4x RTX 3090 Setup durchgeführt. Er testet verschiedene Power Limits und misst die tok/s-Werte sowie den Stromverbrauch. Das Setup läuft Qwen3.6 27B mit vLLM v0.20.2.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht optimale Effizienz bei einem Power Limit von 220W. Es ist sehr gut für OpenCode-Workloads geeignet und läuft stabil.

Was NICHT funktioniert / Limits Es fehlen genaue Angaben zur Stromversorgung und zum Chassis. Die CPU und das Mainboard sind spezifiziert, aber die genaue Konfiguration der LXC-Umgebung könnte verbessert werden.

Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem Budget von 4.000-6.000 EUR ideal. Es ist empfehlenswert, die Stromversorgung und das Chassis genauer zu spezifizieren, um die Nachbau-Qualität zu verbessern.

club-5060ti: practical RTX 5060 Ti local LLM notes and configs (8/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer hat ein öffentliches Repo für RTX 5060 Ti 16GB local LLM-Setups erstellt. Es enthält detaillierte Konfigurationen und Testergebnisse für Qwen3.6 27B und andere Modelle. Das Setup läuft auf 2x RTX 5060 Ti 16GB mit vLLM und llama.cpp.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup läuft stabil und erreicht gute tok/s-Werte, insbesondere bei der Verwendung von Qwen3.6 27B. Es ist gut für OpenCode-Workloads geeignet.

[Weitere Beiträge (kurz):]

– Can a 5090 with qwen3.6 achieve > 3,000 tok/s ? bring your pitchforks (open-dllm) — keine Hardware belegt, kein funktionierendes Setup
– Running Mimo 2.5 q4_k_m on single rtx5090 need recommendations — keine Hardware belegt, kein funktionierendes Setup
– Advice for creating a best model table — keine Hardware belegt, kein funktionierendes Setup
– China modded GPU (eg. 4090 48gb) –> I’m gonna figure it out. IS THERE NO ONE ELSE CURIOUS?? — keine Hardware belegt, kein funktionierendes Setup
– Is there a big gap between Q4 and Q6 on Qwen3.6? — keine Hardware belegt, kein funktionierendes Setup
– [[Benchmark] 5090RTX: Promt Parsing, Token Generation and Power Level](https://old.reddit.com/r/LocalLLaMA/comments/1tcvji7/benchmark_5090rtx_promt_parsing_token_generation/) — keine Hardware belegt, kein funktionierendes Setup
– [[FOLLOW UP] Qwen3.6 27b q5_k_M MTP – 256k context – 5090](https://old.reddit.com/r/LocalLLaMA/comments/1tcqqjh/follow_up_qwen36_27b_q5_k_m_mtp_256k_context_5090/) — keine Hardware belegt, kein funktionierendes Setup
– Simpler self hosted alt to Open WebUI — keine Hardware belegt, kein funktionierendes Setup
– Meet Mindflow, the free local mindmap with local AI dev by some quantitized models 😛 — keine Hardware belegt, kein funktionierendes Setup

👁 0 Aufrufe 👤 0 Leser