Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build-Berichten und Benchmarks geprägt. Besonders hervorzuheben sind die Einträge, die detaillierte Hardware- und Software-Konfigurationen sowie realistische Leistungsdaten liefern. Diese Woche sind insbesondere die Einträge zu 5090-GPU-Setups und 3090-Quadrigas besonders belegt. Mit diesen Setups kann ein Leser heute Abend anfangen, um ein funktionierendes, autonomes KI-Setup zu bauen.

local llama.cpp parallel users – still so fast?! (8/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer betreibt ein Dual-GPU-Rig mit einer RTX 5090 und einer RTX 5060. Er läuft Qwen 3.6 27B 8-Quant mit einer Tensor-Split-Einstellung von 4,1, wobei 80% der Last auf der 5090 liegen. Er erreicht etwa 30 tok/s bei einem einzelnen Benutzer und 24 tok/s bei drei gleichzeitigen Benutzern.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup läuft stabil und kann mehrere gleichzeitige Benutzer mit annehmbaren Leistungsdaten bedienen. Die Batch-Verarbeitung funktioniert gut, was die Effizienz erhöht.

Was NICHT funktioniert / Limits Es gibt keine bekannten Limits oder Bugs. Die Leistung bei mehreren Benutzern ist überraschend gut, was die Skalierbarkeit des Setups unterstreicht.

Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem Budget von etwa 2.000-3.000 EUR geeignet. Es ist besonders empfehlenswert für die Betriebsumgebung in einem privaten Haushalt, da es effizient und leistungsfähig ist.

Finding the 4x 3090 Sweet Spot (9/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer hat eine 4x RTX 3090 Setup getestet, um den Effizienz-Süßpunkt zu finden. Er verwendet das Modell Qwen3.6-27B (FP16) mit dem Backend vLLM v0.20.2 (TP=4) und hat verschiedene Power-Limits getestet.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht eine Spitzenleistung von 269 tok/s bei einem Power-Limit von 220W pro GPU. Die Effizienz ist am höchsten bei diesem Limit, was die Energieeffizienz und Leistung optimal ausbalanciert.

Was NICHT funktioniert / Limits Bei höheren Power-Limits gibt es nur geringe Leistungssteigerungen, was die Effizienz reduziert. Die Kontext-Länge von 128k führt zu Out-of-Memory-Fehlern.

Nachbau-Empfehlung Dieses Setup ist ideal für Benutzer mit einem Budget von etwa 4.000-5.000 EUR. Es ist besonders geeignet für die Betriebsumgebung in einem privaten Haushalt, da es leistungsfähig und energieeffizient ist.

club-5060ti: practical RTX 5060 Ti local LLM notes and configs (8/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer hat ein kleines öffentliches Repo für RTX 5060 Ti 16GB local LLM-Setups erstellt. Es enthält detaillierte Konfigurationen für vLLM und llama.cpp, einschließlich Kontext-Längen, KV-Einstellungen und Benchmarks.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup läuft stabil und kann verschiedene Modelle und Quantisierungen effizient betreiben. Die detaillierten Konfigurationen und Benchmarks sind hilfreich für die Reproduzierbarkeit.

Was NICHT funktioniert / Limits Bei der Verwendung von Qwen 3.6 27B in IQ3XXS-Quantisierung bei 65k Kontext läuft es langsamer und ist weniger intelligent als die 35B Moe-Version in Q6-Quantisierung.

Nachbau-Empfehlung Dieses Setup ist ideal für Benutzer mit einem Budget von etwa 3.000-4.000 EUR. Es ist besonders geeignet für die Betriebsumgebung in einem privaten Haushalt, da es leistungsfähig und flexibel ist.

Weitere Beiträge

– Can a 5090 with qwen3.6 achieve > 3,000 tok/s ? bring your pitchforks (open-dllm) — keine Hardware belegt, kein nachbaubares Setup
– Running Mimo 2.5 q4_k_m on single rtx5090 need recommendations — keine Hardware belegt, kein nachbaubares Setup
– Advice for creating a best model table — keine Hardware belegt, kein nachbaubares Setup
– China modded GPU (eg. 4090 48gb) –> I’m gonna figure it out. IS THERE NO ONE ELSE CURIOUS?? — keine Hardware belegt, kein nachbaubares Setup
– Is there a big gap between Q4 and Q6 on Qwen3.6? — keine Hardware belegt, kein nachbaubares Setup
– [[Benchmark] 5090RTX: Promt Parsing, Token Generation and Power Level](https://old.reddit.com/r/LocalLLaMA/comments/1tcvji7/benchmark_5090rtx_promt_parsing_token_generation/) — keine Hardware belegt, kein nachbaubares Setup
– [[FOLLOW UP] Qwen3.6 27b q5_k_M MTP – 256k context – 5090](https://old.reddit.com/r/LocalLLaMA/comments/1tcqqjh/follow_up_qwen36_27b_q5_k_m_mtp_256k_context_5090/) — keine Hardware belegt, kein nachbaubares Setup
– Simpler self hosted alt to Open WebUI — keine Hardware belegt, kein nachbaubares Setup
– Meet Mindflow, the free local mindmap with local AI dev by some quantitized models 😛 — keine Hardware belegt, kein nachbaubares Setup

👁 0 Aufrufe 👤 0 Leser