Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Benchmarks und Build-Berichten geprägt. Besonders hervorzuheben sind die Tests von Qwen 3.6 27B auf verschiedenen GPU-Setups, die Optimierung von MTP-Modellen auf RTX 3090 und die Vergleiche verschiedener Inference-Engines auf heterogenen GPU-Clustern. Diese Woche können Leser konkrete Zahlen und Empfehlungen für ihre eigenen lokalen KI-Setups finden.

[Qwen 3.6 27B auf 24GB VRAM Setup: Backend-Vergleiche, Quantisierung und Einstellungen (llama.cpp, ik_llama.cpp, BeeLlama, vllm)] (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Benutzer hat verschiedene Backends für das Qwen 3.6 27B-Modell auf einem RTX 3090 24GB getestet, um die besten Leistungs- und Effizienzergebnisse zu erzielen. Die Tests umfassten llama.cpp, ik_llama.cpp, BeeLlama und vLLM.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „ik_llama.cpp 4507 (c35189d8)“ |
| Modell + Quant | „Qwen3.6-27B-MTP-IQ4_KS.gguf“ |
| Kontext-Laenge | „156k (KV-Cache OK)“ |
| tok/s (single) | „1261 tok/s prefill, 72.9 tok/s decode“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Das Setup mit ik_llama.cpp und dem Qwen3.6-27B-Modell erreicht ausgezeichnete Leistungs- und Effizienzwerte. Es ermöglicht eine kontextlänge von 156k und erreicht 1261 tok/s bei der Prefill-Phase und 72.9 tok/s bei der Decode-Phase. Dies macht es zu einem starken Kandidaten für OpenCode-Workloads.

Was NICHT funktioniert / Limits: llama.cpp und BeeLlama konnten die erwarteten Leistungen nicht erreichen. vLLM zeigte Probleme mit hohen Kontexten auf einem einzelnen RTX 3090, was zu OOM-Fehlern führte.

Nachbau-Empfehlung: Dieses Setup ist für Nutzer mit einem RTX 3090 24GB und einem Budget von ca. 1.000 EUR sehr empfehlenswert. Es bietet eine ausgezeichnete Balance zwischen Leistung und Effizienz und ist für OpenCode-Workloads gut geeignet.


[Benchmarking the new b9200 update: Optimizing Qwen 3.6 27B mtp for Hermes Agent on a single RTX 3090] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht: Der Benutzer hat das Qwen 3.6 27B mtp-Modell auf einem RTX 3090 24GB getestet, um es für den Hermes Agent zu optimieren. Er berichtet über die Leistungsverbesserungen durch verschiedene Einstellungen und die Auswirkungen auf die Token-Generierung.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „ik_llama.cpp 4507 (c35189d8)“ |
| Modell + Quant | „Qwen3.6-27B-MTP-IQ4_KS.gguf“ |
| Kontext-Laenge | „64k (KV-Cache OK)“ |
| tok/s (single) | „39 tok/s gen“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |

Was funktioniert konkret? Durch die Optimierung der Einstellungen konnte der Benutzer eine Token-Generierung von 39 tok/s erreichen, was für einen einzelnen RTX 3090 24GB sehr gut ist. Die Verwendung von q4_0 KV-Cache und die Reduzierung der Speicherleistung haben die Leistung erheblich verbessert.

Was NICHT funktioniert / Limits: Der Benutzer berichtet über eine defekte VRM-Thermal-Pads, was die Leistungseinschränkung auf 55% der Board-Leistung verursacht. Ohne diese Einschränkung könnten die Leistungsdaten noch besser sein.

Nachbau-Empfehlung: Dieses Setup ist für Nutzer mit einem RTX 3090 24GB und einem Budget von ca. 1.000 EUR empfehlenswert, vorausgesetzt, die Hardware ist in gutem Zustand. Die Optimierung der Einstellungen kann die Leistung erheblich verbessern.


[Benchmarking vLLM vs SGLang vs llama.cpp on a mixed Blackwell/Ada cluster] (9/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Benutzer hat verschiedene Inference-Engines (vLLM, SGLang, llama.cpp) auf einem heterogenen 7-GPU-Cluster getestet, um ihre Leistung bei der Verarbeitung langer Kontexte zu vergleichen. Die Tests umfassten eine Mischung aus Blackwell und Ada-Karten.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX PRO 6000 96GB, 1x RTX PRO 5000 48GB, 2x RTX 5090 32GB, 3x modded RTX 4090 48GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM, SGLang, llama.cpp“ |
| Modell + Quant | „Qwen3.6-35B-A3B (184k tokens), MiniMax-M2.7 (82k tokens), Qwen3.5-122B-A10B (75k tokens), Qwen3.5-397B-A17B (75k tokens)“ |
| Kontext-Laenge | „184k, 82k, 75k“ |
| tok/s (single) | „18060 t/s (vLLM), 7405 t/s (llama.cpp)“ |
| tok/s (batched) | „6212 t/s (vLLM), 1065 t/s (llama.cpp)“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? vLLM zeigte die besten Ergebnisse bei der Verarbeitung langer Kontexte auf einem heterogenen GPU-Cluster. Es konnte die Leistung von SGLang und llama.cpp deutlich übertrumpfen, insbesondere bei der Verwendung von NVFP4-Quantisierung.

Was NICHT funktioniert / Limits: SGLang krachte, wenn Ada-Karten im Pipeline eingeführt wurden, da es keine Software-Fallbacks für FP4-Quantisierung bietet. llama.cpp hatte Schwierigkeiten mit der Pipeline-Parallelisierung, was zu erheblichen Leistungsverlusten führte.

Nachbau-Empfehlung: Dieses Setup ist für Nutzer mit einem heterogenen GPU-Cluster und einem Budget von ca. 10.000 EUR sehr empfehlenswert. vLLM ist die beste Wahl für die Verarbeitung langer Kontexte und bietet eine ausgezeichnete Skalierbarkeit.


[Finding the 4x 3090 Sweet Spot] (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Benutzer hat die Effizienzkurve eines 4x RTX 3090-Setups getestet, um den optimalen Leistungs- und Energieverbrauch zu ermitteln. Die Tests umfassten verschiedene Power-Limits und die Auswirkungen auf die Token-Generierung.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „4x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „10x TL-C12C-S (5 auf jeder Seite der GPUs)“ |
| Framework + Version | „vLLM v0.20.2 (TP=4)“ |
| Modell + Quant | „Qwen3.6-27B (FP16)“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „269 t/s (350W), 261 t/s (250W), 248 t/s (220W)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „220W (optimal)“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Der Benutzer konnte den optimalen Power-Limit von 220W ermitteln, bei dem die Effizienz (t/Joule) am höchsten ist. Dies ermöglicht eine ausgezeichnete Leistung bei niedrigem Energieverbrauch.

Was NICHT funktioniert / Limits: Die Erhöhung des Power-Limits über 250W bringt nur geringe Leistungsverbesserungen und erhöht den Energieverbrauch erheblich.

Nachbau-Empfehlung: Dieses Setup ist für Nutzer mit einem 4x RTX 3090-Setup und einem Budget von ca. 4.000 EUR sehr empfehlenswert. Die Optimierung des Power-Limits auf 220W bietet eine ausgezeichnete Balance zwischen Leistung und Energieeffizienz.


Weitere Beiträge:

Benchmarked Kokoro 82M vs Supertonic 3 TTS on CPU — keine Hardware belegt, kein nachbaubares Setup
The option i see online seem to make the model slower — keine Hardware belegt, reine Problem-Frage ohne Lösung
Llama.cpp MTP with Qwen3.6 27B on Headless RTX 3090 — keine Hardware belegt, kein nachbaubares Setup
Ran the same models across Strix Halo, RTX 3090, and RTX 5070 because I wanted my own numbers — keine Hardware belegt, kein nachbaubares Setup
local llama.cpp parallel users – still so fast?! — keine Hardware belegt, kein nachbaubares Setup
Can a 5090 with qwen3.6 achieve > 3,000 tok/s ? bring your pitchforks (open-dllm) — keine Hardware belegt, kein nachbaubares Setup
Running Mimo 2.5 q4_k_m on single rtx5090 need recommendations — keine Hardware belegt, reine Problem-Frage ohne Lösung

👁 4 Aufrufe 👤 3 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert