Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für echte, funktionierende lokale KI-Setups. Diese Woche sind insbesondere die Benchmarks von Qwen3.6 27B auf verschiedenen GPUs und die Vergleiche von verschiedenen Frameworks wie llama.cpp, ik_llama.cpp und vLLM im Fokus. Ein Leser kann heute Abend mit konkreten Zahlen und Setup-Vorschlägen für ein autarkes, budgetgerechtes KI-Setup beginnen.

[Qwen 3.6 27B on 24GB VRAM setup: backend comparisons, quant choice and settings (llama.cpp, ik_llama.cpp, BeeLlama, vllm)] (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Benutzer hat verschiedene Backends und Quantisierungen für das Modell Qwen3.6 27B auf einer RTX 3090 24 GB getestet, um das beste Setup für eine hohe Performance und Kontext-Länge zu finden.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „ik_llama.cpp 4507 (c35189d8)“ |
| Modell + Quant | „Qwen3.6-27B-MTP-IQ4_KS.gguf“ |
| Kontext-Laenge | „156k (KV-Cache OK) / 156k OOM“ |
| tok/s (single) | „1261 tok/s prefill, 72.9 tok/s decode“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Das Setup mit ik_llama.cpp und dem Modell Qwen3.6-27B-MTP-IQ4_KS.gguf liefert eine ausgezeichnete Performance mit 1261 tok/s bei der Prefill-Phase und 72.9 tok/s bei der Decode-Phase. Die Kontext-Länge von 156k Tokens ist für viele Anwendungen ausreichend.

Was NICHT funktioniert / Limits: vLLM wurde wegen fliegender OOM-Fehler bei langen Kontexten nicht weiter getestet. llama.cpp und BeeLlama.cpp zeigten eine geringere Performance.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem RTX 3090 24 GB und einem Budget von ca. 1.000-1.500 EUR sehr empfehlenswert. Es bietet eine ausgezeichnete Balance zwischen Performance und Kontext-Länge.


[Benchmarking vLLM vs SGLang vs llama.cpp on a mixed Blackwell/Ada cluster] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht: Der Benutzer hat verschiedene Inference-Engines (vLLM, SGLang, llama.cpp) auf einem heterogenen 7-GPU-Cluster getestet, um ihre Performance bei langen Kontexten zu vergleichen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX PRO 6000 96GB, 1x RTX PRO 5000 48GB, 2x RTX 5090 32GB, 3x modded RTX 4090 48GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM, SGLang, llama.cpp“ |
| Modell + Quant | „Qwen3.6-35B-A3B (NVFP4), MiniMax-M2.7 (NVFP4), Qwen3.5-122B-A10B (NVFP4), Qwen3.5-397B-A17B (NVFP4)“ |
| Kontext-Laenge | „184k, 82k, 75k“ |
| tok/s (single) | „18060 t/s (vLLM), 7405 t/s (llama.cpp), 6212 t/s (vLLM), 1065 t/s (llama.cpp), 15084 t/s (vLLM), 14177 t/s (SGLang), 3662 t/s (llama.cpp)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |

Was funktioniert konkret? vLLM zeigte die besten Ergebnisse, insbesondere bei der Verarbeitung langer Kontexte. SGLang performte gut auf reinen Blackwell-Setups, aber es gab Probleme bei der Integration von Ada-Karten.

Was NICHT funktioniert / Limits: llama.cpp hatte Schwierigkeiten mit der Pipeline-Parallelisierung und fiel bei der Performance zurück. SGLang krachte bei der Verwendung von Ada-Karten.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem heterogenen GPU-Cluster und einem Budget von ca. 10.000-20.000 EUR interessant. vLLM ist die beste Wahl für die Verarbeitung langer Kontexte, aber die Integration von Ada-Karten sollte sorgfältig geprüft werden.


[Benchmarking the new b9200 update: Optimizing Qwen 3.6 27B mtp for Hermes Agent on a single RTX 3090] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht: Der Benutzer hat das Modell Qwen3.6 27B mtp auf einer RTX 3090 24 GB getestet, um die Performance für den Hermes Agent zu optimieren. Es wurden verschiedene Einstellungen und Quantisierungen ausprobiert.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp b9200“ |
| Modell + Quant | „Qwen3.6-27B-MTP-IQ4_KS.gguf“ |
| Kontext-Laenge | „156k (KV-Cache OK) / 156k OOM“ |
| tok/s (single) | „39 tok/s (q4_0 KV cache, 55% power limit)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |

Was funktioniert konkret? Durch die Verwendung von q4_0 KV Cache und einer Reduzierung des Power-Limits konnte die Performance auf 39 tok/s gesteigert werden, was für ein autarkes Setup sehr gut ist.

Was NICHT funktioniert / Limits: Der Benutzer hatte Probleme mit einem defekten VRM-Thermal-Pad, was die Performance beeinträchtigte. Ohne diese Einschränkung wäre die Performance noch besser.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem RTX 3090 24 GB und einem Budget von ca. 1.000-1.500 EUR empfehlenswert. Die Verwendung von q4_0 KV Cache und der Anpassung des Power-Limits kann die Performance erheblich verbessern.


Weitere Beiträge

21 GPU’s benchmarked running a small TTS model (vram peak: 5GB) — keine Hardware belegt, kein nachbaubares Setup
llama.cpp MTP support landed – Qwen3.6 27B at 2.44× on a Strix Halo, 2.17× on a RTX 3090 rig — keine Hardware belegt, kein nachbaubares Setup
Benchmarked Kokoro 82M vs Supertonic 3 TTS on CPU — keine GPU belegt, kein nachbaubares Setup
The option i see online seem to make the model slower — keine Hardware belegt, kein nachbaubares Setup
Llama.cpp MTP with Qwen3.6 27B on Headless RTX 3090 — keine Hardware belegt, kein nachbaubares Setup
Ran the same models across Strix Halo, RTX 3090, and RTX 5070 because I wanted my own numbers — keine Hardware belegt, kein nachbaubares Setup
local llama.cpp parallel users – still so fast?! — keine Hardware belegt, kein nachbaubares Setup
Can a 5090 with qwen3.6 achieve > 3,000 tok/s ? bring your pitchforks (open-dllm) — keine Hardware belegt, kein nachbaubares Setup

👁 8 Aufrufe 👤 6 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert