Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für echte, funktionierende lokale KI-Setups. Diese Woche sind insbesondere die Benchmarks von Qwen3.6 27B auf verschiedenen GPUs und die Vergleiche von verschiedenen Frameworks wie llama.cpp, ik_llama.cpp und vLLM im Fokus. Ein Leser kann heute Abend mit konkreten Zahlen und Setup-Vorschlägen für ein autarkes, budgetgerechtes KI-Setup beginnen.

[Qwen 3.6 27B on 24GB VRAM setup: backend comparisons, quant choice and settings (llama.cpp, ik_llama.cpp, BeeLlama, vllm)] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat verschiedene Backends und Quantisierungen für das Modell Qwen3.6 27B auf einer RTX 3090 24 GB getestet, um das beste Setup für eine hohe Performance und Kontext-Länge zu finden.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup mit ik_llama.cpp und dem Modell Qwen3.6-27B-MTP-IQ4_KS.gguf liefert eine ausgezeichnete Performance mit 1261 tok/s bei der Prefill-Phase und 72.9 tok/s bei der Decode-Phase. Die Kontext-Länge von 156k Tokens ist für viele Anwendungen ausreichend.

Was NICHT funktioniert / Limits: vLLM wurde wegen fliegender OOM-Fehler bei langen Kontexten nicht weiter getestet. llama.cpp und BeeLlama.cpp zeigten eine geringere Performance.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem RTX 3090 24 GB und einem Budget von ca. 1.000-1.500 EUR sehr empfehlenswert. Es bietet eine ausgezeichnete Balance zwischen Performance und Kontext-Länge.

[Benchmarking vLLM vs SGLang vs llama.cpp on a mixed Blackwell/Ada cluster] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Benutzer hat verschiedene Inference-Engines (vLLM, SGLang, llama.cpp) auf einem heterogenen 7-GPU-Cluster getestet, um ihre Performance bei langen Kontexten zu vergleichen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? vLLM zeigte die besten Ergebnisse, insbesondere bei der Verarbeitung langer Kontexte. SGLang performte gut auf reinen Blackwell-Setups, aber es gab Probleme bei der Integration von Ada-Karten.

Was NICHT funktioniert / Limits: llama.cpp hatte Schwierigkeiten mit der Pipeline-Parallelisierung und fiel bei der Performance zurück. SGLang krachte bei der Verwendung von Ada-Karten.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem heterogenen GPU-Cluster und einem Budget von ca. 10.000-20.000 EUR interessant. vLLM ist die beste Wahl für die Verarbeitung langer Kontexte, aber die Integration von Ada-Karten sollte sorgfältig geprüft werden.

[Benchmarking the new b9200 update: Optimizing Qwen 3.6 27B mtp for Hermes Agent on a single RTX 3090] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Benutzer hat das Modell Qwen3.6 27B mtp auf einer RTX 3090 24 GB getestet, um die Performance für den Hermes Agent zu optimieren. Es wurden verschiedene Einstellungen und Quantisierungen ausprobiert.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Durch die Verwendung von q4_0 KV Cache und einer Reduzierung des Power-Limits konnte die Performance auf 39 tok/s gesteigert werden, was für ein autarkes Setup sehr gut ist.

Was NICHT funktioniert / Limits: Der Benutzer hatte Probleme mit einem defekten VRM-Thermal-Pad, was die Performance beeinträchtigte. Ohne diese Einschränkung wäre die Performance noch besser.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem RTX 3090 24 GB und einem Budget von ca. 1.000-1.500 EUR empfehlenswert. Die Verwendung von q4_0 KV Cache und der Anpassung des Power-Limits kann die Performance erheblich verbessern.

Weitere Beiträge

👁 8 Aufrufe 👤 6 Leser