SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten

Kurzfassung:
Die SGLang-Community diskutiert aktuell vor allem Themen rund um die Optimierung der lokalen Inference von großen Sprachmodellen auf Consumer-GPUs. Zwei zentrale Themen sind die Probleme bei der Installation und dem Betrieb von SGLang auf Consumer-Hardware sowie die Optimierung von Spekulativen Decoding-Algorithmen. Diese Entwicklungen sind besonders relevant für Nutzer, die ein autarkes Setup mit 4x 3090 oder 2x 5090-GPUs betreiben möchten, um Claude-Sonnet-Niveau zu erreichen.

[Help] sglang Docker hangs with 100% CPU & GPU Util on dual Blackwell GPUs. What’s the best way to install? (4/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Ein Anfänger versucht, SGLang lokal auf Consumer-Hardware zu betreiben, aber der Docker-Container hängt und verbraucht 100% CPU- und GPU-Leistung. Er hat Schwierigkeiten, die CUDA-Toolbox zu installieren und die Docker-Installation zu stabilisieren. Er hat erfolgreich andere Modelle mit vLLM-Docker betrieben, aber SGLang funktioniert nicht.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die beschriebenen Probleme sind typisch für Anfänger, die SGLang auf Consumer-Hardware betreiben möchten. Docker kann auf Consumer-Systemen zu Leistungsproblemen führen, insbesondere wenn die CUDA-Toolbox nicht korrekt installiert ist. Es ist ratsam, die Installation von Grund auf zu überprüfen und eventuell auf eine native Installation ohne Docker zu wechseln.

Konsequenz für OpenCode-Nutzer:
Die Docker-Installation kann zu Leistungsproblemen führen. Nutzer sollten die native Installation von SGLang in Betracht ziehen, um bessere Leistung und Stabilität zu erzielen. Dies kann die CPU- und GPU-Last reduzieren und die Inference-Geschwindigkeit verbessern.

Handlungsempfehlung:
Überprüfen Sie die CUDA-Installation und wechseln Sie zu einer native Installation von SGLang, um Leistungsprobleme zu vermeiden.

Fakten-Tabelle:
– Hardware im Post: 2 x 24G (Blackwell), Intel Core Ultra 5 250k, 64G DDR5
– Modell: Qwen3.5-27B-FP8
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=2

[Dflash working launch parameters] (2/10) — OpenCode-Fit: NEIN

Zur Discussion

Worum geht es konkret?
Ein Nutzer versucht, den DFlash-Speculative Decoding-Algorithmus auf zwei RTX 3090-GPUs zu betreiben, aber es kommt zu Out-of-Memory (OOM)-Fehlern. Er verwendet das offizielle GPTQ-Quantisierte Qwen3.5-27B-Modell und hat verschiedene Parameter angepasst, ohne Erfolg.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die beschriebenen OOM-Fehler sind ein bekanntes Problem bei der Verwendung von Spekulativen Decoding-Algorithmen auf Consumer-GPUs. Die aktuelle Implementierung von DFlash ist noch nicht optimal für Consumer-Hardware geeignet, insbesondere bei der Verwendung von großen Modellen wie Qwen3.5-27B.

Konsequenz für OpenCode-Nutzer:
Die Verwendung von DFlash auf Consumer-GPUs kann zu OOM-Fehlern führen. Nutzer sollten alternative Decoding-Methoden in Betracht ziehen oder auf zukünftige Optimierungen warten.

Handlungsempfehlung:
Verwenden Sie alternative Decoding-Methoden oder warten Sie auf zukünftige Optimierungen der DFlash-Implementierung.

Fakten-Tabelle:
– Hardware im Post: 2 x RTX 3090 (2x24GB)
– Modell: Qwen3.5-27B-GPTQ-Int4
– Framework-Version: 0.5.6.post2
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=2

[Why similar CPU memory leak fixes were split across multiple PRs, and how you pinpoint leaks down to specific lines?] (2/10) — OpenCode-Fit: NEIN

Zur Discussion

Worum geht es konkret?
Ein Nutzer fragt nach den Gründen, warum ähnliche CPU-Memory-Leak-Fixes in mehreren Pull Requests (PRs) eingearbeitet wurden. Er interessiert sich für die Methoden, die verwendet werden, um Memory-Leaks in komplexen Systemen zu identifizieren und zu beheben.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Diskussion ist eher relevant für Entwickler und Systemadministratoren, die SGLang in einem produktiven Umgebung betreiben. Für Nutzer von autarken Home-Setups ist diese Diskussion weniger relevant, da sie sich auf fortgeschrittene Debugging-Techniken konzentriert.

Konsequenz für OpenCode-Nutzer:
Die Diskussion bietet wertvolle Einblicke in die Debugging-Methoden, die für fortgeschrittene Nutzer und Entwickler nützlich sein können. Für die Mehrheit der Nutzer von autarken Home-Setups ist dies jedoch eher irrelevant.

Handlungsempfehlung:
Für fortgeschrittene Nutzer: Lesen Sie die Diskussion, um mehr über Debugging-Methoden zu erfahren. Für die Mehrheit der Nutzer: Ignorieren Sie diese Diskussion.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

[High TTFT and Throughput Drop in gRPC Mode Under High Concurrency (vs HTTP Mode)] (4/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Ein Nutzer beobachtet eine signifikante Leistungsabnahme des gRPC-Routers unter hohem Lastniveau im Vergleich zum HTTP-Router. Er verwendet vier 1P1D-Paare (1 Prefill + 1 Decode) und fragt, ob dieses Verhalten erwartet wird oder ob es an der gRPC-Implementierung liegt.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die beschriebenen Leistungsprobleme können auch auf autarken Home-Setups auftreten, insbesondere wenn mehrere Nutzer gleichzeitig auf das System zugreifen. Die gRPC-Implementierung scheint unter hohem Lastniveau weniger stabil zu sein als die HTTP-Implementierung.

Konsequenz für OpenCode-Nutzer:
Die Verwendung des HTTP-Routers kann zu besseren Leistungsresultaten führen, insbesondere unter hohem Lastniveau. Nutzer sollten die gRPC-Implementierung mit Vorsicht verwenden und auf mögliche Leistungsabfälle achten.

Handlungsempfehlung:
Verwenden Sie den HTTP-Router für bessere Leistung unter hohem Lastniveau. Beobachten Sie die Leistung des gRPC-Routers und melden Sie eventuelle Probleme.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen3-4B
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: 4 x 1P1D

[SGLang Inference 8*H200(1 HGX). QWEN-3.5-397B-A17B-FP8] (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)

Zur Discussion

Worum geht es konkret?
Ein Nutzer betreibt Qwen3.5-397B-A17B-FP8 auf einem HGX-Node mit 8 H200-GPUs und fragt nach Optimierungsmöglichkeiten für agente Workloads. Er interessiert sich für Konfigurationsparameter, Concurrency-Zahlen, Key-Metrics und Prefix-Caching-Hit-Raten.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist für autarke Home-Setups irrelevant, da sie sich auf hochskalierbare Enterprise-Setups konzentriert. Die beschriebenen Hardware- und Software-Konfigurationen sind für Consumer-GPUs nicht anwendbar.

Konsequenz für OpenCode-Nutzer:
Diese Diskussion bietet wertvolle Einblicke für Nutzer von Enterprise-Setups, aber für autarke Home-Setups ist sie irrelevant.

Handlungsempfehlung:
Ignorieren Sie diese Diskussion, da sie für autarke Home-Setups nicht relevant ist.

Fakten-Tabelle:
– Hardware im Post: 1× HGX, 8× H200 (NVLink)
– Modell: Qwen3.5-397B-A17B-FP8
– Framework-Version: 0.5.9
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: DP=1, TP=8, EP=1

[Inquiry regarding Tokenizer requirement for SGLang Model Gateway with cache_aware policy] (3/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Ein Nutzer fragt, ob der SGLang Model Gateway (Router) bei Verwendung der cache_aware-Policy einen Tokenizer benötigt. Er interessiert sich für die Funktionsweise des Routers und die Worker-Selektion ohne Tokenizer.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Frage ist relevant, da sie die Funktionsweise des Routers bei der Verwendung von Cache-Strategien klärt. Für autarke Home-Setups ist es wichtig zu wissen, ob der Router ohne Tokenizer funktioniert, um die Konfiguration zu optimieren.

Konsequenz für OpenCode-Nutzer:
Die Verwendung des Routers ohne Tokenizer kann zu Leistungsproblemen führen. Nutzer sollten sicherstellen, dass der Router den Tokenizer korrekt verwendet, um die Cache-Strategien effektiv zu implementieren.

Handlungsempfehlung:
Stellen Sie sicher, dass der Router den Tokenizer verwendet, um die Cache-Strategien effektiv zu implementieren.

[Question: DFLASH not supported in –speculative-algorithm #49] (2/10) — OpenCode-Fit: NEIN

Zur Discussion

Worum geht es konkret?
Ein Nutzer versucht, den DFlash-Speculative Decoding-Algorithmus in SGLang zu verwenden, aber der Algorithmus wird nicht unterstützt. Er fragt, ob DFlash in einer bestimmten Version oder Branch unterstützt wird und ob es Workarounds gibt.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die aktuelle Implementierung von SGLang unterstützt DFlash nicht. Dies kann zu Leistungsproblemen führen, insbesondere bei der Verwendung von großen Modellen auf Consumer-GPUs.

Konsequenz für OpenCode-Nutzer:
Die Verwendung von DFlash auf Consumer-GPUs ist derzeit nicht möglich. Nutzer sollten alternative Decoding-Methoden in Betracht ziehen oder auf zukünftige Optimierungen warten.

Handlungsempfehlung:
Verwenden Sie alternative Decoding-Methoden oder warten Sie auf zukünftige Optimierungen der DFlash-Implementierung.

Weitere Diskussionen (kurz):

– Enable Piecewise CUDA Graph with EP: Diskutiert die Implementierung von Piecewise CUDA Graph für die Optimierung von Modellen mit Linear Attention. ENTERPRISE (für uns irrelevant)
– Using Prefill node idle cycles for Decoding in PD disaggregation?: Diskutiert die Nutzung von idle-Zeiten von Prefill-Nodes für Decoding. ENTERPRISE (für uns irrelevant)
– sglang is listed on Shypd — AI Tool Directory: Teilt mit, dass SGLang in einer AI-Tool-Verzeichnis aufgeführt ist. ENTERPRISE (für uns irrelevant)
– Are there plans to support OpenAI Realtime-API or other realtime API protocols?: Diskutiert die Unterstützung von Realtime-API-Protokollen. ENTERPRISE (für uns irrelevant)
– Starting to build a solution for FR – https://github.com/sgl-project/sglang/issues/13825: Diskutiert die Entwicklung eines Plugin-Systems für die HTTP-Serving-Schicht. ENTERPRISE (für uns irrelevant)
– how to quant fp16 to fp8?: Diskutiert die Quantisierung von fp16 auf fp8. BEDINGT
– The nvidia/GLM-5-NVFP4model with NVFP4 quantization cannot be launched using the SGLang engine.: Diskutiert Probleme bei der Verwendung des nvidia/GLM-5-NVFP4-Modells. BEDINGT

👁 6 Aufrufe 👤 5 Leser