SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten

Kurzfassung

Die SGLang-Community diskutiert aktuell vor allem Themen, die die Optimierung der lokalen Inference auf Consumer-GPUs betreffen. Besonders prominent sind Diskussionen zur Verbesserung der Speicher- und Rechenleistung, der Unterstützung von spezifischen Modellen und der Implementierung von spekulativen Decoding-Algorithmen. Für Nutzer, die ein autarkes Setup mit 4x 3090 oder 2x 5090 aufbauen möchten, sind insbesondere die Themen zur Quantisierung, Prefix-Caching und der Optimierung von Agent-Workloads relevant.

[Dflash working launch parameters] (4/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Der Nutzer versucht, den Dflash speculative decoding Algorithmus mit SGLang auf zwei NVIDIA RTX 3090 GPUs zu verwenden, aber es kommt immer zu einem Out-of-Memory (OOM) Fehler. Er verwendet das quantisierte Qwen3.5 27B Modell und hat verschiedene Parameter angepasst, um das Problem zu beheben, ohne Erfolg.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Das Problem zeigt, dass die aktuelle Implementierung von Dflash auf Consumer-GPUs mit 24 GB VRAM Schwierigkeiten hat. Es ist möglich, dass die Speicherverwaltung oder die Parameteranpassung verbessert werden müssen, um Dflash auf diesen GPUs lauffähig zu machen. Für ein 4x 3090 oder 2x 5090 Setup könnte dies bedeuten, dass man auf eine zukünftige Optimierung warten oder alternative Decoding-Methoden verwenden muss.

Konsequenz für OpenCode-Nutzer:
Die Verwendung von Dflash könnte die Inference-Geschwindigkeit verbessern, aber derzeit ist es auf Consumer-GPUs nicht stabil. Nutzer sollten alternative Decoding-Methoden testen oder auf zukünftige Updates warten.

Handlungsempfehlung:
Auf PRs warten, die die Speicherverwaltung und die Parameteranpassung für Dflash verbessern. Alternativ, andere Decoding-Methoden wie EAGLE oder NEXTN testen.

Fakten-Tabelle:
– Hardware im Post: 2x NVIDIA RTX 3090 (2x24GB/ 48GB total)
– Modell: Qwen3.5-27B-GPTQ-Int4
– Framework-Version: 0.5.6.post2
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=2

[sglang在qwen3-vl-4B模型使用dflash加速但是没有收益，都是负收益] (4/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Der Nutzer hat SGLang mit dem Qwen3-vl-4B Modell getestet und Dflash für die spekulative Decoding verwendet. Die Benchmarks zeigen, dass Dflash keine Leistungsverbesserung bringt, sondern sogar negative Auswirkungen hat. Die Baseline-Throughput beträgt 223.29 tok/s, während Dflash die Leistung verschlechtert.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Ergebnisse zeigen, dass Dflash in der aktuellen Implementierung keine Vorteile bringt und sogar die Leistung verschlechtern kann. Für ein 4x 3090 oder 2x 5090 Setup bedeutet dies, dass man entweder auf eine Optimierung von Dflash warten oder alternative Decoding-Methoden verwenden sollte.

Konsequenz für OpenCode-Nutzer:
Die Verwendung von Dflash könnte die Inference-Geschwindigkeit verlangsamen. Nutzer sollten alternative Decoding-Methoden testen, um die beste Leistung zu erzielen.

Handlungsempfehlung:
Auf PRs warten, die Dflash optimieren. Alternativ, andere Decoding-Methoden wie EAGLE oder NEXTN testen.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen3-vl-4B
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: Baseline: 223.29 tok/s, Dflash: negativ
– Multi-GPU-Konfiguration: nicht im Post belegt

[[Help] sglang Docker hangs with 100% CPU & GPU Util on dual Blackwell GPUs. What’s the best way to install?] (6/10) — OpenCode-Fit: JA

Zur Discussion

Worum geht es konkret?
Der Nutzer hat Probleme, SGLang lokal auf zwei Blackwell GPUs zu betreiben. Die Docker-Installation führt zu 100% CPU- und GPU-Auslastung, und das Modell ist nicht nutzbar. Er hat versucht, die Installation mit Docker, Conda und vllm Docker zu durchführen, aber nur die vllm Docker-Version funktioniert stabil.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Das Problem zeigt, dass die Docker-Installation von SGLang auf Consumer-GPUs Schwierigkeiten haben kann. Für ein 4x 3090 oder 2x 5090 Setup könnte es sinnvoll sein, die Conda-Installation zu testen oder auf zukünftige Optimierungen zu warten. Die vllm Docker-Version kann als temporäre Lösung dienen.

Konsequenz für OpenCode-Nutzer:
Die Docker-Installation von SGLang kann zu hohen CPU- und GPU-Auslastungen führen. Nutzer sollten die Conda-Installation testen oder auf zukünftige Optimierungen warten.

Handlungsempfehlung:
Die Conda-Installation testen oder auf zukünftige PRs warten, die die Docker-Installation optimieren. Als temporäre Lösung die vllm Docker-Version verwenden.

Fakten-Tabelle:
– Hardware im Post: 2x 24G (Blackwell), Intel Core Ultra 5 250k, 64G DDR5
– Modell: Qwen3.5-27b-fp8
– Framework-Version: docker.io/lmsysorg/sglang:nightly-dev-20260416-a4cf2ea1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=2

[SGLang Inference 8*H200(1 HGX). QWEN-3.5-397B-A17B-FP8] (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)

Zur Discussion

Worum geht es konkret?
Der Nutzer führt Inference mit dem Qwen3.5-397B-A17B-FP8 Modell auf einem HGX-Node mit 8 H200 GPUs durch. Er sucht nach Optimierungsmöglichkeiten für die Konfiguration, insbesondere für die Speicherverwaltung, die Batch-Größe und die Verwendung von FP8 KV-Cache.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist für ein autarkes Home-Setup mit Consumer-GPUs nicht relevant, da sie sich auf hochspezialisierte Enterprise-Hardware konzentriert. Die H200 GPUs und der HGX-Node sind weit über den Möglichkeiten von Consumer-GPUs.

Konsequenz für OpenCode-Nutzer:
Diese Diskussion bringt keine praktischen Erkenntnisse für die Verwendung von SGLang auf Consumer-GPUs. Nutzer sollten sich auf Diskussionen konzentrieren, die sich auf ihre Hardware beziehen.

Handlungsempfehlung:
Diese Diskussion ignorieren, da sie für Consumer-GPUs nicht relevant ist.

Fakten-Tabelle:
– Hardware im Post: 1× HGX, 8× H200 (NVLink)
– Modell: Qwen3.5-397B-A17B-FP8
– Framework-Version: 0.5.9
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=8

[Why similar CPU memory leak fixes were split across multiple PRs, and how you pinpoint leaks down to specific lines?] (4/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Der Nutzer untersucht einen CPU-Memory-Leak in seiner SGLang-Deployment und möchte von den SGLang-Maintainern lernen, wie sie solche Lecks diagnostizieren und beheben. Er fragt, warum ähnliche Fixes in mehreren PRs landeten und welche Tools und Methoden verwendet werden, um Lecks zu lokalisieren.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Diskussion zeigt, dass Memory-Leaks auch in lokalen Setups relevant sein können. Für ein 4x 3090 oder 2x 5090 Setup bedeutet dies, dass man auf die Stability und Ressourcenverwaltung achten sollte. Die genannten Tools und Methoden können hilfreich sein, um solche Probleme zu diagnostizieren und zu beheben.

Konsequenz für OpenCode-Nutzer:
Die Verwendung von Tools wie tracemalloc, objgraph, heapy, jemalloc/tcmalloc, heap profiling, memray, pprof, valgrind/massif, ASan/LSan kann helfen, Memory-Leaks zu identifizieren und zu beheben. Dies ist besonders wichtig für die langfristige Stabilität des Setups.

Handlungsempfehlung:
Die genannten Tools und Methoden testen, um Memory-Leaks zu diagnostizieren und zu beheben. Die Stability des Setups regelmäßig überwachen.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

[High TTFT and Throughput Drop in gRPC Mode Under High Concurrency (vs HTTP Mode)] (5/10) — OpenCode-Fit: JA

Zur Discussion

Worum geht es konkret?
Der Nutzer beobachtet, dass die Leistung des gRPC Routers unter hohem Lastsignatur stark abfällt, während die HTTP Router-Performance stabil bleibt. Er fragt, ob dies erwartetes Verhalten ist und ob es Optimierungsmöglichkeiten gibt.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Diskussion zeigt, dass die Wahl des Protokolls (gRPC vs. HTTP) einen erheblichen Einfluss auf die Leistung unter hohem Lastsignatur haben kann. Für ein 4x 3090 oder 2x 5090 Setup bedeutet dies, dass man die Protokollwahl sorgfältig prüfen und ggf. optimieren sollte, um die beste Leistung zu erzielen.

Konsequenz für OpenCode-Nutzer:
Die Verwendung von HTTP anstelle von gRPC kann unter hohem Lastsignatur eine bessere Leistung bringen. Nutzer sollten die Protokollwahl testen und die Leistung unter verschiedenen Lastbedingungen vergleichen.

Handlungsempfehlung:
Die Protokollwahl testen und die Leistung unter verschiedenen Lastbedingungen vergleichen. Bei hohem Lastsignatur HTTP bevorzugen.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen3-4B
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: 4x 1P1D (1 Prefill + 1 Decode)

Weitere Diskussionen (kurz):

– Inquiry regarding Tokenizer requirement for SGLang Model Gateway with cache_aware policy: Diskutiert, ob der SGLang Model Gateway bei Verwendung der cache_aware Policy einen Tokenizer benötigt. ENTERPRISE (für uns irrelevant)
– Help: Allgemeine Hilferuf, keine spezifischen technischen Details. ENTERPRISE (für uns irrelevant)
– Question: DFLASH not supported in –speculative-algorithm #49: Diskutiert, dass DFlash in der aktuellen Version von SGLang nicht unterstützt wird. BEDINGT
– Enable Piecewise CUDA Graph with EP: Diskutiert, wie Piecewise CUDA Graph in Kombination mit Expert Parallelism (EP) implementiert werden kann. ENTERPRISE (für uns irrelevant)
– Using Prefill node idle cycles for Decoding in PD disaggregation?: Diskutiert, wie idle-Zeiten von Prefill-Nodes für Decoding genutzt werden können. ENTERPRISE (für uns irrelevant)
– sglang is listed on Shypd — AI Tool Directory: Informiert über die Aufnahme von SGLang in das Shypd-Verzeichnis. ENTERPRISE (für uns irrelevant)
– Are there plans to support OpenAI Realtime-API or other realtime API protocols?: Diskutiert, ob SGLang Unterstützung für Echtzeit-API-Protokolle wie Websockets und gRPC erhalten wird. ENTERPRISE (für uns irrelevant)
– Starting to build a solution for FR – https://github.com/sgl-project/sglang/issues/13825: Diskutiert die Entwicklung eines Plugin-Systems für SGLang. ENTERPRISE (für uns irrelevant)
– how to quant fp16 to fp8?: Diskutiert, wie man fp16-Modelle in fp8 quantisieren kann. BEDINGT

👁 5 Aufrufe 👤 5 Leser