SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten

Kurzfassung

Die SGLang-Community diskutiert aktuell hauptsächlich Themen, die die lokale Inference von großen Sprachmodellen (LLMs) auf Consumer-Hardware verbessern. Dominierende Themen sind die Optimierung der Performance auf Multi-GPU-Setups, die Reduzierung von Speicher- und CPU-Overhead sowie die Implementierung von spekulativen Decoding-Verfahren. Für Nutzer, die ein autarkes Home-Setup mit 4x 3090 oder 2x 5090 GPUs betreiben möchten, sind insbesondere die Diskussionen zur Quantisierung, zur Verwendung von DFlash und zur Optimierung der Router-Konfiguration relevant. Diese Entwicklungen können die Geschwindigkeit und Effizienz der Agent-Workloads erheblich steigern.

[Help] sglang Docker hangs with 100% CPU & GPU Util on dual Blackwell GPUs. What’s the best way to install? (3/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Der Nutzer versucht, SGLang lokal auf einem System mit zwei Blackwell-GPUs (24 GB VRAM) zu installieren, aber der Docker-Container hängt und belastet die CPU und GPU stark. Er hat bereits versucht, SGLang über Docker und Conda zu installieren, aber beide Methoden führen zu Problemen. Er fragt nach der besten Installationsmethode und den Gründen für die hohe CPU- und GPU-Last.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup mit Consumer-GPUs wie 3090 oder 5090 ist die Docker-Installation eine gängige Methode, aber die beschriebenen Probleme mit hoher CPU- und GPU-Last können auch hier auftreten. Es ist wichtig, die CUDA-Installation zu überprüfen und möglicherweise auf eine native Installation über Conda zu wechseln, um bessere Performance zu erzielen.

Konsequenz für OpenCode-Nutzer:
Die hohe CPU- und GPU-Last kann die Performance des Coding-Agents stark beeinträchtigen. Nutzer sollten die Docker-Installation sorgfältig überprüfen und bei Problemen auf Conda umstellen. Es ist auch ratsam, die CUDA-Installation zu validieren, um sicherzustellen, dass alle Treiber korrekt installiert sind.

Handlungsempfehlung:
– Überprüfe die CUDA-Installation und installiere ggf. die neueste Version.
– Versuche die Installation über Conda, um bessere Performance zu erzielen.
– Beobachte die CPU- und GPU-Last und passe die Konfiguration an, falls nötig.

Fakten-Tabelle:
– Hardware im Post: 2 x 24G (Blackwell), Intel Core Ultra 5 250k, 64G DDR5
– Modell: nicht im Post belegt
– Framework-Version: Docker 29.4.0, CUDA 13.0
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

[Dflash working launch parameters](6/10) — OpenCode-Fit: JA

Zur Discussion

Worum geht es konkret?
Der Nutzer versucht, das DFlash speculative decoding algorithm mit SGLang auf zwei RTX 3090 GPUs (48 GB VRAM) zu verwenden, aber er stößt auf Out-of-Memory (OOM) Fehler. Er fragt nach den richtigen Parametern, um das Problem zu lösen.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup mit 3090 oder 5090 GPUs ist die Verwendung von DFlash besonders relevant, da es die Inference-Geschwindigkeit erheblich verbessern kann. Die beschriebenen OOM-Fehler sind jedoch ein häufiges Problem, das durch die richtige Konfiguration der Parameter wie `–mem-fraction-static` und `–context-length` gelöst werden kann.

Konsequenz für OpenCode-Nutzer:
Die Verwendung von DFlash kann die Inference-Geschwindigkeit und die Effizienz des Coding-Agents erheblich steigern. Nutzer sollten die Parameter sorgfältig anpassen, um OOM-Fehler zu vermeiden und die Performance zu optimieren.

Handlungsempfehlung:
– Passe die Parameter `–mem-fraction-static` und `–context-length` an, um OOM-Fehler zu vermeiden.
– Verwende die `–mamba-scheduler-strategy extra_buffer` Option, um die Speicherverwaltung zu verbessern.
– Beobachte die VRAM-Verwendung und passe die Konfiguration bei Bedarf an.

Fakten-Tabelle:
– Hardware im Post: 2 x RTX 3090 (48 GB VRAM)
– Modell: Qwen3.5-27B-GPTQ-Int4
– Framework-Version: 0.5.6.post2
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=2

[Why similar CPU memory leak fixes were split across multiple PRs, and how you pinpoint leaks down to specific lines?](4/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die Diskussion dreht sich um die Methodik der SGLang-Entwickler, um CPU-Memory-Leaks zu identifizieren und zu beheben. Es wird erklärt, warum ähnliche Fixes in mehreren Pull Requests (PRs) landeten und welche Tools und Workflows verwendet werden, um Lecks auf spezifische Codezeilen zu reduzieren.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die Stabilität und langfristige Performance des Systems wichtig. CPU-Memory-Leaks können die Systemstabilität beeinträchtigen und sollten daher vermieden werden. Die beschriebenen Methoden zur Identifikation und Behebung von Lecks können auch für Home-Setups hilfreich sein, um das System stabil und performant zu halten.

Konsequenz für OpenCode-Nutzer:
Die Verwendung von Tools wie `tracemalloc`, `objgraph` und `jemalloc` kann helfen, Memory-Leaks zu identifizieren und zu beheben. Dies ist besonders wichtig für lang laufende Agent-Workloads, um die Systemstabilität zu gewährleisten.

Handlungsempfehlung:
– Verwende Tools wie `tracemalloc` und `objgraph` zur Identifikation von Memory-Leaks.
– Überwache die RSS-Trends und die per-Request-Growth, um potenzielle Lecks zu erkennen.
– Behebe identifizierte Lecks in kleinen, inkrementellen Schritten.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

[High TTFT and Throughput Drop in gRPC Mode Under High Concurrency (vs HTTP Mode)] (5/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Der Nutzer beobachtet eine signifikante Leistungsabnahme des gRPC-Routers im Vergleich zum HTTP-Router bei hohem Lastgrad. Er fragt, ob dieses Verhalten erwartet wird und ob es an der gRPC-Implementierung liegt.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup mit 3090 oder 5090 GPUs ist die Wahl des Protokolls (gRPC vs. HTTP) wichtig, um die bestmögliche Performance zu erzielen. Die beschriebene Leistungsabnahme des gRPC-Routers bei hohem Lastgrad kann auch in Home-Setups auftreten und sollte beachtet werden.

Konsequenz für OpenCode-Nutzer:
Die Verwendung des HTTP-Protokolls kann bei hohem Lastgrad bessere Performance bieten. Nutzer sollten die Router-Konfiguration anpassen und die Performance unter verschiedenen Lastbedingungen überwachen, um das beste Protokoll für ihre Anwendung zu wählen.

Handlungsempfehlung:
– Teste die Performance des HTTP- und gRPC-Routers unter verschiedenen Lastbedingungen.
– Passe die Router-Konfiguration an, um die bestmögliche Performance zu erzielen.
– Überwache die TTFT, TPOT und den Durchsatz, um die Leistung zu optimieren.

Fakten-Tabelle:
– Hardware im Post: 4 x 1P1D (1 Prefill + 1 Decode) Paare
– Modell: Qwen3-4B
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

[SGLang Inference 8*H200(1 HGX). QWEN-3.5-397B-A17B-FP8] (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)

Zur Discussion

Worum geht es konkret?
Der Nutzer beschreibt seine Erfahrungen mit der Inference von Qwen3.5-397B-A17B-FP8 auf einem HGX-Node mit 8 H200 GPUs (141 GB VRAM). Er fragt nach Optimierungsmöglichkeiten für die Concurrency, die TTFT, TPOT und den Durchsatz.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist für ein autarkes Home-Setup mit Consumer-GPUs wie 3090 oder 5090 nicht relevant, da sie sich auf hoch skalierbare Enterprise-Setups mit H200 GPUs konzentriert. Die beschriebenen Optimierungsmöglichkeiten sind für Home-Setups nicht anwendbar.

Konsequenz für OpenCode-Nutzer:
Für OpenCode-Nutzer mit 3090 oder 5090 GPUs sind die beschriebenen Optimierungsmöglichkeiten nicht relevant. Sie sollten sich auf die Optimierung ihrer Consumer-Hardware konzentrieren.

Handlungsempfehlung:
– Ignoriere diese Diskussion, da sie für Home-Setups nicht relevant ist.
– Konzentriere dich auf die Optimierung deiner Consumer-Hardware.

Fakten-Tabelle:
– Hardware im Post: 1 x HGX, 8 x H200 (141 GB VRAM)
– Modell: Qwen3.5-397B-A17B-FP8
– Framework-Version: 0.5.9
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: DP=1, TP=8, EP=1

[Inquiry regarding Tokenizer requirement for SGLang Model Gateway with cache_aware policy] (4/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Der Nutzer fragt, ob der SGLang Model Gateway (Router) bei Verwendung der `cache_aware`-Policy einen Tokenizer benötigt. Er möchte verstehen, wie der Router den Cache-Zustand wahrnimmt und die Worker auswählt, wenn kein Tokenizer geladen wird.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die Verwendung des `cache_aware`-Policys wichtig, um die Performance zu optimieren. Die Frage, ob ein Tokenizer benötigt wird, ist relevant, da der Tokenizer die Tokenisierung der Eingaben steuert und somit die Cache-Verwaltung beeinflusst.

Konsequenz für OpenCode-Nutzer:
Die Verwendung eines Tokenizers kann die Cache-Verwaltung verbessern und die Performance des Coding-Agents steigern. Nutzer sollten den Tokenizer in ihre Router-Konfiguration einbeziehen, um die bestmögliche Performance zu erzielen.

Handlungsempfehlung:
– Füge einen Tokenizer in die Router-Konfiguration ein, um die Cache-Verwaltung zu verbessern.
– Teste die Performance mit und ohne Tokenizer, um die besten Ergebnisse zu erzielen.

[Question: DFLASH not supported in –speculative-algorithm #49] (6/10) — OpenCode-Fit: JA

Zur Discussion

Worum geht es konkret?
Der Nutzer versucht, das DFlash speculative decoding algorithm in SGLang zu verwenden, aber er stößt auf einen Fehler, da DFLASH nicht als gültige Option für `–speculative-algorithm` unterstützt wird. Er fragt, ob DFlash in einer bestimmten Version oder Branch unterstützt wird und ob es Workarounds gibt.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup mit 3090 oder 5090 GPUs ist die Verwendung von DFlash besonders relevant, da es die Inference-Geschwindigkeit erheblich verbessern kann. Die Unterstützung von DFlash in SGLang ist daher wichtig, um die Performance zu steigern.

Konsequenz für OpenCode-Nutzer:
Die Verwendung von DFlash kann die Inference-Geschwindigkeit und die Effizienz des Coding-Agents erheblich steigern. Nutzer sollten überprüfen, ob DFlash in einer spezifischen Version oder Branch unterstützt wird, und ggf. Workarounds anwenden.

Handlungsempfehlung:
– Überprüfe, ob DFlash in einer spezifischen Version oder Branch von SGLang unterstützt wird.
– Verwende Workarounds wie die Integration externer Draft-Modelle, falls notwendig.
– Beobachte die Entwicklung und warte auf mögliche Updates.

[Enable Piecewise CUDA Graph with EP] (5/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Der Nutzer diskutiert die Möglichkeit, Piecewise CUDA Graphs in Kombination mit Expert Parallelism (EP) zu verwenden, um die Performance von Modellen wie Qwen 3.5 zu verbessern. Er hat bereits einen Prototyp entwickelt, der die CPU-Overhead reduziert und die GPU-Utilisierung erhöht.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup mit 3090 oder 5090 GPUs kann die Verwendung von Piecewise CUDA Graphs in Kombination mit EP die Performance erheblich verbessern. Die Reduzierung des CPU-Overhead und die bessere GPU-Utilisierung sind besonders wichtig, um die Inference-Geschwindigkeit zu steigern.

Konsequenz für OpenCode-Nutzer:
Die Verwendung von Piecewise CUDA Graphs in Kombination mit EP kann die Inference-Geschwindigkeit und die Effizienz des Coding-Agents erheblich steigern. Nutzer sollten die beschriebenen Methoden testen und die Performance überwachen.

Handlungsempfehlung:
– Teste die Verwendung von Piecewise CUDA Graphs in Kombination mit EP.
– Überwache die CPU-Overhead und die GPU-Utilisierung, um die bestmögliche Performance zu erzielen.
– Beobachte die Entwicklung und warte auf mögliche Updates.

**Fakten-T

👁 3 Aufrufe 👤 3 Leser