SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten
Kurzfassung
Die SGLang-Community diskutiert aktuell vor allem Themen rund um die Optimierung der lokalen Inference von großen Sprachmodellen (LLMs) auf Consumer-GPUs. Besonders relevant sind Diskussionen zur Verbesserung der Performance auf 4x 3090 oder 2x 5090-Setups, zur Quantisierung, zur Prefix-Caching und zur Tool-Calling-Qualität. Zwei zentrale Themen sind die Probleme bei der Docker-Installation und die Optimierung der Spekulative Decoding-Algorithmen.
[Help] sglang Docker hangs with 100% CPU & GPU Util on dual Blackwell GPUs. What’s the best way to install? (6/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Ein Anfänger versucht, LLMs lokal mit SGLang zu betreiben, aber die Docker-Installation hängt und verbraucht 100% CPU- und GPU-Last. Er hat Schwierigkeiten mit der Docker-Installation und der Konfiguration, insbesondere ohne CUDA-Toolkit. Er hat auch versucht, SGLang über Conda zu installieren, was zu vielen Fehlern führte. Er verwendet zwei 24GB Blackwell-GPUs und einen Intel Core Ultra 5 250k.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die beschriebenen Probleme sind auch für Consumer-GPUs wie die 3090 oder 5090 relevant. Die Docker-Installation kann auf solchen Systemen ebenfalls zu Lastproblemen führen, insbesondere wenn das CUDA-Toolkit nicht korrekt konfiguriert ist. Es ist wichtig, die Docker-Installation sorgfältig zu überprüfen und eventuell auf Conda oder eine direkte Installation zurückzugreifen.
Konsequenz für OpenCode-Nutzer:
Die Docker-Installation kann zu Lastproblemen führen. Es ist ratsam, die Docker-Konfiguration zu überprüfen und gegebenenfalls auf Conda oder eine direkte Installation zu wechseln. Die CUDA-Installation sollte korrekt erfolgen, um Lastprobleme zu vermeiden.
Handlungsempfehlung:
Überprüfe die Docker-Konfiguration und die CUDA-Installation. Wenn Probleme bestehen, versuche Conda oder eine direkte Installation.
Fakten-Tabelle:
– Hardware im Post: 2 x 24G Blackwell, Intel Core Ultra 5 250k, 64G DDR5
– Modell: Qwen3.5-27b-fp8
– Framework-Version: 0.5.6.post2
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=2
[Dflash working launch parameters] (4/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Ein Benutzer versucht, den Dflash-Spekulative Decoding-Algorithmus mit SGLang zu verwenden, aber er erhält immer Out-of-Memory (OOM) Fehler. Er verwendet zwei NVIDIA RTX 3090s (48GB VRAM insgesamt) und das offizielle GPTQ-quantisierte Qwen3.5-27B-Modell. Er hat verschiedene Parameter angepasst, aber das Problem bleibt bestehen.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die OOM-Fehler sind ein häufiges Problem bei der Verwendung von großen Modellen auf Consumer-GPUs. Die Quantisierung und die Konfiguration der Spekulative Decoding-Parameter sind entscheidend, um die VRAM-Verwendung zu optimieren. Es ist wichtig, die Parameter sorgfältig zu überprüfen und gegebenenfalls anzupassen.
Konsequenz für OpenCode-Nutzer:
Die OOM-Fehler können die Verwendung von großen Modellen auf Consumer-GPUs erheblich beeinträchtigen. Es ist ratsam, die Quantisierung und die Spekulative Decoding-Parameter zu optimieren, um die VRAM-Verwendung zu reduzieren.
Handlungsempfehlung:
Überprüfe die Quantisierung und die Spekulative Decoding-Parameter. Versuche, die VRAM-Verwendung zu reduzieren, indem du die Parameter anpasst.
Fakten-Tabelle:
– Hardware im Post: 2 x 24GB RTX 3090
– Modell: Qwen3.5-27B-GPTQ-Int4
– Framework-Version: 0.5.6.post2
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=2
[High TTFT and Throughput Drop in gRPC Mode Under High Concurrency (vs HTTP Mode)] (5/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Ein Benutzer beobachtet, dass die Leistung des gRPC-Routers unter hohem Lastbedarf stark abfällt, während die HTTP-Router-Performance stabil bleibt. Er verwendet vier 1P1D (1 Prefill + 1 Decode) Paare und hat die Router-Konfigurationen für HTTP und gRPC getestet. Die gRPC-Version zeigt eine höhere Cache-Hit-Rate, aber eine deutlich schlechtere Leistung bei hohem Lastbedarf.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Leistungsunterschiede zwischen HTTP und gRPC sind auch für autarke Home-Setups relevant. Bei hohem Lastbedarf kann die gRPC-Version zu erheblichen Leistungsabfällen führen, was die Wahl der Kommunikationsprotokolle beeinflusst. Es ist wichtig, die Router-Konfigurationen sorgfältig zu testen und zu optimieren.
Konsequenz für OpenCode-Nutzer:
Die Wahl des Kommunikationsprotokolls kann die Leistung erheblich beeinflussen. Es ist ratsam, die Router-Konfigurationen für HTTP und gRPC zu testen und die bessere Option für das spezifische Setup zu wählen.
Handlungsempfehlung:
Teste die Router-Konfigurationen für HTTP und gRPC und wähle die bessere Option für dein Setup. Überprüfe die Cache-Hit-Rate und die Leistung unter hohem Lastbedarf.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen3-4B
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: 4 x 1P1D
[Inquiry regarding Tokenizer requirement for SGLang Model Gateway with cache_aware policy] (4/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Ein Benutzer fragt, ob der SGLang Model Gateway (Router) bei Verwendung der cache_aware-Policy einen Tokenizer benötigt. Er hat bemerkt, dass in den offiziellen Beispielen kein Tokenizer in der Konfiguration enthalten ist. Er verwendet die cache_aware-Policy und möchte verstehen, wie der Router den Cache-Zustand erkennt und die Worker auswählt.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Frage nach dem Tokenizer ist auch für autarke Home-Setups relevant, da der Router die Cache-Verwaltung und die Worker-Auswahl korrekt durchführen muss. Es ist wichtig, die Konfiguration sorgfältig zu überprüfen, um sicherzustellen, dass der Router die Cache-Informationen korrekt verarbeitet.
Konsequenz für OpenCode-Nutzer:
Die Konfiguration des Routers und die Wahl der Policy können die Leistung und die Cache-Verwaltung beeinflussen. Es ist ratsam, die Konfiguration sorgfältig zu überprüfen und gegebenenfalls einen Tokenizer hinzuzufügen.
Handlungsempfehlung:
Überprüfe die Router-Konfiguration und die Policy-Einstellungen. Füge gegebenenfalls einen Tokenizer hinzu, um die Cache-Verwaltung zu verbessern.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen3-4B
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
[Question: DFLASH not supported in –speculative-algorithm #49] (4/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Ein Benutzer versucht, den DFlash-Spekulative Decoding-Algorithmus in SGLang zu verwenden, aber er erhält einen Fehler, da DFLASH nicht als gültige Option für –speculative-algorithm unterstützt wird. Er fragt, ob DFlash in einer bestimmten Version oder Branch unterstützt wird und ob es Workarounds gibt.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Unterstützung von DFlash ist auch für autarke Home-Setups relevant, da Spekulative Decoding-Algorithmus die Leistung und die VRAM-Verwendung verbessern kann. Es ist wichtig, die Unterstützung von DFlash in SGLang zu überprüfen und gegebenenfalls Workarounds zu finden.
Konsequenz für OpenCode-Nutzer:
Die Unterstützung von DFlash kann die Leistung und die VRAM-Verwendung verbessern. Es ist ratsam, die Unterstützung in SGLang zu überprüfen und gegebenenfalls Workarounds zu finden.
Handlungsempfehlung:
Überprüfe die Unterstützung von DFlash in SGLang. Wenn nicht unterstützt, suche nach Workarounds oder warte auf zukünftige Updates.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
[Using Prefill node idle cycles for Decoding in PD disaggregation?] (4/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Ein Benutzer diskutiert, ob es möglich ist, die Leerlaufzeiten der Prefill-Knoten in einer PD-disaggregierten Konfiguration zu nutzen, um Decoding-Batches zu verarbeiten. Er beobachtet, dass die Decoding-Zeit länger ist als die Prefill-Zeit, was zu einer ineffizienten Auslastung der Knoten führt.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Nutzung von Leerlaufzeiten der Prefill-Knoten zur Decoding-Verarbeitung ist auch für autarke Home-Setups relevant, da es die GPU-Auslastung und die Leistung verbessern kann. Es ist wichtig, die PD-disaggregierte Konfiguration zu optimieren, um die GPU-Ressourcen effizienter zu nutzen.
Konsequenz für OpenCode-Nutzer:
Die Optimierung der PD-disaggregierten Konfiguration kann die GPU-Auslastung und die Leistung verbessern. Es ist ratsam, die Leerlaufzeiten der Prefill-Knoten zu nutzen, um Decoding-Batches zu verarbeiten.
Handlungsempfehlung:
Überprüfe die PD-disaggregierte Konfiguration und nutze die Leerlaufzeiten der Prefill-Knoten zur Decoding-Verarbeitung. Optimiere die GPU-Auslastung und die Leistung.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: PD disaggregation
Weitere Diskussionen (kurz):
– SGLang Inference 8*H200(1 HGX). QWEN-3.5-397B-A17B-FP8 — Enterprise — nicht autark-relevant
– Why similar CPU memory leak fixes were split across multiple PRs, and how you pinpoint leaks down to specific lines? — Enterprise — nicht autark-relevant
– sglang is listed on Shypd — AI Tool Directory — Enterprise — nicht autark-relevant
– Are there plans to support OpenAI Realtime-API or other realtime API protocols? — Enterprise — nicht autark-relevant
– Starting to build a solution for FR – https://github.com/sgl-project/sglang/issues/13825 — Enterprise — nicht autark-relevant
– how to quant fp16 to fp8? — Relevante Frage zur Quantisierung, aber spezifisch für FP8
– The nvidia/GLM-5-NVFP4model with NVFP4 quantization cannot be launched using the SGLang engine. — Spezifisches Problem mit einem Modell, aber relevant für die Quantisierung
Diese Diskussionen bieten wertvolle Einblicke in die aktuelle Entwicklung von SGLang und helfen, die Leistung und die Benutzerfreundlichkeit von lokalen LLM-Setups zu verbessern.