SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten
Kurzfassung
Die SGLang-Community diskutiert aktuell vor allem Themen rund um die Optimierung von Inference-Workloads, insbesondere für Agenten wie OpenCode. Dominierende Themen sind die Performance-Optimierung bei hohem Last, die Unterstützung von spezifischen Quantisierungsmethoden und die Verbesserung der Prefix-Caching-Strategien. Für Nutzer, die ein autarkes Setup mit 4x 3090 oder 2x 5090 aufbauen möchten, sind insbesondere die Diskussionen zur Quantisierung, zur Cache-Strategie und zur Performance-Optimierung relevant.
High TTFT and Throughput Drop in gRPC Mode Under High Concurrency (vs HTTP Mode) (6/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Der Nutzer vergleicht die Performance von SGLang-Routern in HTTP- und gRPC-Modus. Bei gRPC wird eine höhere Cache-Hit-Rate beobachtet, aber die Performance unter hohem Last sinkt stark. Die Frage ist, ob dies ein erwartetes Verhalten ist oder ob die gRPC-Implementierung noch optimiert werden muss. Der Nutzer verwendet vier 1P1D-Paare (1 Prefill + 1 Decode) und das Modell Qwen3-4B.
Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die Wahl des Protokolls (HTTP vs. gRPC) wichtig, da gRPC bei hohen Lasten Probleme verursachen kann. HTTP könnte eine stabile Alternative sein, insbesondere wenn man keine extrem hohen Anforderungsraten erwartet. Die Verwendung von 4x 3090 oder 2x 5090 sollte hier keine Rolle spielen, da die Performance-Probleme eher auf der Netzwerkebene liegen.
Konsequenz fuer OpenCode-Nutzer:
Die Wahl des Protokolls kann die Latenz und die Durchsatzrate beeinflussen. Bei niedriger Last ist gRPC vorteilhaft, bei hohen Lasten sollte man HTTP bevorzugen. Es ist ratsam, die Performance in beiden Modi zu testen, um das beste Setup für den eigenen Anwendungsfall zu finden.
Handlungsempfehlung:
Testen Sie beide Modi (HTTP und gRPC) und beobachten Sie die Performance unter verschiedenen Lastbedingungen. Bei hohen Lasten auf HTTP umstellen.
Fakten-Tabelle:
– Hardware im Post: 4x 3090
– Modell: Qwen3-4B
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: 4x 1P1D
Dflash working launch parameters (7/10) — OpenCode-Fit: JA
Worum geht es konkret?
Der Nutzer versucht, den DFlash-Speculative-Decoding-Algorithmus mit SGLang zu verwenden, aber es kommt zu Out-of-Memory-Fehlern (OOM). Er verwendet zwei NVIDIA RTX 3090s und das quantisierte Modell Qwen3.5-27B-GPTQ-Int4. Die Frage ist, ob es spezifische Parameter gibt, die das Problem beheben können.
Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup mit 4x 3090 oder 2x 5090 ist die Quantisierung und der Speichermanagement besonders wichtig. Die OOM-Fehler deuten darauf hin, dass die aktuellen Parameter nicht optimal sind. Es könnte hilfreich sein, die Quantisierungsmethode oder die Speicherallokation zu optimieren.
Konsequenz fuer OpenCode-Nutzer:
Die Verwendung von DFlash kann die Performance verbessern, aber es erfordert eine sorgfältige Konfiguration, um OOM-Fehler zu vermeiden. Es ist ratsam, die Quantisierungsmethode und die Speicherallokation zu überprüfen und gegebenenfalls anzupassen.
Handlungsempfehlung:
Versuchen Sie, die Quantisierungsmethode zu ändern (z.B. von GPTQ-Int4 zu FP8) und die Speicherallokation zu optimieren (z.B. –mem-fraction-static). Beobachten Sie die Performance und die Speicherverwendung.
Fakten-Tabelle:
– Hardware im Post: 2x 3090
– Modell: Qwen3.5-27B-GPTQ-Int4
– Framework-Version: 0.5.6.post2
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: 2x 3090
Inquiry regarding Tokenizer requirement for SGLang Model Gateway with cache_aware policy (5/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Der Nutzer fragt, ob der SGLang-Model-Gateway (Router) mit der cache_aware-Policy einen Tokenizer benötigt. Die offiziellen Beispiele enthalten keinen Tokenizer in der Konfiguration. Die Frage ist, wie der Router den Cache-Zustand erkennt und die Worker auswählt, wenn kein Tokenizer geladen wird.
Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die Cache-Strategie wichtig, um die Performance zu verbessern. Die Verwendung der cache_aware-Policy ohne Tokenizer könnte zu Problemen führen, da der Router möglicherweise Schwierigkeiten hat, den Cache-Zustand korrekt zu verwalten. Es ist ratsam, einen Tokenizer zu verwenden, um die Cache-Strategie zu optimieren.
Konsequenz fuer OpenCode-Nutzer:
Die Verwendung eines Tokenizers kann die Cache-Strategie verbessern und die Performance steigern. Ohne Tokenizer könnte es zu ineffizienten Cache-Hit-Raten kommen, was die Latenz erhöht.
Handlungsempfehlung:
Fügen Sie einen Tokenizer in die Konfiguration ein und testen Sie die Performance. Beobachten Sie die Cache-Hit-Raten und die Latenz.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
Question: DFLASH not supported in –speculative-algorithm #49 (4/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Der Nutzer versucht, den DFlash-Speculative-Decoding-Algorithmus in SGLang zu verwenden, aber erhält eine Fehlermeldung, dass DFLASH nicht als gültige Option für –speculative-algorithm unterstützt wird. Die Frage ist, ob DFlash in einer spezifischen Version oder Branch von SGLang unterstützt wird oder ob es Workarounds gibt.
Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die Unterstützung von DFlash wichtig, da es die Performance verbessern kann. Derzeit scheint DFlash nicht in der aktuellen Version von SGLang unterstützt zu werden. Es könnte hilfreich sein, alternative Speculative-Decoding-Methoden zu testen oder auf eine zukünftige Version von SGLang zu warten, die DFlash unterstützt.
Konsequenz fuer OpenCode-Nutzer:
Die Verwendung von DFlash könnte die Performance verbessern, aber es ist derzeit nicht unterstützt. Es ist ratsam, alternative Methoden zu testen oder auf eine zukünftige Version zu warten.
Handlungsempfehlung:
Testen Sie alternative Speculative-Decoding-Methoden (z.B. EAGLE, EAGLE2) und beobachten Sie die Performance. Warten Sie auf eine zukünftige Version von SGLang, die DFlash unterstützt.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
Enable Piecewise CUDA Graph with EP (6/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Der Nutzer diskutiert die Möglichkeit, Piecewise CUDA Graphs in Kombination mit Expert Parallelism (EP) zu verwenden, um die Performance von Modellen wie Qwen 3.5 zu verbessern. Die aktuellen Implementierungen haben Probleme mit der CPU-Überlastung bei der Verarbeitung von Linear Attention-Kernen. Der Vorschlag ist, Piecewise CUDA Graphs für die Attention-Teile zu verwenden und die MoE-Teile als einen großen Split-Operator zu behandeln.
Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup kann die Verwendung von Piecewise CUDA Graphs die GPU-Utilisierung und die Performance verbessern. Die CPU-Überlastung bei der Verarbeitung von Linear Attention-Kernen kann reduziert werden, was die Latenz senkt. Es ist ratsam, diese Methode zu testen, um die Performance zu optimieren.
Konsequenz fuer OpenCode-Nutzer:
Die Verwendung von Piecewise CUDA Graphs kann die GPU-Utilisierung und die Performance verbessern, insbesondere bei Modellen mit Linear Attention. Es ist ratsam, die Methode zu testen und die Performance zu überprüfen.
Handlungsempfehlung:
Implementieren Sie Piecewise CUDA Graphs für die Attention-Teile und testen Sie die Performance. Beobachten Sie die CPU-Überlastung und die GPU-Utilisierung.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen 3.5
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
Using Prefill node idle cycles for Decoding in PD disaggregation? (5/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Der Nutzer diskutiert die Möglichkeit, die idle-Zyklen von Prefill-Knoten in PD-disaggregierten Setups für Decoding-Aufgaben zu nutzen. Derzeit gibt es eine Decoding-Bottleneck, da die Decoding-Zeit länger ist als die Prefill-Zeit. Der Vorschlag ist, die idle-Zyklen der Prefill-Knoten zu nutzen, um die Decoding-Leistung zu verbessern.
Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup kann die Nutzung der idle-Zyklen der Prefill-Knoten die Decoding-Leistung verbessern. Dies kann die Gesamtlatenz reduzieren und die Performance steigern. Es ist ratsam, diese Methode zu testen, um die Decoding-Leistung zu optimieren.
Konsequenz fuer OpenCode-Nutzer:
Die Nutzung der idle-Zyklen der Prefill-Knoten kann die Decoding-Leistung verbessern und die Latenz reduzieren. Es ist ratsam, die Methode zu testen und die Performance zu überprüfen.
Handlungsempfehlung:
Testen Sie die Nutzung der idle-Zyklen der Prefill-Knoten für Decoding-Aufgaben und beobachten Sie die Performance. Beobachten Sie die Latenz und die Decoding-Leistung.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
Weitere Diskussionen (kurz):
– SGLang Inference 8*H200(1 HGX). QWEN-3.5-397B-A17B-FP8: Enterprise — nicht autark-relevant, verwendet H200-GPUs.
– sglang is listed on Shypd — AI Tool Directory: Relevante Community-Information, aber nicht spezifisch für autarke Setups.
– Auto RDMA device injection for GPU containers on Kubernetes (no privileged mode needed): Enterprise — nicht autark-relevant, verwendet Kubernetes und RDMA.
– Are there plans to support OpenAI Realtime-API or other realtime API protocols?: Relevante Diskussion zur Unterstützung von Realtime-APIs, aber nicht spezifisch für autarke Setups.
– Starting to build a solution for FR – https://github.com/sgl-project/sglang/issues/13825: Relevante Diskussion zur Plugin-System-Entwicklung, aber nicht spezifisch für autarke Setups.
– how to quant fp16 to fp8?: Relevante Diskussion zur Quantisierung, aber spezifische Methoden müssen getestet werden.
– The nvidia/GLM-5-NVFP4model with NVFP4 quantization cannot be launched using the SGLang engine.: Relevante Diskussion zur Quantisierung, aber spezifische Modelle müssen getestet werden.
– Clarification needed: What does `token usage` in Prefill/Decode batch logs actually represent?: Relevante Diskussion zur Performance-Optimierung, aber spezifische Metriken müssen verstanden werden.