SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten

Kurzfassung

Die SGLang-Community diskutiert aktuell intensiv über die Optimierung von lokalen KI-Setups, insbesondere für Agent-Workloads und strukturierter Ausgabe. Dominierende Themen sind die Verbesserung der Performance bei hohem Last, die Optimierung von Quantisierungsmethoden und die Implementierung von Prefix-Caching. Diese Entwicklungen sind besonders relevant für Nutzer, die ein autarkes Setup mit 4x 3090 oder 2x 5090-GPUs betreiben möchten, um OpenCode auf Claude-Sonnet-Niveau zu nutzen.

High TTFT and Throughput Drop in gRPC Mode Under High Concurrency (vs HTTP Mode) (6/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Der Nutzer vergleicht die Performance von HTTP und gRPC-Modus bei der Verwendung des SGLang-Routers. Bei hohem Last fällt die Performance des gRPC-Routers stark, obwohl der Cache-Hit-Rate höher ist. Der Nutzer fragt, ob dies erwartetes Verhalten ist und ob die gRPC-Implementierung für hohe Lastszenarien optimiert werden muss.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die Wahl des Protokolls wichtig. HTTP-Modus scheint stabil zu sein, während gRPC bei hohen Lasten Probleme bereitet. Für Home-Setups mit moderater Last ist HTTP wahrscheinlich die bessere Wahl, da es stabiler ist und weniger Optimierung benötigt.

Konsequenz für OpenCode-Nutzer:
Die Wahl des Protokolls kann die Latenz und die Anzahl gleichzeitiger Anfragen beeinflussen. HTTP-Modus ist für Home-Setups mit moderater Last zu empfehlen, um Stabilität und Performance zu gewährleisten.

Handlungsempfehlung:
Verwenden Sie HTTP-Modus für stabile Operation. Beobachten Sie die gRPC-Entwicklung, falls Sie hohe Lastszenarien benötigen.

Fakten-Tabelle:
– Hardware im Post: 4x 1P1D (1 Prefill + 1 Decode) Paare
– Modell: Qwen3-4B
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: 4x 1P1D

Dflash working launch parameters (7/10) — OpenCode-Fit: JA

Worum geht es konkret?
Der Nutzer versucht, den DFlash speculative decoding Algorithmus mit zwei RTX 3090-GPUs zu verwenden, aber es kommt zu Out-of-Memory (OOM) Fehlern. Er fragt, ob es spezifische Einstellungen gibt, die das Problem beheben könnten.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für Home-Setups mit 2-4 RTX 3090-GPUs ist die Verwendung von DFlash speculative decoding interessant, da es die Performance verbessern kann. Allerdings müssen die VRAM-Beschränkungen berücksichtigt werden. Die Verwendung von Quantisierung (z.B. INT4) und die Anpassung von Parametern wie `–mem-fraction-static` und `–context-length` können helfen, OOM-Fehler zu vermeiden.

Konsequenz für OpenCode-Nutzer:
Die Verwendung von DFlash kann die Latenz reduzieren und die Anzahl gleichzeitiger Anfragen erhöhen. Es ist wichtig, die VRAM-Beschränkungen zu beachten und die Parameter entsprechend anzupassen.

Handlungsempfehlung:
Versuchen Sie, die VRAM-Beschränkungen durch Quantisierung und Anpassung der Parameter zu umgehen. Beobachten Sie die Entwicklung von DFlash in SGLang.

Fakten-Tabelle:
– Hardware im Post: 2x RTX 3090 (48 GB VRAM)
– Modell: Qwen3.5-27B-GPTQ-Int4
– Framework-Version: 0.5.6.post2
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: 2x TP

Inquiry regarding Tokenizer requirement for SGLang Model Gateway with cache_aware policy (6/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Der Nutzer fragt, ob der SGLang Model Gateway (Router) bei Verwendung der `cache_aware`-Policy einen Tokenizer benötigt. Er stellt fest, dass in den offiziellen Beispielen kein Tokenizer in der Konfiguration enthalten ist, und fragt, wie der Router den Cache-Zustand erkennt und die Worker auswählt.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für Home-Setups ist die Verwendung der `cache_aware`-Policy vorteilhaft, da sie die Performance durch bessere Cache-Verwaltung verbessern kann. Der Router benötigt keinen expliziten Tokenizer, da er die Cache-Zustände auf andere Weise verarbeitet. Dies vereinfacht die Konfiguration und reduziert den Speicherbedarf.

Konsequenz für OpenCode-Nutzer:
Die Verwendung der `cache_aware`-Policy kann die Latenz reduzieren und die Cache-Verwaltung optimieren. Es ist nicht notwendig, einen Tokenizer explizit zu laden, was die Konfiguration erleichtert.

Handlungsempfehlung:
Verwenden Sie die `cache_aware`-Policy für bessere Cache-Verwaltung. Beobachten Sie die Performance und passen Sie die Konfiguration bei Bedarf an.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post beleg
– Multi-GPU-Konfiguration: nicht im Post belegt

Question: DFLASH not supported in –speculative-algorithm #49 (5/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Der Nutzer versucht, den DFlash speculative decoding Algorithmus in SGLang zu verwenden, aber erhält eine Fehlermeldung, dass DFLASH nicht als gültige Option für `–speculative-algorithm` unterstützt wird. Er fragt, ob DFlash in einer bestimmten Version oder Branch unterstützt wird und ob es Workarounds gibt.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für Home-Setups ist die Unterstützung von DFlash wichtig, da es die Performance verbessern kann. Derzeit ist DFlash in der aktuellen Version nicht unterstützt, was eine Einschränkung darstellt. Es ist ratsam, auf zukünftige Updates zu warten oder alternative Algorithmen zu verwenden.

Konsequenz für OpenCode-Nutzer:
Die Verwendung von DFlash könnte die Latenz reduzieren, aber derzeit ist es nicht verfügbar. Nutzer sollten alternative Algorithmen wie EAGLE oder NEXTN verwenden.

Handlungsempfehlung:
Warten Sie auf zukünftige Updates, die DFlash unterstützen. Verwenden Sie derzeit alternative Algorithmen wie EAGLE oder NEXTN.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Using Prefill node idle cycles for Decoding in PD disaggregation? (6/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Der Nutzer diskutiert, wie man die idle-Zeiten von Prefill-Knoten in einem PD disaggregated Setup nutzen kann, um Decoding-Aufgaben zu übernehmen. Er stellt fest, dass die Decoding-Zeit länger ist als die Prefill-Zeit, was zu einer ineffizienten GPU-Nutzung führt.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für Home-Setups mit PD disaggregation kann die Nutzung der idle-Zeiten von Prefill-Knoten zur Decoding-Aufgaben die GPU-Nutzung optimieren. Dies kann die Gesamtleistung und die Latenz verbessern, insbesondere bei moderater Last.

Konsequenz für OpenCode-Nutzer:
Die Optimierung der GPU-Nutzung durch die Nutzung von idle-Zeiten kann die Latenz reduzieren und die Anzahl gleichzeitiger Anfragen erhöhen. Dies ist besonders relevant für Agent-Workloads.

Handlungsempfehlung:
Beobachten Sie die Entwicklung von PD disaggregation in SGLang. Experimentieren Sie mit der Nutzung von idle-Zeiten, um Decoding-Aufgaben zu übernehmen.

Enable Piecewise CUDA Graph with EP (7/10) — OpenCode-Fit: JA

Worum geht es konkret?
Der Nutzer diskutiert, wie man Piecewise CUDA Graph in Kombination mit Expert Parallelism (EP) verwenden kann, um die Performance von Modellen wie Qwen 3.5 zu verbessern. Er stellt fest, dass die Verwendung von Piecewise CUDA Graph für die Aufmerksamkeits-Teile die CPU-Overhead reduziert und die GPU-Nutzung optimiert.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für Home-Setups kann die Verwendung von Piecewise CUDA Graph in Kombination mit EP die Performance erheblich verbessern. Dies ist besonders relevant für Modelle mit gemischter Aufmerksamkeit, da es die CPU-Overhead reduziert und die GPU-Nutzung optimiert.

Konsequenz für OpenCode-Nutzer:
Die Verwendung von Piecewise CUDA Graph kann die Latenz reduzieren und die Anzahl gleichzeitiger Anfragen erhöhen. Dies ist besonders vorteilhaft für Agent-Workloads, die von einer besseren GPU-Nutzung profitieren.

Handlungsempfehlung:
Experimentieren Sie mit der Verwendung von Piecewise CUDA Graph in Kombination mit EP. Beobachten Sie die Performance und passen Sie die Konfiguration bei Bedarf an.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen 3.5
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: EP

Weitere Diskussionen (kurz):

– SGLang Inference 8*H200(1 HGX). QWEN-3.5-397B-A17B-FP8 — Enterprise — nicht autark-relevant
– Diskussion über die Optimierung von Qwen3.5-397B-A17B-FP8 auf einem HGX-Node mit 8 H200-GPUs. Relevante Benchmarks und Konfigurationen für Enterprise-Setups.

– Auto RDMA device injection for GPU containers on Kubernetes (no privileged mode needed) — Enterprise — nicht autark-relevant
– Diskussion über die Automatisierung der RDMA-Geräteinjektion in Kubernetes-Containern. Relevante für Enterprise-Setups mit InfiniBand/RoCE-Netzwerken.

– Are there plans to support OpenAI Realtime-API or other realtime API protocols? — Enterprise — nicht autark-relevant
– Diskussion über die Unterstützung von Realtime-API-Protokollen wie Websockets und GRPC. Relevante für Enterprise-Setups mit multimodalen Modellen.

– Starting to build a solution for FR – https://github.com/sgl-project/sglang/issues/13825 — Enterprise — nicht autark-relevant
– Diskussion über die Entwicklung eines Plugin-Systems für SGLang, um benutzerdefinierte Prozessoren in den Request/Response-Flow zu integrieren. Relevante für Enterprise-Setups mit erweiterten Anforderungen.

– The nvidia/GLM-5-NVFP4model with NVFP4 quantization cannot be launched using the SGLang engine. — Enterprise — nicht autark-relevant
– Diskussion über Probleme bei der Verwendung des GLM-5-NVFP4-Modells mit NVFP4-Quantisierung in SGLang. Relevante für Enterprise-Setups mit spezifischen Modellen.

– Clarification needed: What does `token usage` in Prefill/Decode batch logs actually represent? — Enterprise — nicht autark-relevant
– Diskussion über die Bedeutung von `token usage` in den Prefill/Decode-Batch-Logs. Relevante für Enterprise-Setups mit komplexen Modellen und Workloads.

👁 4 Aufrufe 👤 4 Leser