SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten

Kurzfassung

Die SGLang-Community diskutiert aktuell intensiv über die Optimierung von lokalen Inference-Setups, insbesondere für Agent-Workloads und strukturierte Ausgaben. Dominierende Themen sind die Verbesserung der Performance auf Consumer-GPUs, die Implementierung von Prefix-Caching und die Quantisierung für besseren VRAM-Verbrauch. Diese Entwicklungen sind besonders relevant für Nutzer, die ein autarkes Setup mit 4x 3090 oder 2x 5090 aufbauen möchten, um OpenCode auf einem ähnlichen Niveau wie Claude Sonnet zu betreiben.

[SGLang Inference 8*H200(1 HGX). QWEN-3.5-397B-A17B-FP8] (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)

Zur Discussion

Worum geht es konkret?
Der Nutzer führt Qwen3.5-397B-A17B-FP8 auf einem HGX-Node mit 8 H200-GPUs (141 GB VRAM, NVLink/NVSwitch) aus. Das Setup ist für agente Workloads optimiert, mit multi-turn Konversationen, Tool-Calling, RAG und strukturierten JSON-Ausgaben. Er bittet um Tipps zur Konfiguration, insbesondere zur Maximierung der Konkurrenz ohne Latenz zu erhöhen.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Dieses Thema ist nicht autark-relevant, da es sich um Enterprise-Hardware handelt. Die Konfiguration und die Benchmarks sind für Consumer-GPUs nicht anwendbar.

Konsequenz für OpenCode-Nutzer:
Keine direkten Vorteile für Nutzer mit Consumer-GPUs. Die Diskussion bietet keine praktischen Anleitungen für autarke Setups.

Handlungsempfehlung:
Enterprise — ignorieren.

Fakten-Tabelle:
– Hardware im Post: 8× H200 141GB, NVLink/NVSwitch
– Modell: Qwen3.5-397B-A17B-FP8
– Framework-Version: SGLang 0.5.9
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=8

[[Help] sglang Docker hangs with 100% CPU & GPU Util on dual Blackwell GPUs. What’s the best way to install?] (7/10) — OpenCode-Fit: JA

Zur Discussion

Worum geht es konkret?
Ein Anfänger versucht, SGLang lokal auf einem System mit zwei Blackwell-GPUs zu betreiben, aber der Docker-Container hängt und verbraucht 100% CPU- und GPU-Leistung. Er bittet um Hilfe zur Installation und Konfiguration.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Diskussion ist sehr relevant, da sie Probleme bei der lokalen Installation und Konfiguration anspricht. Nutzer mit Consumer-GPUs können ähnliche Probleme haben und von den Lösungen profitieren.

Konsequenz für OpenCode-Nutzer:
Die Diskussion bietet praktische Tipps zur erfolgreichen Installation und Konfiguration von SGLang auf Consumer-GPUs. Es wird empfohlen, die Docker-Installation zu bevorzugen und die CUDA-Toolbox lokal zu installieren, um Leistungsprobleme zu vermeiden.

Handlungsempfehlung:
CUDA-Toolbox lokal installieren und Docker-Setup verwenden. Bei Problemen die Diskussion befolgen und die vorgeschlagenen Parameter anpassen.

Fakten-Tabelle:
– Hardware im Post: 2 x 24G (Blackwell)
– Modell: Qwen3.5-27b-fp8
– Framework-Version: SGLang nightly-dev-20260416-a4cf2ea1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=2

[Dflash working launch parameters] (8/10) — OpenCode-Fit: JA

Zur Discussion

Worum geht es konkret?
Ein Nutzer versucht, den Dflash speculative decoding Algorithmus auf zwei RTX 3090-GPUs zu verwenden, aber es kommt zu Out-of-Memory (OOM) Fehlern. Er bittet um Hilfe zur Konfiguration und mögliche Workarounds.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Diskussion ist sehr relevant, da sie Lösungen für OOM-Probleme auf Consumer-GPUs anbietet. Die Konfiguration und die Parameter können direkt auf autarke Setups übertragen werden.

Konsequenz für OpenCode-Nutzer:
Die Diskussion bietet praktische Anleitungen zur Verwendung des Dflash Algorithmus auf Consumer-GPUs. Die Reduzierung des Kontext-Längen und die Anpassung der Speicher-Parameter können die Performance verbessern und OOM-Fehler vermeiden.

Handlungsempfehlung:
Die vorgeschlagenen Parameter anpassen und die Kontext-Länge reduzieren. Bei weiteren Problemen die Diskussion befolgen und die Community um Hilfe bitten.

Fakten-Tabelle:
– Hardware im Post: 2 x 24GB (RTX 3090)
– Modell: Qwen3.5-27B-GPTQ-Int4
– Framework-Version: SGLang 0.5.6.post2
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=2

[High TTFT and Throughput Drop in gRPC Mode Under High Concurrency (vs HTTP Mode)] (6/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Ein Nutzer beobachtet eine signifikante Leistungsabnahme des gRPC Routers unter hohem Last. Er vergleicht die Performance des gRPC Routers mit dem HTTP Router und stellt fest, dass die Cache-Hit-Rate bei gRPC höher ist, aber die durchschnittliche Performance unter Last sinkt.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Diskussion ist bedingt relevant, da sie Leistungsprobleme bei hohem Last anspricht. Für autarke Setups mit moderater Last sind die Erkenntnisse weniger kritisch, aber es gibt Hinweise darauf, dass HTTP-Router unter bestimmten Bedingungen stabiler sein können.

Konsequenz für OpenCode-Nutzer:
Die Diskussion zeigt, dass der HTTP-Router unter hohem Last stabiler sein kann. Nutzer sollten die Router-Konfiguration anpassen und bei Leistungsproblemen auf HTTP umstellen.

Handlungsempfehlung:
HTTP-Router verwenden und die Konfiguration anpassen. Bei Leistungsproblemen die Diskussion befolgen und die Community um Hilfe bitten.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen3-4B
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: 4 x 1P1D

[Inquiry regarding Tokenizer requirement for SGLang Model Gateway with cache_aware policy] (5/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Ein Nutzer fragt, ob der SGLang Model Gateway (Router) mit der cache_aware Policy einen Tokenizer benötigt. Er stellt fest, dass der Tokenizer in den offiziellen Beispielen nicht enthalten ist und möchte verstehen, wie der Router den Cache-Zustand wahrnimmt.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Diskussion ist bedingt relevant, da sie die Konfiguration des Routers anspricht. Für autarke Setups ist es wichtig zu verstehen, wie der Router den Cache-Zustand verarbeitet, um die Performance zu optimieren.

Konsequenz für OpenCode-Nutzer:
Die Diskussion zeigt, dass der Router ohne Tokenizer funktionieren kann, aber die Cache-Verwaltung möglicherweise weniger effizient ist. Nutzer sollten die Konfiguration anpassen und bei Leistungsproblemen den Tokenizer hinzufügen.

Handlungsempfehlung:
Tokenizer in die Router-Konfiguration einbinden und die Performance überwachen. Bei Problemen die Diskussion befolgen und die Community um Hilfe bitten.

[Question: DFLASH not supported in –speculative-algorithm #49] (7/10) — OpenCode-Fit: JA

Zur Discussion

Worum geht es konkret?
Ein Nutzer versucht, den DFlash speculative decoding Algorithmus in SGLang zu verwenden, aber erhält einen Fehler, da DFLASH nicht als gültige Option für –speculative-algorithm unterstützt wird. Er bittet um Informationen zu unterstützten Versionen oder Workarounds.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Diskussion ist sehr relevant, da sie Lösungen für die Verwendung des DFlash Algorithmus auf Consumer-GPUs anbietet. Die Unterstützung von DFLASH kann die Performance erheblich verbessern.

Konsequenz für OpenCode-Nutzer:
Die Diskussion zeigt, dass DFLASH derzeit nicht unterstützt wird, aber es gibt Workarounds und alternative Algorithmen, die verwendet werden können. Nutzer sollten die neuesten Versionen von SGLang überprüfen und die Community um Hilfe bitten.

Handlungsempfehlung:
Auf die neueste Version von SGLang updaten und alternative Algorithmen wie EAGLE oder NEXTN verwenden. Bei Problemen die Diskussion befolgen und die Community um Hilfe bitten.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

[Using Prefill node idle cycles for Decoding in PD disaggregation?] (6/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Ein Nutzer diskutiert, ob es möglich ist, die leeren Zeiten von Prefill-Knoten in einer PD-disaggregierten Konfiguration für das Decoding zu nutzen. Er stellt fest, dass das Decoding länger dauert als das Prefill und bittet um Lösungen, um die Leistung zu optimieren.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Diskussion ist bedingt relevant, da sie die Optimierung der GPU-Nutzung anspricht. Für autarke Setups mit moderater Last können die Vorschläge hilfreich sein, um die GPU-Nutzung zu maximieren.

Konsequenz für OpenCode-Nutzer:
Die Diskussion zeigt, dass die Nutzung von leeren Zeiten für das Decoding die Performance verbessern kann. Nutzer sollten die Konfiguration anpassen und die GPU-Nutzung überwachen.

Handlungsempfehlung:
Die GPU-Nutzung überwachen und die Konfiguration anpassen, um leere Zeiten zu nutzen. Bei Problemen die Diskussion befolgen und die Community um Hilfe bitten.

Weitere Diskussionen (kurz):

– SGLang Inference 8*H200(1 HGX). QWEN-3.5-397B-A17B-FP8: Enterprise — nicht autark-relevant.
– Why similar CPU memory leak fixes were split across multiple PRs, and how you pinpoint leaks down to specific lines?: Enterprise — nicht autark-relevant.
– Enable Piecewise CUDA Graph with EP: Enterprise — nicht autark-relevant.
– sglang is listed on Shypd — AI Tool Directory: Relevante Ankündigung, aber keine technischen Details.
– Are there plans to support OpenAI Realtime-API or other realtime API protocols?: Relevante Diskussion über Streaming-Protokolle, aber aktuell keine konkreten Pläne.
– Starting to build a solution for FR – https://github.com/sgl-project/sglang/issues/13825: Relevante Diskussion über Plugin-System, aber aktuell in der Entwicklungsphase.
– how to quant fp16 to fp8?: Relevante Diskussion über Quantisierung, aber spezifisch für bestimmte Modelle.
– The nvidia/GLM-5-NVFP4model with NVFP4 quantization cannot be launched using the SGLang engine.: Relevante Diskussion über Modell-Unterstützung, aber spezifisch für NVFP4-Quantisierung.

👁 3 Aufrufe 👤 3 Leser