SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten

Kurzfassung: Die SGLang-Community diskutiert aktuell vor allem Themen rund um die Optimierung von Modellen für autarke, lokal betriebene Multi-GPU-Setups. Dominierende Themen sind die Kompatibilität von feinjustierten Modellen, die Optimierung von Durchsatz und Latenz, sowie die Unterstützung von spezifischen Architekturen und Quantisierungsmethoden. Für Nutzer, die ein 4x 3090 oder 2x 5090 Setup aufbauen wollen, sind insbesondere die Diskussionen zur Modell-Kompatibilität und zur Durchsatzoptimierung relevant, um ein Claude-Sonnet-ähnliches Coding-Erlebnis zu erzielen.

[Question about serving Qwen3.5 text-only SFT model saved as Qwen3_5ForCausalLM] (7/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die Diskussion dreht sich um das Servieren eines feinjustierten Qwen3.5-Modells mit SGLang. Der Nutzer hat das Modell mit `AutoModelForCausalLM` trainiert und gespeichert, aber beim Servieren tritt ein Fehler auf, da `Qwen3_5ForCausalLM` nicht als SGLang-Eintragsklasse registriert ist. Es wird diskutiert, ob es sicher ist, `Qwen3_5ForCausalLM` manuell zu registrieren oder ob die Konfiguration des Modells auf `Qwen3_5ForConditionalGeneration` zurückgesetzt werden sollte.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist diese Diskussion relevant, da sie direkt auf die Kompatibilität von feinjustierten Modellen mit SGLang eingeht. Nutzer mit Consumer-GPUs können von dieser Diskussion profitieren, um ihre feinjustierten Modelle erfolgreich zu deployen. Es ist jedoch wichtig, die vorgeschlagenen Workarounds sorgfältig zu prüfen, da sie möglicherweise nicht stabil sind.

Konsequenz für OpenCode-Nutzer:
OpenCode-Nutzer, die feinjustierte Qwen3.5-Modelle einsetzen möchten, sollten die Konfiguration ihres Modells auf `Qwen3_5ForConditionalGeneration` zurücksetzen, um Kompatibilitätsprobleme zu vermeiden. Dies kann die Stabilität und Performance des Agents verbessern.

Handlungsempfehlung:
„Konfiguration des Modells auf `Qwen3_5ForConditionalGeneration` zurücksetzen.“

Fakten-Tabelle:
– Hardware im Post: [nicht im Post belegt]
– Modell: Qwen3.5
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]

[How to prioritize decode batches over prefill in SGLang? (GLM-4.7 deployment)] (8/10) — OpenCode-Fit: JA

Zur Discussion

Worum geht es konkret?
Die Diskussion beschäftigt sich mit der Optimierung der Durchsatzperformance von GLM-4.7 auf H20-GPUs. Der Nutzer möchte, dass decode-Batches priorisiert werden, um die Latenz für laufende Anfragen zu reduzieren. Es werden verschiedene Parameter und Scheduling-Strategien diskutiert, um die Performance zu verbessern.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist diese Diskussion sehr relevant, da sie direkt auf die Optimierung der Durchsatzperformance eingeht. Nutzer mit 4x 3090 oder 2x 5090 können von den vorgeschlagenen Einstellungen profitieren, um die Latenz für laufende Anfragen zu minimieren. Dies ist besonders wichtig für Agent-Workloads, bei denen eine niedrige Latenz entscheidend ist.

Konsequenz für OpenCode-Nutzer:
OpenCode-Nutzer können durch die Anpassung der Scheduling-Parameter die Performance ihrer Agent-Workloads verbessern. Dies kann zu einer schnelleren Verarbeitung von Prompts und besseren Tool-Calling-Ergebnissen führen.

Handlungsempfehlung:
„Parameter wie `–chunked-prefill-size`, `–schedule-conservativeness`, und `–enable-mixed-chunk` anpassen, um decode-Batches zu priorisieren.“

Fakten-Tabelle:
– Hardware im Post: H20
– Modell: GLM-4.7
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: TP=8

[Does sglang really support run Qwen3.5-397B-A17B for processing Ultra-Long Texts(1M) ?] (6/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die Diskussion dreht sich um die Kompatibilität von SGLang mit dem Qwen3.5-397B-A17B-Modell für die Verarbeitung von Ultra-Langtexten (1M Tokens). Der Nutzer versucht, das Modell mit der `–json-model-override-args`-Option zu starten, aber es tritt ein Fehler auf, da die `text_config` überschrieben wird.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist diese Diskussion relevant, da sie direkt auf die Verarbeitung von Ultra-Langtexten eingeht. Nutzer mit 4x 3090 oder 2x 5090 können von dieser Diskussion profitieren, um ihre Modelle für lange Texte zu optimieren. Es ist jedoch wichtig, die vorgeschlagenen Workarounds sorgfältig zu prüfen, da sie möglicherweise nicht stabil sind.

Konsequenz für OpenCode-Nutzer:
OpenCode-Nutzer, die Ultra-Langtexte verarbeiten möchten, sollten die `–json-model-override-args`-Option sorgfältig anpassen, um Kompatibilitätsprobleme zu vermeiden. Dies kann die Stabilität und Performance des Agents verbessern.

Handlungsempfehlung:
„Workaround prüfen und ggf. die `text_config` manuell anpassen.“

Fakten-Tabelle:
– Hardware im Post: H20 144GB
– Modell: Qwen3.5-397B-A17B
– Framework-Version: sglang 0.5.12.post1
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]

[Addition of a not-strictly-block-diffusion model] (4/10) — OpenCode-Fit: NEIN

Zur Discussion

Worum geht es konkret?
Die Diskussion dreht sich um die mögliche Hinzufügung von nicht-streng-block-diffusion Modellen wie Fast-dLLM v1’s bidirectional LLaDA-8B / Dream-7B in SGLang. Der Nutzer fragt, ob diese Modelle in den Roadmap aufgenommen werden und ob jemand bereits daran arbeitet.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist diese Diskussion weniger relevant, da sie sich auf spezifische, noch nicht unterstützte Modelle konzentriert. Nutzer mit 4x 3090 oder 2x 5090 können diese Modelle derzeit nicht nutzen, da sie nicht in SGLang integriert sind.

Konsequenz für OpenCode-Nutzer:
OpenCode-Nutzer sollten diese Diskussion im Auge behalten, falls die Unterstützung dieser Modelle in der Zukunft hinzugefügt wird. Derzeit sind diese Modelle jedoch nicht relevant für die meisten autarken Setups.

Handlungsempfehlung:
„Diskussion beobachten, noch nicht stable.“

Fakten-Tabelle:
– Hardware im Post: [nicht im Post belegt]
– Modell: LLaDA-8B / Dream-7B
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]

[Small commercial app use of Boson v.3] (3/10) — OpenCode-Fit: NEIN

Zur Discussion

Worum geht es konkret?
Die Diskussion dreht sich um die kommerzielle Nutzung von Boson v.3 mp3-Output-Dateien in einer kleinen, unabhängigen App für den AppStore. Der Nutzer fragt, ob dies erlaubt ist oder ob eine Lizenz erforderlich ist.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist diese Diskussion irrelevant, da sie sich auf die kommerzielle Nutzung von Boson v.3 konzentriert. Nutzer mit 4x 3090 oder 2x 5090 können diese Diskussion ignorieren, da sie nicht direkt auf ihre Anwendungen zutrifft.

Konsequenz für OpenCode-Nutzer:
OpenCode-Nutzer können diese Diskussion ignorieren, da sie nicht relevant für die Nutzung von SGLang in einem autarken Setup ist.

Handlungsempfehlung:
„Enterprise — ignorieren.“

Fakten-Tabelle:
– Hardware im Post: [nicht im Post belegt]
– Modell: [nicht im Post belegt]
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]

[PeerCache — a decentralized P2P RDMA L3 backend for SGLang HiCache] (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)

Zur Discussion

Worum geht es konkret?
Die Diskussion stellt PeerCache vor, eine dezentrale P2P RDMA L3-Backend-Lösung für SGLang HiCache. PeerCache ermöglicht es, eine Cluster von SGLang-Instanzen über RDMA zu verbinden, um Prefix-KV-Cache direkt zwischen den Knoten zu teilen.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist diese Diskussion irrelevant, da sie sich auf die Verwendung von RDMA und Clustern konzentriert. Nutzer mit 4x 3090 oder 2x 5090 können diese Diskussion ignorieren, da sie nicht direkt auf ihre Anwendungen zutrifft.

Konsequenz für OpenCode-Nutzer:
OpenCode-Nutzer können diese Diskussion ignorieren, da sie nicht relevant für die Nutzung von SGLang in einem autarken Setup ist.

Handlungsempfehlung:
„Enterprise — ignorieren.“

Fakten-Tabelle:
– Hardware im Post: RDMA, H20
– Modell: [nicht im Post belegt]
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]

Weitere Diskussionen (kurz):

– Do Hopper support Deepseek V4 Flash run EP by deepep in the future?
– Einordnung: Enterprise — nicht autark-relevant. Diskutiert die Unterstützung von Deepseek V4 Flash auf Hopper-GPUs.

– deepep v2 support?
– Einordnung: Enterprise — nicht autark-relevant. Diskutiert die Unterstützung von DeepEP v2, das RDMA und NCCL GIN verwendet.

– [[Question][Diffusion][SD3.5] Question about SGLang-native support for remaining Diffusers modules for stable-diffusion-3](https://github.com/sgl-project/sglang/discussions/26282)
– Einordnung: Enterprise — nicht autark-relevant. Diskutiert die Unterstützung von Diffusers-Modulen für Stable Diffusion 3.5.

– [[RFC] IOChain: request/response filters for OpenAI-compatible serving](https://github.com/sgl-project/sglang/discussions/26222)
– Einordnung: Enterprise — nicht autark-relevant. Diskutiert die Implementierung von Request/Response-Filters für OpenAI-kompatibles Serving.

– CANN 9.0.0 support?
– Einordnung: Enterprise — nicht autark-relevant. Diskutiert die Unterstützung von CANN 9.0.0 auf Ascend-GPUs.

– Can thinking_budget work with MTP enabled?
– Einordnung: Enterprise — nicht autark-relevant. Diskutiert die Verwendung von `thinking_budget` mit MTP aktiviert.

– Ling 2.6 lightning/linear attention cache size not exposed in SGLang metrics/logs
– Einordnung: Enterprise — nicht autark-relevant. Diskutiert die Fehlende Berichterstattung über den Lightning/Linear-Attention-Cache in SGLang-Metriken.

👁 3 Aufrufe 👤 2 Leser