SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten
Kurzfassung
Die SGLang-Community diskutiert aktuell vor allem Themen rund um die Optimierung von Modell-Inferenz, insbesondere für long-context Szenarien und Agent-Workloads. Dominierende Themen sind die Priorisierung von Decode-Batches, die Verbesserung der Throughput-Qualität bei gleichzeitigen Anfragen und die Unterstützung von spezifischen Modellen wie Qwen3.5 und DeepSeek. Diese Entwicklungen sind besonders relevant für Nutzer, die ein autarkes Setup mit 4x 3090 oder 2x 5090 aufbauen möchten, um Claude-Sonnet-Niveau zu erreichen.
How to prioritize decode batches over prefill in SGLang? (GLM-4.7 deployment) (8/10) — OpenCode-Fit: JA
Worum geht es konkret?
Die Diskussion dreht sich um die Optimierung der Throughput-Qualität bei der Bereitstellung des GLM-4.7-Modells mit SGLang. Der Nutzer beschreibt, dass bei gleichzeitigen Anfragen das Prefill die meisten Ressourcen beansprucht und die Decode-Throughput-Qualität leidet. Er sucht nach Konfigurationsoptionen, um Decode-Batches priorisiert zu behandeln und die Latenz für laufende Anfragen zu reduzieren.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Optimierung ist auch für Consumer-GPUs relevant, da sie die Performance bei gleichzeitigen Anfragen verbessert. Die Parameter `–chunked-prefill-size` und `–enable-mixed-chunk` können auf 4x 3090 oder 2x 5090 angewendet werden, um die Decode-Throughput-Qualität zu steigern. Threadripper oder Epyc Workstations können ebenfalls von diesen Optimierungen profitieren.
Konsequenz für OpenCode-Nutzer:
Die Priorisierung von Decode-Batches kann die Latenz für laufende Anfragen reduzieren und die allgemeine Responsivität des Coding-Agents verbessern. Nutzer sollten die Konfigurationsoptionen testen, um die besten Ergebnisse zu erzielen.
Handlungsempfehlung:
Konfigurationsoptionen wie `–chunked-prefill-size` und `–enable-mixed-chunk` anwenden und die Performance im eigenen Setup testen.
Fakten-Tabelle:
– Hardware im Post: H20
– Modell: GLM-4.7
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=8
Severe image quality discrepancy between singleton and dynamic batched requests with identical seed, steps and size (6/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Der Nutzer berichtet über eine auffällige Diskrepanz in der Bildqualität zwischen Singleton- und Batch-Anfragen bei der Verwendung von SGLang. Trotz identischer Parameter wie Seed, Anzahl der Schritte und Größe der Bilder, unterscheiden sich die generierten Bilder erheblich. Die Dokumentation erwähnt, dass Singleton- und Batch-Generierung nicht bit-exakt sein müssen, aber der Nutzer erwartet, dass die visuelle Inhalts- und Kompositionsgleichheit erhalten bleibt.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskrepanz kann auch bei Consumer-GPUs auftreten und die Qualität der generierten Bilder beeinträchtigen. Nutzer sollten die Batch-Größe und -Modus testen, um die beste Bildqualität zu erzielen. Threadripper oder Epyc Workstations können ebenfalls von diesen Tests profitieren.
Konsequenz für OpenCode-Nutzer:
Die Diskrepanz kann die Qualität der generierten Bilder beeinträchtigen. Nutzer sollten die Batch-Größe und -Modus anpassen, um die besten Ergebnisse zu erzielen.
Handlungsempfehlung:
Batch-Größe und -Modus testen und die generierten Bilder vergleichen, um die beste Bildqualität zu finden.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
Is there a example about deepseek-v4-pro pd disaggregation? (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)
Worum geht es konkret?
Der Nutzer fragt nach einem Beispiel für die pd-disaggregation von DeepSeek V4 Pro. Er beschreibt, dass er Probleme bei der Bereitstellung auf mehreren Knoten mit RDMA und InfiniBand hat. Die Konfiguration umfasst verschiedene Parameter wie `–disaggregation-mode`, `–disaggregation-transfer-backend` und `–disaggregation-ib-device`.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist nicht autark-relevant, da sie auf Enterprise-Hardware wie H100 und RDMA-InfiniBand fokussiert ist. Consumer-GPUs und -Boards können von diesen Konfigurationen nicht profitieren.
Konsequenz für OpenCode-Nutzer:
Diese Diskussion hat keinen direkten Einfluss auf die Performance oder die Funktionalität von OpenCode auf Consumer-GPUs.
Handlungsempfehlung:
Diese Diskussion ignorieren, da sie für autarke Home-Setups irrelevant ist.
Fakten-Tabelle:
– Hardware im Post: H100, RDMA, InfiniBand
– Modell: DeepSeek V4 Pro
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=16, NN=2
[[Diffusion] Is there support for /metrics endpoint in SGLang Diffusion (Qwen-Image)](https://github.com/sgl-project/sglang/discussions/18576) (4/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Der Nutzer stellt fest, dass der `/metrics`-Endpoint bei der Verwendung von SGLang für Diffusion-Modelle wie Qwen-Image-2512 nicht unterstützt wird, obwohl die Option `–enable-metrics` aktiviert ist. Er fragt, ob es geplante Roadmaps gibt, um Prometheus-Metriken für die Diffusion-Runtime zu implementieren.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Unterstützung von Metriken ist auch für autarke Home-Setups relevant, da sie die Überwachung und Optimierung der Performance erleichtert. Nutzer sollten die aktuelle Unterstützung von Metriken überprüfen und auf zukünftige Updates achten.
Konsequenz für OpenCode-Nutzer:
Die Fehlende Unterstützung von Metriken kann die Überwachung und Optimierung der Performance erschweren. Nutzer sollten auf zukünftige Updates achten, die Metriken unterstützen.
Handlungsempfehlung:
Auf zukünftige Updates achten, die Metriken für die Diffusion-Runtime unterstützen.
Fakten-Tabelle:
– Hardware im Post: NVIDIA H100 (80GB)
– Modell: Qwen-Image-2512
– Framework-Version: lmsysorg/sglang:nightly-dev-20260209-bf89cc38
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=1
Question about serving Qwen3.5 text-only SFT model saved as Qwen3_5ForCausalLM (7/10) — OpenCode-Fit: JA
Worum geht es konkret?
Der Nutzer fragt, warum das Servieren eines feinjustierten Qwen3.5-Modells mit SGLang fehlschlägt, obwohl das Modell als `Qwen3_5ForCausalLM` gespeichert wurde. Er stellt fest, dass `Qwen3_5ForCausalLM` in SGLang nicht als Eingangsklasse registriert ist, während `Qwen3_5ForConditionalGeneration` unterstützt wird.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist relevant, da sie die Kompatibilität von feinjustierten Modellen mit SGLang betrifft. Nutzer sollten die Architektur des gespeicherten Modells überprüfen und gegebenenfalls auf `Qwen3_5ForConditionalGeneration` zurückstellen, um Kompatibilitätsprobleme zu vermeiden.
Konsequenz für OpenCode-Nutzer:
Die Architektur des gespeicherten Modells kann die Kompatibilität mit SGLang beeinflussen. Nutzer sollten die Architektur überprüfen und gegebenenfalls anpassen.
Handlungsempfehlung:
Die Architektur des gespeicherten Modells auf `Qwen3_5ForConditionalGeneration` zurückstellen oder `Qwen3_5ForCausalLM` manuell als Eingangsklasse in SGLang registrieren.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen3.5
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
Addition of a not-strictly-block-diffusion model (5/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Der Nutzer fragt, ob die Unterstützung von nicht-streng block-diffusion Modellen wie Fast-dLLM v1 in SGLang geplant ist. Er erwähnt spezifische Features wie approximate-KV-Cache und confidence-based decoding thresholding mit gptq_marlin Quantisierung.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Unterstützung von nicht-streng block-diffusion Modellen kann die Performance und die Funktionalität von autarken Home-Setups verbessern. Nutzer sollten auf zukünftige Updates achten, die diese Modelle unterstützen.
Konsequenz für OpenCode-Nutzer:
Die Unterstützung von nicht-streng block-diffusion Modellen kann die Performance und die Funktionalität von OpenCode verbessern. Nutzer sollten auf zukünftige Updates achten.
Handlungsempfehlung:
Auf zukünftige Updates achten, die nicht-streng block-diffusion Modelle unterstützen.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Fast-dLLM v1, LLaDA-8B, Dream-7B
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
Small commercial app use of Boson v.3 (3/10) — OpenCode-Fit: NEIN
Worum geht es konkret?
Der Nutzer fragt, ob die Verwendung von Boson v.3 MP3-Dateien in einer kommerziellen App wie einer SwiftUI-App für den AppStore zulässig ist. Er möchte wissen, ob eine Lizenz erforderlich ist.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist nicht direkt relevant für autarke Home-Setups, da sie sich auf die kommerzielle Nutzung von Boson v.3 konzentriert. Consumer-GPUs und -Boards sind nicht betroffen.
Konsequenz für OpenCode-Nutzer:
Diese Diskussion hat keinen direkten Einfluss auf die Nutzung von OpenCode auf Consumer-GPUs.
Handlungsempfehlung:
Diese Diskussion ignorieren, da sie für autarke Home-Setups irrelevant ist.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Boson v.3
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
PeerCache — a decentralized P2P RDMA L3 backend for SGLang HiCache (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)
Worum geht es konkret?
Die Diskussion stellt PeerCache vor, eine dezentrale P2P RDMA L3-Backend für SGLang HiCache. PeerCache ermöglicht es, eine Cluster von SGLang-Instanzen über RDMA zu verbinden, ohne zentrale Cache-Server oder Metadaten-Master zu benötigen.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist nicht autark-relevant, da sie auf Enterprise-Hardware wie RDMA und InfiniBand fokussiert ist. Consumer-GPUs und -Boards können von diesen Konfigurationen nicht profitieren.
Konsequenz für OpenCode-Nutzer:
Diese Diskussion hat keinen direkten Einfluss auf die Performance oder die Funktionalität von OpenCode auf Consumer-GPUs.
Handlungsempfehlung:
Diese Diskussion ignorieren, da sie für autarke Home-Setups irrelevant ist.
Fakten-Tabelle:
– Hardware im Post: RDMA, InfiniBand
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
Does sglang really support run Qwen3.5-397B-A17B for processing Ultra-Long Texts(1M) ? (6/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Der Nutzer fragt, ob SGLang das Qwen3.5-397B-A17B-Modell mit einer Kontextlänge von 1M tatsächlich unterstützt. Er beschreibt, dass er beim Versuch, das Modell auf H20 mit 144GB VRAM zu starten, einen Fehler erhält, der auf eine fehlerhafte Konfiguration der `text_config` hindeutet.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Unterstützung von Ultra-Long Texts ist auch für autarke Home-Setups relevant, da sie die Verarbeitung langer Texte ermöglicht. Nutzer sollten die Konfiguration der `text_config` überprüfen und gegebenenfalls anpassen, um Fehler zu vermeiden.
Konsequenz für OpenCode-Nutzer:
Die Unterstützung von Ultra-Long Texts kann die Funktionalität von OpenCode erweitern. Nutzer sollten die Konfiguration der `text_config` überprüfen und gegebenenfalls anpassen.
Handlungsempfehlung:
Die Konfiguration der `text_config` überprüfen und gegebenenfalls anpassen, um Fehler zu vermeiden.
Fakten-Tabelle:
– Hardware im Post: H20 (144GB)
– Modell: Qwen3.5-397B-A17B
– Framework-Version: sglang 0.5.12.post1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
Weitere Diskussionen (kurz):
– Do Hopper support Deepseek V4 Flash run EP by deepep in the future? — Enterprise — nicht autark-relevant
– deepep v2 support? — Enterprise — nicht autark-relevant
– [[Question][Diffusion][SD3.5] Question about S