SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten

Kurzfassung: Die SGLang-Community diskutiert aktuell intensiv über Themen wie die Optimierung von Modellen für long-context-Szenarien, die Unterstützung von spezifischen Modellen und Quantisierungstechniken, sowie die Verbesserung der Performance bei Multi-GPU-Setups. Die Top-Discussions drehen sich um die Priorisierung von Decode-Batches, die Unterstützung von Qwen3.5-Modellen, und die Implementierung von PeerCache für verteilte Caching. Diese Themen sind besonders relevant für Nutzer, die ein autarkes Setup mit 4x 3090 oder 2x 5090-GPUs betreiben und eine hohe Performance für Coding-Agenten wie OpenCode erzielen möchten.

Addition of a not-strictly-block-diffusion model (6/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Die Diskussion dreht sich um die mögliche Hinzufügung von nicht-streng-block-diffusion Modellen wie Fast-dLLM v1 in das dLLM-Framework. Diese Modelle verwenden bidirectional LLaDA-8B / Dream-7B mit approximate-KV-cache und confidence-based decoding thresholding, quantisiert mit gptq_marlin. Der Fragesteller möchte wissen, ob diese Modelle im Roadmap sind und ob jemand daran arbeitet.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Hinzufügung solcher Modelle könnte die Performance von Coding-Agenten verbessern, insbesondere bei long-context-Szenarien. Für ein autarkes Home-Setup mit Consumer-GPUs ist dies relevant, da es die Effizienz und den VRAM-Verbrauch optimieren könnte. Allerdings hängt die Umsetzung stark von der Unterstützung durch die SGLang-Entwickler ab.

Konsequenz für OpenCode-Nutzer:
Die Unterstützung dieser Modelle könnte zu schnelleren und effizienteren Prompt-Processings führen, insbesondere bei der Verwendung von Quantisierungstechniken. Nutzer sollten die Diskussion verfolgen, um über Fortschritte informiert zu sein.

Handlungsempfehlung:
Auf PR warten und die Diskussion verfolgen.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Fast-dLLM v1, bidirectional LLaDA-8B / Dream-7B
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

How to prioritize decode batches over prefill in SGLang? (GLM-4.7 deployment) (8/10) — OpenCode-Fit: JA

Worum geht es konkret?
Der Fragesteller optimiert die Deployment des GLM-4.7-Modells auf H20-GPUs und sucht nach Möglichkeiten, die Priorisierung von Decode-Batches über Prefill zu verbessern. Das Ziel ist es, die Throughput-Performance für long-context-Anfragen zu steigern, insbesondere bei gleichzeitigen Anfragen.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Optimierung ist auch für autarke Home-Setups relevant, da sie die Performance bei der Verarbeitung von langen Texten und gleichzeitigen Anfragen verbessern kann. Die Einstellungen wie `–chunked-prefill-size` und `–enable-mixed-chunk` können auf Consumer-GPUs angewendet werden, um die Decode-Performance zu steigern.

Konsequenz für OpenCode-Nutzer:
Die Optimierung der Decode-Priorisierung kann zu schnelleren und reibungsloseren Interaktionen mit Coding-Agenten führen, insbesondere bei der Verarbeitung von langen Code-Snippets oder komplexen Anfragen.

Handlungsempfehlung:
Die vorgeschlagenen Parameter in der Diskussion ausprobieren und die Performance im eigenen Setup überprüfen.

Fakten-Tabelle:
– Hardware im Post: H20
– Modell: GLM-4.7
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=8

Question about serving Qwen3.5 text-only SFT model saved as Qwen3_5ForCausalLM (7/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Der Fragesteller hat Probleme beim Servieren eines feinjustierten Qwen3.5-Modells mit SGLang. Das Modell wurde mit `AutoModelForCausalLM` trainiert und gespeichert, aber SGLang erkennt die Architektur `Qwen3_5ForCausalLM` nicht. Es wird diskutiert, ob es sicher ist, die Architektur manuell zu ändern oder ob es andere Workarounds gibt.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Möglichkeit, feinjustierte Modelle zu verwenden, ist für autarke Home-Setups wichtig, da es die Anpassung an spezifische Anwendungsfälle ermöglicht. Die Lösung des Problems könnte die Verwendung von Qwen3.5-Modellen in lokalen Setup vereinfachen.

Konsequenz für OpenCode-Nutzer:
Die erfolgreiche Servierung von feinjustierten Modellen kann die Performance und die Anpassungsfähigkeit von Coding-Agenten verbessern. Nutzer sollten die Diskussion verfolgen und eventuelle Workarounds anwenden.

Handlungsempfehlung:
Die Diskussion verfolgen und eventuelle Workarounds anwenden, wie z.B. die manuelle Änderung der Architektur im `config.json`.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen3.5
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Small commercial app use of Boson v.3 (3/10) — OpenCode-Fit: NEIN

Worum geht es konkret?
Der Fragesteller möchte wissen, ob es erlaubt ist, Boson v.3-Ausgabedateien in einer kommerziellen App wie einer SwiftUI-App für den AppStore zu verwenden. Es wird diskutiert, ob eine Lizenz erforderlich ist.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist eher relevant für Entwickler, die kommerzielle Anwendungen erstellen. Für autarke Home-Setups, die primär auf der lokalen Verarbeitung von Modellen und Coding-Agenten fokussiert sind, ist dies weniger relevant.

Konsequenz für OpenCode-Nutzer:
Keine direkte Auswirkung auf die Verwendung von Coding-Agenten in autarken Home-Setups.

Handlungsempfehlung:
Diese Diskussion ignorieren, da sie für autarke Home-Setups irrelevant ist.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Boson v.3
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

PeerCache — a decentralized P2P RDMA L3 backend for SGLang HiCache (4/10) — OpenCode-Fit: NEIN

Worum geht es konkret?
Die Diskussion stellt PeerCache vor, eine dezentrale P2P RDMA L3-Backend-Lösung für SGLang HiCache. PeerCache ermöglicht es, einen Cluster von SGLang-Instanzen über RDMA zu vernetzen, um Prefix-KV-Cache direkt zwischen den Knoten zu teilen.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Lösung ist eher für Enterprise-Setups mit mehreren Knoten und RDMA-Unterstützung gedacht. Für autarke Home-Setups mit wenigen GPUs und ohne RDMA-Infrastruktur ist dies nicht relevant.

Konsequenz für OpenCode-Nutzer:
Keine direkte Auswirkung auf die Verwendung von Coding-Agenten in autarken Home-Setups.

Handlungsempfehlung:
Diese Diskussion ignorieren, da sie für autarke Home-Setups irrelevant ist.

Fakten-Tabelle:
– Hardware im Post: RDMA-fähige Hardware
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Does sglang really support run Qwen3.5-397B-A17B for processing Ultra-Long Texts(1M) ? (7/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Der Fragesteller hat Probleme beim Betrieb des Qwen3.5-397B-A17B-Modells mit einer Kontextlänge von 1M auf H20-GPUs. Es wird diskutiert, ob die angegebene Konfiguration korrekt ist und ob es bekannte Fehler gibt.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Unterstützung von Modellen mit sehr langen Kontexten ist für autarke Home-Setups relevant, da es die Anwendungsfähigkeit für komplexe Coding-Agenten verbessert. Die Lösung des Problems könnte die Verwendung solcher Modelle in lokalen Setups vereinfachen.

Konsequenz für OpenCode-Nutzer:
Die erfolgreiche Verwendung von Qwen3.5-397B-A17B mit langen Kontexten kann die Performance und die Anpassungsfähigkeit von Coding-Agenten verbessern. Nutzer sollten die Diskussion verfolgen und eventuelle Workarounds anwenden.

Handlungsempfehlung:
Die Diskussion verfolgen und eventuelle Workarounds anwenden, wie z.B. die Anpassung der `–json-model-override-args`.

Fakten-Tabelle:
– Hardware im Post: H20
– Modell: Qwen3.5-397B-A17B
– Framework-Version: sglang 0.5.12.post1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Weitere Diskussionen (kurz):

– Do Hopper support Deepseek V4 Flash run EP by deepep in the future? (2/10) — OpenCode-Fit: ENTERPRISE (fuer uns irrelevant)
– Diskussion über die Unterstützung von DeepSeek V4 Flash auf Hopper-GPUs. Relevante für Enterprise-Setups, aber nicht für autarke Home-Setups.

– deepep v2 support? (2/10) — OpenCode-Fit: ENTERPRISE (fuer uns irrelevant)
– Diskussion über die Unterstützung von DeepEP v2, das RDMA-Kommunikation und TMA für Datenbewegung verwendet. Relevante für Enterprise-Setups, aber nicht für autarke Home-Setups.

– [[Question][Diffusion][SD3.5] Question about SGLang-native support for remaining Diffusers modules for stable-diffusion-3](https://github.com/sgl-project/sglang/discussions/26282) (4/10) — OpenCode-Fit: BEDINGT
– Diskussion über die Unterstützung von Diffusers-Modulen für Stable Diffusion 3.5. Relevant für die Verwendung von Diffusion-Modellen, aber weniger für Coding-Agenten.

– [[RFC] IOChain: request/response filters for OpenAI-compatible serving](https://github.com/sgl-project/sglang/discussions/26222) (4/10) — OpenCode-Fit: BEDINGT
– Diskussion über die Implementierung von IOChain, einem Filter-System für Anfrage/Antwort-Zyklen. Relevant für die Erweiterbarkeit von SGLang, aber weniger für autarke Home-Setups.

– CANN 9.0.0 support? (3/10) — OpenCode-Fit: NEIN
– Diskussion über die Unterstützung von CANN 9.0.0. Relevant für spezifische Hardware-Setups, aber nicht für autarke Home-Setups.

– Can thinking_budget work with MTP enabled? (3/10) — OpenCode-Fit: NEIN
– Diskussion über die Verwendung von `thinking_budget` mit MTP. Relevant für spezifische Anwendungsfälle, aber weniger für autarke Home-Setups.

– Ling 2.6 lightning/linear attention cache size not exposed in SGLang metrics/logs (5/10) — OpenCode-Fit: BEDINGT
– Diskussion über die Berücksichtigung des Lightning/Linear-Attention-Caches in den SGLang-Metriken. Relevant für die Performance-Optimierung, aber weniger für autarke Home-Setups.

👁 3 Aufrufe 👤 3 Leser