SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten

Kurzfassung

Die SGLang-Community diskutiert aktuell vor allem Themen rund um die Optimierung von lokalen Multi-GPU-Setups, insbesondere für Agent-Workloads und strukturierte Ausgaben. Zwei zentrale Themen sind die Unterstützung von Qwen3.5-397B-A17B für Ultra-Long-Texts und die Implementierung von DDTree für eine weitere Beschleunigung von DFlash. Diese Entwicklungen sind besonders relevant für Nutzer, die ein autarkes Setup mit 4x 3090 oder 2x 5090 aufbauen möchten, um nahe an Claude-Sonnet-Niveau zu kommen.

[Dflash working launch parameters] (6/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Ein Nutzer versucht, den DFlash speculative decoding Algorithmus mit zwei NVIDIA RTX 3090 GPUs und dem quantisierten Qwen3.5-27B-Modell zu verwenden, aber es kommt immer zu einem Out-of-Memory (OOM) Fehler. Der Nutzer fragt nach möglichen Einstellungen oder Parametern, die das Problem lösen könnten.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Das Problem des OOM-Fehlers ist bei Consumer-GPUs wie den RTX 3090 häufig. Die aktuelle Version von SGLang (0.5.6.post2) hat Schwierigkeiten, das Modell mit den angegebenen Parametern zu laden. Es könnte hilfreich sein, die VRAM-Verwendung zu reduzieren, indem man die `–mem-fraction-static`-Einstellung anpasst oder die Kontextlänge weiter reduziert. Eine Alternative wäre, das Modell auf eine GPU mit mehr VRAM zu laden, wie die RTX 5090.

Konsequenz fuer OpenCode-Nutzer:
Die Verwendung von DFlash könnte die Performance des Coding-Agents verbessern, aber die aktuelle Implementierung ist noch nicht optimal für Consumer-GPUs. Nutzer sollten die Einstellungen experimentell anpassen und auf Updates warten, die die VRAM-Verwendung optimieren.

Handlungsempfehlung:
Versuche, die `–mem-fraction-static`-Einstellung auf 0.7 oder niedriger zu setzen und die Kontextlänge weiter zu reduzieren. Beobachte die Entwicklung und warte auf mögliche Optimierungen in zukünftigen Versionen von SGLang.

Fakten-Tabelle:
– Hardware im Post: 2x RTX 3090
– Modell: Qwen3.5-27B-GPTQ-Int4
– Framework-Version: 0.5.6.post2
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=2

[Support DDTree (Diffusion Draft Tree) to further accelerate DFlash] (8/10) — OpenCode-Fit: JA

Zur Discussion

Worum geht es konkret?
Ein Nutzer schlägt vor, DDTree (Diffusion Draft Tree) zu implementieren, um die Performance von DFlash weiter zu verbessern. DDTree konstruiert einen Baum von möglichen Fortsetzungen und verifiziert sie in einem einzigen Vorwärtsdurchlauf, was zu einer zusätzlichen Beschleunigung von bis zu 2.13x führen kann.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
DDTree könnte die Performance von DFlash auf Consumer-GPUs erheblich steigern, insbesondere bei Modellen mit großer Kontextlänge. Die Implementierung von DDTree würde die Effizienz des speculative decoding verbessern und die VRAM-Verwendung optimieren, was für Home-Setups mit begrenztem VRAM besonders vorteilhaft ist.

Konsequenz fuer OpenCode-Nutzer:
Die Implementierung von DDTree könnte die Geschwindigkeit des Coding-Agents erheblich steigern, insbesondere bei komplexen Aufgaben mit langen Kontexten. Dies würde die Benutzererfahrung verbessern und die Reaktionszeit reduzieren.

Handlungsempfehlung:
Beobachte die Entwicklung von DDTree in SGLang und teste die neue Implementierung, sobald sie verfügbar ist. Es ist ratsam, die Performance vor und nach der Implementierung zu vergleichen, um die tatsächlichen Vorteile zu quantifizieren.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen3-30B-MoE
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: 8.22x Speedup (relativ zu autoregressive decoding)
– Multi-GPU-Konfiguration: nicht im Post belegt

[Does sglang really support run Qwen3.5-397B-A17B for processing Ultra-Long Texts(1M) ?] (7/10) — OpenCode-Fit: JA

Zur Discussion

Worum geht es konkret?
Ein Nutzer versucht, das Qwen3.5-397B-A17B-Modell mit einer Kontextlänge von 1M auf einer H20 GPU zu laufen, aber er stößt auf einen AssertionError. Der Nutzer fragt, ob das Modell tatsächlich mit SGLang unterstützt wird und wie man das Problem lösen kann.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Unterstützung von Qwen3.5-397B-A17B für Ultra-Long-Texts ist relevant für Home-Setups, die große Kontextlängen benötigen. Die aktuelle Implementierung in SGLang hat jedoch Probleme, die durch den `–json-model-override-args`-Parameter verursacht werden könnten. Es ist wichtig, diese Einstellungen zu überprüfen und ggf. zu korrigieren.

Konsequenz fuer OpenCode-Nutzer:
Die Verwendung von Qwen3.5-397B-A17B mit einer Kontextlänge von 1M könnte die Fähigkeit des Coding-Agents, komplexe und lange Texte zu verarbeiten, erheblich verbessern. Nutzer sollten die Einstellungen sorgfältig überprüfen und auf mögliche Updates warten, die das Problem beheben.

Handlungsempfehlung:
Überprüfe die `–json-model-override-args`-Einstellungen und stelle sicher, dass sie korrekt sind. Wenn das Problem weiterhin besteht, melde es in der SGLang-Community und warte auf eine mögliche Lösung in zukünftigen Versionen.

Fakten-Tabelle:
– Hardware im Post: H20 144GB
– Modell: Qwen3.5-397B-A17B
– Framework-Version: 0.5.12.post1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

[Ling 2.6 lightning/linear attention cache size not exposed in SGLang metrics/logs] (6/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Ein Nutzer bemerkt, dass SGLang die Cache-Größe für lightning/linear attention bei der Verwendung des Ling-2.6-Modells nicht korrekt berichtet. Die aktuellen Logs zeigen eine viel kleinere Cache-Größe als erwartet, was die Benchmarking-Ergebnisse verfälschen könnte.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die fehlende Berichterstattung der lightning/linear attention Cache-Größe kann zu ungenauen Benchmarking-Ergebnissen führen, was die Optimierung des Setups erschwert. Es ist wichtig, dass SGLang diese Metriken korrekt berichtet, um die tatsächliche VRAM-Verwendung zu verstehen.

Konsequenz fuer OpenCode-Nutzer:
Die fehlende Berichterstattung der Cache-Größe kann dazu führen, dass die VRAM-Verwendung des Coding-Agents unterschätzt wird. Nutzer sollten die Logs sorgfältig überprüfen und auf mögliche Updates warten, die die Berichterstattung verbessern.

Handlungsempfehlung:
Melde das Problem in der SGLang-Community und warte auf eine mögliche Lösung. Bis dahin sollten Nutzer die VRAM-Verwendung manuell überwachen und die Logs mit Vorsicht interpretieren.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: inclusionAI/Ling-2.6-flash-int4
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

[SGLang Public Community Events] (4/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die SGLang-Community veranstaltet wöchentliche Online-Meetings und lokale Treffen, um Entwickler zusammenzubringen und über wichtige Features, dringende Probleme und die Roadmap zu diskutieren. Die Meetings sind offen für alle, und es gibt keine Anmeldung erforderlich.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Community-Events bieten eine gute Gelegenheit, um sich mit anderen Entwicklern auszutauschen und aktuelle Entwicklungen zu verfolgen. Für Nutzer, die ein autarkes Home-Setup aufbauen, können diese Meetings wertvolle Informationen und Unterstützung bieten.

Konsequenz fuer OpenCode-Nutzer:
Die Teilnahme an den Community-Events kann helfen, die neuesten Entwicklungen und Best Practices zu verstehen, was die Performance und Stabilität des Coding-Agents verbessern kann. Es ist eine gute Gelegenheit, um Fragen zu stellen und Feedback zu erhalten.

Handlungsempfehlung:
Teilnehme an den wöchentlichen Online-Meetings und lokalen Treffen, um aktuelle Entwicklungen zu verfolgen und sich mit anderen Entwicklern auszutauschen.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

[Do Hopper support Deepseek V4 Flash run EP by deepep in the future?] (2/10) — OpenCode-Fit: NEIN

Zur Discussion

Worum geht es konkret?
Ein Nutzer versucht, DeepSeek V4 Flash mit expert parallel (EP) auf einer H20 GPU zu laufen, aber er stößt auf einen Fehler. Der Nutzer fragt, ob SGLang in Zukunft die Unterstützung für FP4 auf SM90-GPUs hinzufügen wird.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die H20 GPU ist eine Enterprise-Hardware und nicht autark-relevant. Die Unterstützung für FP4 auf SM90-GPUs ist für Consumer-GPUs wie die RTX 3090 oder 5090 nicht relevant.

Konsequenz fuer OpenCode-Nutzer:
Die Unterstützung für FP4 auf SM90-GPUs ist für die meisten Home-Setups nicht relevant. Nutzer sollten sich auf die Unterstützung von Consumer-GPUs konzentrieren.

Handlungsempfehlung:
Ignoriere diese Diskussion, da sie für autarke Home-Setups nicht relevant ist.

Fakten-Tabelle:
– Hardware im Post: H20
– Modell: DeepSeek V4 Flash
– Framework-Version: 0.5.12
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: EP=1

Weitere Diskussionen (kurz):

– deepep v2 support?: Diskussion über die Unterstützung von DeepEP v2, das RDMA-Kommunikation und TMA-Datenbewegung verwendet. Enterprise — nicht autark-relevant.
– [[Question][Diffusion][SD3.5] Question about SGLang-native support for remaining Diffusers modules for stable-diffusion-3](https://github.com/sgl-project/sglang/discussions/26282): Frage zur SGLang-nativen Unterstützung für Diffusers-Module in Stable Diffusion 3.5. Relevant für spezifische Anwendungen, aber nicht direkt für autarke Home-Setups.
– CANN 9.0.0 support?: Diskussion über die Unterstützung von CANN 9.0.0, das mit Triton-ascend 3.2.1 konfliktiert. Enterprise — nicht autark-relevant.
– Can thinking_budget work with MTP enabled?: Frage zur Verwendung von `thinking_budget` mit MTP. Relevant, aber spezifisch für bestimmte Konfigurationen.
– Why similar CPU memory leak fixes were split across multiple PRs, and how you pinpoint leaks down to specific lines?: Diskussion über die Methodik zur Behebung von CPU-Memory-Leaks. Relevant für Entwickler, aber nicht direkt für autarke Home-Setups.
– sglang在qwen3-vl-4B模型使用dflash加速但是没有收益，都是负收益: Frage zur Verwendung von DFlash mit dem Qwen3-vl-4B-Modell, das keine Vorteile bringt. Relevant, aber spezifisch für dieses Modell.
– [[Help] sglang Docker hangs with 100% CPU & GPU Util on dual Blackwell GPUs. What’s the best way to install?](https://github.com/sgl-project/sglang/discussions/23512): Frage zur Installation von SGLang mit Docker auf dual Blackwell GPUs. Relevant für spezifische Hardware-Konfigurationen.

👁 6 Aufrufe 👤 5 Leser