SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten

Kurzfassung

Die SGLang-Community diskutiert aktuell vor allem Themen rund um die Optimierung von Modellen für agente Workloads, die Quantisierung und die Unterstützung von spezifischen Modellen wie Qwen3.5-397B-A17B. Besonders relevant für Nutzer, die ein autarkes Setup mit 4x 3090 oder 2x 5090 aufbauen wollen, sind Diskussionen zur Verbesserung der Performance, der Speicher-Verwaltung und der Tool-Calling-Qualität. Zwei zentrale Themen sind die Unterstützung von DFlash und die Optimierung der Speicher-Verwendung bei langen Kontexten.

[Dflash working launch parameters] (4/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Der Nutzer versucht, den DFlash speculative decoding Algorithmus mit zwei NVIDIA RTX 3090 GPUs und dem quantisierten Qwen3.5-27B-Model zu starten, aber es kommt zu Out-of-Memory (OOM) Fehlern. Er fragt, ob es spezifische Parameter oder Einstellungen gibt, die das Problem beheben könnten.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup mit 4x 3090 oder 2x 5090 ist die Unterstützung von DFlash besonders relevant, da es die Performance erheblich verbessern kann. Allerdings müssen die Parameter sorgfältig angepasst werden, um OOM-Fehler zu vermeiden. Die Verwendung von Quantisierung (z.B. INT4) und die Anpassung der Kontextlänge können helfen, die VRAM-Verwendung zu reduzieren.

Konsequenz fuer OpenCode-Nutzer:
Die erfolgreiche Implementierung von DFlash kann zu schnelleren Prompt-Processing-Zeiten und besseren Tool-Calling-Ergebnissen führen. Nutzer sollten die Parameter wie `–mem-fraction-static`, `–speculative-num-draft-tokens`, und `–context-length` anpassen, um die VRAM-Verwendung zu optimieren.

Handlungsempfehlung:
Versuche die Parameter `–mem-fraction-static 0.7`, `–speculative-num-draft-tokens 8`, und `–context-length 2000` zu verwenden. Beobachte die VRAM-Verwendung und passe die Parameter weiter an, um OOM-Fehler zu vermeiden.

Fakten-Tabelle:
– Hardware im Post: 2x RTX 3090
– Modell: Qwen3.5-27B-GPTQ-Int4
– Framework-Version: 0.5.6.post2
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=2

[Does sglang really support run Qwen3.5-397B-A17B for processing Ultra-Long Texts(1M) ?] (6/10) — OpenCode-Fit: JA

Zur Discussion

Worum geht es konkret?
Der Nutzer versucht, das Qwen3.5-397B-A17B-Modell mit einer Kontextlänge von 1M Tokens zu starten, aber es kommt zu einem Fehler, da die `–json-model-override-args` Option die `text_config` überschreibt. Er fragt, ob es möglich ist, das Modell mit dieser Kontextlänge zu verwenden.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die Unterstützung von langen Kontexten besonders wichtig, da es die Fähigkeit erweitert, komplexe und kontextreiche Aufgaben zu bearbeiten. Die Verwendung von Qwen3.5-397B-A17B mit einer Kontextlänge von 1M Tokens kann die Agent-Workloads erheblich verbessern, aber es erfordert sorgfältige Konfiguration, um Fehler zu vermeiden.

Konsequenz fuer OpenCode-Nutzer:
Die erfolgreiche Konfiguration des Modells für lange Kontexte kann zu besseren Ergebnissen bei der Verarbeitung komplexer Aufgaben führen. Nutzer sollten die `–json-model-override-args` Option vorsichtig anpassen, um die `text_config` korrekt zu überschreiben.

Handlungsempfehlung:
Versuche die `–json-model-override-args` Option mit den folgenden Parametern zu verwenden:
„`json
{
„text_config“: {
„rope_parameters“: {
„mrope_interleaved“: true,
„mrope_section“: [11, 11, 10],
„rope_type“: „yarn“,
„rope_theta“: 10000000,
„partial_rotary_factor“: 0.25,
„factor“: 4.0,
„original_max_position_embeddings“: 262144
}
}
}
„`
Beobachte die VRAM-Verwendung und passe die Kontextlänge weiter an, um Fehler zu vermeiden.

Fakten-Tabelle:
– Hardware im Post: H20 144GB
– Modell: Qwen3.5-397B-A17B
– Framework-Version: 0.5.12.post1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

[Ling 2.6 lightning/linear attention cache size not exposed in SGLang metrics/logs] (5/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Der Nutzer bemerkt, dass SGLang die Cache-Größe für lightning/linear Attention in den Metriken und Logs nicht korrekt anzeigt. Dies führt zu einer möglicherweise irreführenden Berichterstattung über den Speicherverbrauch, insbesondere bei der Verwendung des `inclusionAI/Ling-2.6-flash-int4` Modells.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die genaue Überwachung des Speicherverbrauchs wichtig, um OOM-Fehler zu vermeiden. Die fehlende Berichterstattung über den lightning/linear Attention Cache kann dazu führen, dass Nutzer die tatsächliche Speicherbelastung unterschätzen.

Konsequenz fuer OpenCode-Nutzer:
Die korrekte Berichterstattung über den Speicherverbrauch kann helfen, die VRAM-Verwendung zu optimieren und die Performance zu verbessern. Nutzer sollten die Logs und Metriken sorgfältig überwachen, um potenzielle Probleme frühzeitig zu erkennen.

Handlungsempfehlung:
Folge den Diskussionen und PRs, die sich mit der Verbesserung der Metriken befassen. Bis zu einer möglichen Implementierung, können Nutzer manuelle Workarounds anwenden, um den Speicherverbrauch zu überwachen.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: inclusionAI/Ling-2.6-flash-int4
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

[Support DDTree (Diffusion Draft Tree) to further accelerate DFlash] (7/10) — OpenCode-Fit: JA

Zur Discussion

Worum geht es konkret?
Der Nutzer schlägt vor, DDTree (Diffusion Draft Tree) zu unterstützen, um die Performance von DFlash weiter zu verbessern. DDTree verwendet eine Baumstruktur, um mehrere mögliche Fortsetzungen zu verifizieren, was zu einer höheren Geschwindigkeit und besseren Decoding-Qualität führen kann.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup kann die Unterstützung von DDTree die Performance erheblich verbessern, insbesondere bei agente Workloads mit langen Kontexten. Die Verwendung von DDTree kann zu schnelleren Antwortzeiten und besseren Tool-Calling-Ergebnissen führen.

Konsequenz fuer OpenCode-Nutzer:
Die Implementierung von DDTree kann die Agent-Workloads erheblich optimieren, indem es die Geschwindigkeit und die Qualität der Decoding-Ergebnisse verbessert. Nutzer sollten die Entwicklung von DDTree im Auge behalten und auf zukünftige Updates warten.

Handlungsempfehlung:
Beobachte die Entwicklung von DDTree und folge den zugehörigen PRs. Bis zu einer möglichen Implementierung, können Nutzer die aktuellen DFlash-Parameter weiter optimieren.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen3-30B-MoE
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

[Why similar CPU memory leak fixes were split across multiple PRs, and how you pinpoint leaks down to specific lines?] (4/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Der Nutzer fragt, warum ähnliche CPU-Memory-Leak-Fixes in mehreren PRs aufgeteilt wurden und wie man solche Lecks auf spezifische Zeilen in einem komplexen Serving-System zurückverfolgen kann. Er bittet um Details zu den verwendeten Tools und Methoden.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die Stabilität und Zuverlässigkeit des Systems wichtig. Die Kenntnis der Methoden zur Fehlersuche und Behebung von Memory-Leaks kann helfen, das System langfristig stabil zu halten.

Konsequenz fuer OpenCode-Nutzer:
Die Fähigkeit, Memory-Leaks zu identifizieren und zu beheben, kann die Stabilität und Performance des Systems verbessern. Nutzer sollten die empfohlenen Tools und Methoden anwenden, um potenzielle Lecks zu erkennen und zu beheben.

Handlungsempfehlung:
Verwende Tools wie `tracemalloc`, `objgraph`, und `jemalloc` zur Fehlersuche und Behebung von Memory-Leaks. Beobachte die RSS-Trends und die per-Request-Growth, um potenzielle Lecks zu identifizieren.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

[SGLang Inference 8*H200(1 HGX). QWEN-3.5-397B-A17B-FP8] (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)

Zur Discussion

Worum geht es konkret?
Der Nutzer diskutiert die Konfiguration und Performance von Qwen3.5-397B-A17B-FP8 auf einem HGX-Node mit 8 H200 GPUs. Er bittet um Feedback und Erfahrungen von anderen Nutzern, die ähnliche Setup haben.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Dieses Thema ist für ein autarkes Home-Setup nicht relevant, da es sich um ein Enterprise-Setup handelt, das H200 GPUs verwendet. Die Hardware-Anforderungen sind viel höher und nicht für den Heimgebrauch geeignet.

Konsequenz fuer OpenCode-Nutzer:
Dieses Thema ist für Nutzer mit 4x 3090 oder 2x 5090 nicht relevant. Es gibt keine praktischen Anwendungsmöglichkeiten für diese Hardware.

Handlungsempfehlung:
Ignoriere dieses Thema, da es für ein autarkes Home-Setup nicht relevant ist.

Fakten-Tabelle:
– Hardware im Post: 8x H200
– Modell: Qwen3.5-397B-A17B-FP8
– Framework-Version: 0.5.9
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=8

Weitere Diskussionen (kurz):

– Do Hopper support Deepseek V4 Flash run EP by deepep in the future? — Enterprise — nicht autark-relevant, H200-Setup.
– deepep v2 support? — Enterprise — nicht autark-relevant, NCCL GIN, RDMA.
– [[Question][Diffusion][SD3.5] Question about SGLang-native support for remaining Diffusers modules for stable-diffusion-3](https://github.com/sgl-project/sglang/discussions/26282) — Relevante Frage zur Unterstützung von Diffusers-Modulen, aber spezifisch für Stable Diffusion.
– [[RFC] IOChain: request/response filters for OpenAI-compatible serving](https://github.com/sgl-project/sglang/discussions/26222) — Relevante Diskussion zur Erweiterbarkeit von SGLang, aber eher für Enterprise-Setups.
– CANN 9.0.0 support? — Relevante Frage zur Unterstützung von CANN 9.0.0, aber spezifisch für Ascend-GPUs.
– Can thinking_budget work with MTP enabled? — Spezifische Frage zur Verwendung von `thinking_budget` mit MTP, eher für fortgeschrittene Nutzer.
– sglang在qwen3-vl-4B模型使用dflash加速但是没有收益，都是负收益 — Relevante Frage zur Performance von DFlash mit Qwen3-vl-4B, aber spezifisch für ein anderes Modell.
– [[Help] sglang Docker hangs with 100% CPU & GPU Util on dual Blackwell GPUs. What’s the best way to install?](https://github.com/sgl-project/sglang/discussions/23512) — Relevante Frage zur Installation und Konfiguration von SGLang, aber spezifisch für Docker und Blackwell-GPUs.

👁 2 Aufrufe 👤 1 Leser