SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten

Kurzfassung:
Die SGLang-Community diskutiert aktuell vor allem Themen rund um die Optimierung der lokalen Inference auf Consumer-GPUs, insbesondere bei Agent-Workloads. Dominierende Themen sind die Unterstützung von DFlash-Spezulativ-Decoding, die Verbesserung der Cache-Verwaltung und die Fehlersuche bei CPU-Memory-Leaks. Diese Entwicklungen sind besonders relevant für Nutzer, die ein autarkes Setup mit 4x 3090 oder 2x 5090 aufbauen möchten, um Claude-Sonnet-Niveau zu erreichen.

Can thinking_budget work with MTP enabled? (6/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Die Diskussion dreht sich um die Kompatibilität des `thinking_budget`-Parameters mit dem Multi-Token-Prefix (MTP) in SGLang. Der `thinking_budget`-Parameter wird verwendet, um die Anzahl der Tokens zu begrenzen, die das Modell in einer Iteration generieren darf. Es wird gefragt, ob dieser Parameter mit MTP zusammen verwendet werden kann, ohne dass es zu Fehlern kommt.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die Verwendung von `thinking_budget` mit MTP relevant, da es die Kontrolle über die Generierung von Tokens verbessern kann. Dies ist besonders nützlich bei Agent-Workloads, wo präzise Steuerung der Token-Generierung wichtig ist. Allerdings müssen Nutzer sicherstellen, dass ihre SGLang-Version die Kombination von `thinking_budget` und MTP unterstützt, da dies in älteren Versionen möglicherweise zu Fehlern führen kann.

Konsequenz fuer OpenCode-Nutzer:
Die Verwendung von `thinking_budget` mit MTP kann die Kontrolle über die Token-Generierung verbessern und die Effizienz von Agent-Workloads steigern. Nutzer sollten ihre SGLang-Version überprüfen und gegebenenfalls auf eine neuere Version updaten, die diese Kombination unterstützt.

Handlungsempfehlung:
Auf die neueste SGLang-Version updaten und die Kombination von `thinking_budget` und MTP testen.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Ling 2.6 lightning/linear attention cache size not exposed in SGLang metrics/logs (8/10) — OpenCode-Fit: JA

Worum geht es konkret?
Die Diskussion beschäftigt sich mit der Fehlberichtung der Cache-Größe für Lightning/Linear-Attention in SGLang. Es wird festgestellt, dass SGLang die Cache-Größe für Lightning-Attention nicht korrekt in den Metriken und Logs berücksichtigt, was zu einer Fehlmessung der tatsächlichen Speichernutzung führt. Dies ist besonders relevant für das Modell `inclusionAI/Ling-2.6-flash-int4`.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die korrekte Berücksichtigung der Cache-Größe für Lightning-Attention wichtig, um die tatsächliche Speichernutzung zu verstehen und zu optimieren. Dies ist besonders relevant, da 24 GB VRAM begrenzt sind und eine genaue Messung der Speichernutzung helfen kann, OOM-Fehler zu vermeiden.

Konsequenz fuer OpenCode-Nutzer:
Die korrekte Berücksichtigung der Cache-Größe für Lightning-Attention kann die Effizienz der Inference verbessern und OOM-Fehler reduzieren. Nutzer sollten die neuesten SGLang-Versionen überprüfen, die diese Metriken korrekt berücksichtigen.

Handlungsempfehlung:
Auf die neueste SGLang-Version updaten und die Metriken für Lightning-Attention überprüfen.

Fakten-Tabelle:
– Hardware im Post: 2x RTX 3090
– Modell: `inclusionAI/Ling-2.6-flash-int4`
– Framework-Version: 0.5.6.post2
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=2

Support DDTree (Diffusion Draft Tree) to further accelerate DFlash (9/10) — OpenCode-Fit: JA

Worum geht es konkret?
Die Diskussion dreht sich um die Unterstützung von DDTree (Diffusion Draft Tree) in SGLang, um die Performance von DFlash-Spezulativ-Decoding weiter zu verbessern. DDTree versucht, mehrere wahrscheinliche Fortsetzungen zu verifizieren, anstatt nur eine, was zu einer zusätzlichen Geschwindigkeitssteigerung führen kann.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup kann die Unterstützung von DDTree die Inference-Geschwindigkeit erheblich steigern, insbesondere bei Agent-Workloads. Dies ist besonders relevant, da es die Effizienz der Spekulations-Techniken verbessert und die Latenz reduziert.

Konsequenz fuer OpenCode-Nutzer:
Die Unterstützung von DDTree kann die Geschwindigkeit und Effizienz der Inference verbessern, was zu schnelleren Agent-Workloads führt. Nutzer sollten auf die neuesten SGLang-Versionen achten, die DDTree unterstützen.

Handlungsempfehlung:
Auf die neueste SGLang-Version updaten und die Unterstützung von DDTree überprüfen.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: `Qwen3-30B-MoE`
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: 8.22x Speedup (Qwen3-30B-MoE)
– Multi-GPU-Konfiguration: nicht im Post belegt

Dflash working launch parameters (7/10) — OpenCode-Fit: JA

Worum geht es konkret?
Die Diskussion beschäftigt sich mit den Startparametern für DFlash-Spezulativ-Decoding in SGLang. Ein Nutzer berichtet, dass er bei der Verwendung von DFlash mit zwei RTX 3090s und dem quantisierten Modell `Qwen3.5-27B-GPTQ-Int4` OOM-Fehler erhält, und fragt nach möglichen Fehlern in den Startparametern.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die korrekte Konfiguration von DFlash wichtig, um die Inference-Geschwindigkeit zu steigern und OOM-Fehler zu vermeiden. Die Startparameter, insbesondere die Speicherverwaltung und die Kontextlänge, müssen sorgfältig angepasst werden, um die besten Ergebnisse zu erzielen.

Konsequenz fuer OpenCode-Nutzer:
Die korrekte Konfiguration von DFlash kann die Inference-Geschwindigkeit und Effizienz verbessern. Nutzer sollten die Startparameter überprüfen und gegebenenfalls anpassen, um OOM-Fehler zu vermeiden.

Handlungsempfehlung:
Die Startparameter für DFlash überprüfen und gegebenenfalls anpassen. Bei Problemen die neueste SGLang-Version und die Dokumentation konsultieren.

Fakten-Tabelle:
– Hardware im Post: 2x RTX 3090
– Modell: `Qwen3.5-27B-GPTQ-Int4`
– Framework-Version: 0.5.6.post2
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=2

sglang在qwen3-vl-4B模型使用dflash加速但是没有收益，都是负收益 (6/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Die Diskussion beschäftigt sich mit der Verwendung von DFlash-Spezulativ-Decoding für das Modell `Qwen3-vl-4B`. Ein Nutzer berichtet, dass die Verwendung von DFlash keine Vorteile bringt und sogar negative Effekte hat, insbesondere in Bezug auf die Latenz.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die Effizienz von DFlash wichtig, um die Inference-Geschwindigkeit zu steigern. Die Berichte über negative Effekte bei der Verwendung von DFlash weisen darauf hin, dass es möglicherweise nicht für alle Modelle und Workloads geeignet ist. Nutzer sollten die Performance von DFlash sorgfältig testen und gegebenenfalls alternative Verfahren in Betracht ziehen.

Konsequenz fuer OpenCode-Nutzer:
Die Verwendung von DFlash kann bei bestimmten Modellen und Workloads negative Effekte haben. Nutzer sollten die Performance sorgfältig testen und gegebenenfalls alternative Verfahren wie EAGLE oder NEXTN in Betracht ziehen.

Handlungsempfehlung:
Die Performance von DFlash testen und gegebenenfalls alternative Verfahren wie EAGLE oder NEXTN verwenden.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: `Qwen3-vl-4B`
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: 223.29 tok/s (Baseline)
– Multi-GPU-Konfiguration: nicht im Post belegt

High TTFT and Throughput Drop in gRPC Mode Under High Concurrency (vs HTTP Mode) (5/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Die Diskussion dreht sich um die Performance von gRPC im Vergleich zu HTTP bei hohem Konkurrenzgrad. Ein Nutzer berichtet, dass die durchschnittliche Latenz und die Durchsatzrate bei Verwendung von gRPC unter hohem Konkurrenzgrad stark abnehmen, während die Cache-Hit-Rate höher ist.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die Wahl des Kommunikationsprotokolls (gRPC vs. HTTP) wichtig, um die Performance zu optimieren. Die Berichte über eine durchschnittliche Latenz und Durchsatzrate bei hohem Konkurrenzgrad weisen darauf hin, dass gRPC möglicherweise nicht für alle Szenarien geeignet ist. Nutzer sollten die Performance von gRPC und HTTP sorgfältig testen und gegebenenfalls HTTP bevorzugen.

Konsequenz fuer OpenCode-Nutzer:
Die Wahl des Kommunikationsprotokolls kann die Performance erheblich beeinflussen. Nutzer sollten die Performance von gRPC und HTTP testen und gegebenenfalls HTTP verwenden, um eine bessere Latenz und Durchsatzrate zu erzielen.

Handlungsempfehlung:
Die Performance von gRPC und HTTP testen und gegebenenfalls HTTP verwenden.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: `Qwen3-4B`
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: 4x 1P1D (1 Prefill + 1 Decode)

Weitere Diskussionen (kurz):

– CANN 9.0.0 support? — Enterprise — nicht autark-relevant
– Diskussion über die Unterstützung von CANN 9.0.0, was für Consumer-GPUs irrelevant ist.

– Why similar CPU memory leak fixes were split across multiple PRs, and how you pinpoint leaks down to specific lines? — Enterprise — nicht autark-relevant
– Diskussion über die Fehlersuche und Behebung von CPU-Memory-Leaks, was eher für Enterprise-Setups relevant ist.

– SGLang Inference 8*H200(1 HGX). QWEN-3.5-397B-A17B-FP8 — Enterprise — nicht autark-relevant
– Diskussion über die Inference auf einem HGX-Setup mit 8x H200, was für Consumer-GPUs irrelevant ist.

– Inquiry regarding Tokenizer requirement for SGLang Model Gateway with cache_aware policy — Enterprise — nicht autark-relevant
– Diskussion über die Notwendigkeit eines Tokenizers für die SGLang Model Gateway mit der `cache_aware`-Policy, was eher für Enterprise-Setups relevant ist.

– Help — Enterprise — nicht autark-relevant
– Allgemeine Hilfeanfrage, die keine spezifischen technischen Details enthält.

– Question: DFLASH not supported in –speculative-algorithm #49 — Enterprise — nicht autark-relevant
– Diskussion über die Unterstützung von DFlash in der `–speculative-algorithm`-Option, was eher für Enterprise-Setups relevant ist.

– Enable Piecewise CUDA Graph with EP — Enterprise — nicht autark-relevant
– Diskussion über die Verwendung von Piecewise CUDA Graph mit Expert Parallelism (EP), was eher für Enterprise-Setups relevant ist.

– Using Prefill node idle cycles for Decoding in PD disaggregation? — Enterprise — nicht autark-relevant
– Diskussion über die Nutzung von idle-Zyklen von Prefill-Nodes für Decoding in PD disaggregation, was eher für Enterprise-Setups relevant ist.

– [[Help] sglang Docker hangs with 100% CPU & GPU Util on dual Blackwell GPUs. What’s the best way to install?](https://github.com/sgl-project/sglang/discussions/23512) — Enterprise — nicht autark-relevant
– Diskussion über Probleme bei der Installation von SGLang in Docker auf Blackwell-GPUs, was eher für Enterprise-Setups relevant ist.

👁 1 Aufrufe 👤 1 Leser