SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten
Kurzfassung: Die SGLang-Community diskutiert aktuell vor allem Themen rund um die Optimierung von Modellen für langfristige Textverarbeitung, die Unterstützung von spezifischen Modellen wie Qwen3.5-397B-A17B, und die Verbesserung der Performance durch spekulative Decoding-Techniken. Für Nutzer, die ein autarkes Setup mit 4x 3090 oder 2x 5090 aufbauen möchten, sind insbesondere die Diskussionen zur Modellunterstützung und zur Optimierung der VRAM-Verwendung relevant. Diese Themen können die Effizienz und den Nutzen von OpenCode-Agenten erheblich verbessern.
Does sglang really support run Qwen3.5-397B-A17B for processing Ultra-Long Texts(1M) ? (6/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Der Diskussionsbeitrag beschreibt, dass SGLang laut Hugging Face Qwen3.5-397B-A17B mit einem Kontext von 1 Million Tokens unterstützen soll. Der Benutzer versucht, dies auf einem H20-GPU (144 GB VRAM) mit SGLang 0.5.12.post1 zu realisieren, aber er stößt auf einen Fehler, der auf ein Problem mit der `–json-model-override-args` Option hindeutet. Der Fehler liegt in der `assert`-Anweisung, die überprüft, ob `config.text_config` das Attribut `num_attention_heads` besitzt.
Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup mit 4x 3090 oder 2x 5090 ist die Unterstützung von Qwen3.5-397B-A17B mit einem 1-Million-Token-Kontext relevant, da es die Fähigkeit erweitert, sehr lange Texte zu verarbeiten. Allerdings ist die VRAM-Begrenzung von 24 GB pro GPU ein kritischer Faktor. Die aktuelle Implementierung scheint noch nicht stabil zu sein, was durch den Fehler auf H20-GPU deutlich wird. Es ist unwahrscheinlich, dass dies ohne weitere Optimierungen auf Consumer-GPUs funktioniert.
Konsequenz fuer OpenCode-Nutzer:
Die Unterstützung von Qwen3.5-397B-A17B mit 1-Million-Token-Kontext könnte die Fähigkeit von OpenCode-Agenten erweitern, sehr lange Texte zu verarbeiten. Allerdings ist die aktuelle Implementierung noch instabil und erfordert möglicherweise Workarounds oder Patches. Nutzer sollten die Diskussion verfolgen, um auf etwaige Updates zu reagieren.
Handlungsempfehlung:
Auf PR warten und die Diskussion verfolgen, um auf etwaige Fixes zu reagieren.
Fakten-Tabelle:
– Hardware im Post: H20 144GB
– Modell: Qwen3.5-397B-A17B
– Framework-Version: SGLang 0.5.12.post1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
Dflash working launch parameters (7/10) — OpenCode-Fit: JA
Worum geht es konkret?
Der Benutzer beschreibt, dass er DFlash (spekulative Decoding-Technik) mit Qwen3.5-27B-GPTQ-Int4 auf zwei RTX 3090-GPUs (48 GB VRAM insgesamt) ausprobieren möchte, aber ständig OOM (Out of Memory) Fehler erhält. Er fragt, ob es spezifische Parameter oder Einstellungen gibt, die er beachten sollte.
Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup mit 4x 3090 oder 2x 5090 ist die erfolgreiche Implementierung von DFlash besonders relevant, da es die Performance erheblich verbessern kann. Die OOM-Fehler deuten darauf hin, dass die aktuelle Konfiguration die VRAM-Begrenzung von 24 GB pro GPU überschreitet. Es könnte notwendig sein, die `–mem-fraction-static`-Einstellung zu reduzieren oder andere Parameter zu optimieren, um die VRAM-Verwendung zu minimieren.
Konsequenz fuer OpenCode-Nutzer:
Die erfolgreiche Implementierung von DFlash kann die Geschwindigkeit und Effizienz von OpenCode-Agenten erheblich steigern. Nutzer sollten die Diskussion verfolgen, um auf mögliche Lösungen zu reagieren, und die Parameter anpassen, um OOM-Fehler zu vermeiden.
Handlungsempfehlung:
Auf PR warten und die Diskussion verfolgen, um auf etwaige Fixes zu reagieren. In der Zwischenzeit die `–mem-fraction-static`-Einstellung reduzieren und andere Parameter optimieren.
Fakten-Tabelle:
– Hardware im Post: 2x RTX 3090 (48 GB VRAM)
– Modell: Qwen3.5-27B-GPTQ-Int4
– Framework-Version: SGLang 0.5.6.post2
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=2
Ling 2.6 lightning/linear attention cache size not exposed in SGLang metrics/logs (7/10) — OpenCode-Fit: JA
Worum geht es konkret?
Der Benutzer bemerkt, dass SGLang bei der Verwendung von `inclusionAI/Ling-2.6-flash-int4` eine viel kleinere Cache-Verwendung meldet als vLLM. Die SGLang-Logs zeigen nur die Aufmerksamkeits-KV-Felder, während der linear/lightning-attention-Cache als 0.00 GB gemeldet wird. Dies führt zu einer möglicherweise irreführenden Berichterstattung über den tatsächlichen Cache-Druck.
Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die genaue Berichterstattung über die VRAM-Verwendung wichtig, um die Performance und den Speicherverbrauch zu optimieren. Die aktuelle Implementierung von SGLang könnte die tatsächliche VRAM-Verwendung für Ling 2.6 unterschätzen, was zu Fehlkonfigurationen führen kann. Es wird vorgeschlagen, eine separate Metrik für den linear/lightning-attention-Cache hinzuzufügen.
Konsequenz fuer OpenCode-Nutzer:
Eine korrekte Berichterstattung über die VRAM-Verwendung ist entscheidend für die Optimierung von OpenCode-Agenten. Nutzer sollten die Diskussion verfolgen, um auf etwaige Updates zu reagieren, die die Metrik hinzufügen.
Handlungsempfehlung:
Auf PR warten und die Diskussion verfolgen, um auf etwaige Fixes zu reagieren.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: inclusionAI/Ling-2.6-flash-int4
– Framework-Version: SGLang (Version nicht spezifiziert)
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
Support DDTree (Diffusion Draft Tree) to further accelerate DFlash (8/10) — OpenCode-Fit: JA
Worum geht es konkret?
Der Beitrag diskutiert die Möglichkeit, DDTree (Diffusion Draft Tree) in SGLang zu integrieren, um die Performance von DFlash weiter zu verbessern. DDTree verwendet eine Baumstruktur, um mehrere wahrscheinliche Fortsetzungen zu speichern und in einem einzigen Vorwärtsdurchlauf zu verifizieren, was zu einer zusätzlichen Geschwindigkeitssteigerung führen kann.
Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup kann die Integration von DDTree die Performance von DFlash erheblich verbessern, insbesondere bei der Verarbeitung langer Texte. Die Baumstruktur könnte die Effizienz der VRAM-Verwendung erhöhen und die Anzahl der akzeptierten Präfixe verlängern, was die Effektivität des spekulativen Decodings verbessert.
Konsequenz fuer OpenCode-Nutzer:
Die Integration von DDTree könnte die Geschwindigkeit und Effizienz von OpenCode-Agenten erheblich steigern. Nutzer sollten die Diskussion verfolgen, um auf etwaige Updates zu reagieren, die DDTree unterstützen.
Handlungsempfehlung:
Auf PR warten und die Diskussion verfolgen, um auf etwaige Fixes zu reagieren.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen3-30B-MoE
– Framework-Version: SGLang (Version nicht spezifiziert)
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
CANN 9.0.0 support? (4/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Der Benutzer berichtet, dass er Fehler erhält, wenn er SGLang mit CANN 9.0.0 verwendet. Die Fehler liegen in Konflikten zwischen verschiedenen Triton-Versionen und fehlenden Shared-Object-Dateien.
Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die Unterstützung von CANN 9.0.0 relevant, wenn Nutzer spezifische Modelle oder Frameworks verwenden, die auf CANN basieren. Allerdings sind die meisten Consumer-GPUs wie RTX 3090 oder 5090 nicht direkt von CANN unterstützt, was die Relevanz für ein autarkes Home-Setup begrenzt.
Konsequenz fuer OpenCode-Nutzer:
Die Unterstützung von CANN 9.0.0 könnte für spezifische Modelle oder Frameworks relevant sein, die auf CANN basieren. Allerdings ist dies eher ein Nischenfall und nicht direkt relevant für die meisten OpenCode-Nutzer mit Consumer-GPUs.
Handlungsempfehlung:
Auf PR warten und die Diskussion verfolgen, um auf etwaige Fixes zu reagieren. Für die meisten Nutzer mit Consumer-GPUs ist dies eher irrelevant.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: SGLang (Version nicht spezifiziert)
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
Do Hopper support Deepseek V4 Flash run EP by deepep in the future? (3/10) — OpenCode-Fit: NEIN
Worum geht es konkret?
Der Benutzer fragt, ob SGLang in der Zukunft die Unterstützung von Deepseek V4 Flash mit Expert Parallelism (EP) auf Hopper-GPUs (SM90) mit FP4-Quantisierung hinzufügen wird. Der aktuelle Fehler liegt in einer Assertion, die FP4 und SM100 gleichzeitig erfordert.
Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup mit 4x 3090 oder 2x 5090 ist die Unterstützung von Hopper-GPUs und FP4-Quantisierung irrelevant, da diese Hardware und Techniken weit über den Möglichkeiten von Consumer-GPUs liegen. Hopper-GPUs sind Enterprise-Hardware und nicht für autarke Home-Setups geeignet.
Konsequenz fuer OpenCode-Nutzer:
Die Unterstützung von Hopper-GPUs und FP4-Quantisierung ist für die meisten OpenCode-Nutzer mit Consumer-GPUs irrelevant. Es gibt keine direkten Vorteile für autarke Home-Setups.
Handlungsempfehlung:
Enterprise — ignorieren.
Fakten-Tabelle:
– Hardware im Post: H20 144GB
– Modell: DeepSeek V4 Flash
– Framework-Version: SGLang 0.5.12
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
Weitere Diskussionen (kurz):
– SGLang Public Community Events: Informationen zu wöchentlichen Online-Meetings und in-person Meetups. Enterprise — nicht autark-relevant.
– deepep v2 support?: Diskussion zur Unterstützung von DeepEP v2, das RDMA-Kommunikation und TMA-Datenbewegung verwendet. Enterprise — nicht autark-relevant.
– [[Question][Diffusion][SD3.5] Question about SGLang-native support for remaining Diffusers modules for stable-diffusion-3](https://github.com/sgl-project/sglang/discussions/26282): Frage zur Unterstützung von Diffusers-Modulen für Stable Diffusion 3.5. Relevanz für spezifische Anwendungen, aber eher für Experten.
– [[RFC] IOChain: request/response filters for OpenAI-compatible serving](https://github.com/sgl-project/sglang/discussions/26222): Vorschlag für Request/Response-Filter in SGLang. Relevanz für erweiterte Anwendungen, aber eher für Entwickler.
– مرحبا: Allgemeine Begrüßung und Frage zur Internationalisierung. Wenig relevant für technische Diskussionen.
– Why similar CPU memory leak fixes were split across multiple PRs, and how you pinpoint leaks down to specific lines?: Diskussion zur Debugging-Methode für CPU-Memory-Leaks. Relevanz für Entwickler, aber eher technisch.
– sglang在qwen3-vl-4B模型使用dflash加速但是没有收益,都是负收益: Diskussion zur Performance von DFlash bei Qwen3-vl-4B. Relevanz für spezifische Modelle, aber eher für Experten.
– [[Help] sglang Docker hangs with 100% CPU & GPU Util on dual Blackwell GPUs. What’s the best way to install?](https://github.com/sgl-project/sglang/discussions/23512): Frage zur Installation von SGLang auf Blackwell-GPUs. Relevanz für spezifische Hardware, aber eher für Entwickler.