SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten

Kurzfassung: Die SGLang-Community diskutiert aktuell vor allem Themen rund um die Optimierung von Modellen für autarke, lokal betriebene Multi-GPU-Setups. Besonders relevant sind Diskussionen zur Kompatibilität von feinjustierten Modellen, der Optimierung von Throughput und Latenz, sowie der Unterstützung von spezifischen Quantisierungstechniken. Für Nutzer, die ein 4x 3090 oder 2x 5090 Setup aufbauen wollen, um Claude-Sonnet-Niveau zu erreichen, sind insbesondere die Themen zur Kompatibilität von Qwen3.5 und die Optimierung des Throughputs für long-context-Anwendungen von Bedeutung.

[Frage zur Bereitstellung eines feinjustierten Qwen3.5-Modells] (7/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die Diskussion dreht sich um Probleme bei der Bereitstellung eines feinjustierten Qwen3.5-Modells mit SGLang. Der Nutzer hat das Modell mit Hugging Face Transformers trainiert und versucht, es mit SGLang zu verwenden. Dabei tritt ein Fehler auf, da die Architektur `Qwen3_5ForCausalLM` nicht als SGLang-Eintragsklasse registriert ist. Es wird diskutiert, ob es sicher ist, die Architektur manuell zu registrieren oder ob es besser ist, die Konfiguration auf `Qwen3_5ForConditionalGeneration` zu ändern.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist es wichtig, dass feinjustierte Modelle ohne Probleme bereitgestellt werden können. Die aktuelle Diskussion zeigt, dass es spezifische Anpassungen erfordern kann, um Qwen3.5-Modelle mit SGLang zu verwenden. Nutzer mit Consumer-GPUs sollten die Konfiguration auf `Qwen3_5ForConditionalGeneration` ändern, um Kompatibilität zu gewährleisten.

Konsequenz für OpenCode-Nutzer:
OpenCode-Nutzer, die Qwen3.5-Modelle verwenden, sollten die Konfiguration ihres feinjustierten Modells auf `Qwen3_5ForConditionalGeneration` ändern, um Fehler zu vermeiden. Dies kann die Bereitstellung und den Einsatz des Modells vereinfachen.

Handlungsempfehlung:
Ändern Sie die Konfiguration des feinjustierten Modells auf `Qwen3_5ForConditionalGeneration` und testen Sie die Bereitstellung mit SGLang.

Fakten-Tabelle:
– Hardware im Post: [nicht im Post belegt]
– Modell: Qwen3.5
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]

[Priorisierung von Decode-Batches über Prefill in SGLang (GLM-4.7 Deployment)] (8/10) — OpenCode-Fit: JA

Zur Discussion

Worum geht es konkret?
Die Diskussion behandelt die Optimierung des Throughputs bei der Bereitstellung des GLM-4.7-Modells mit SGLang. Der Nutzer möchte, dass Decode-Batches priorisiert werden, um die Latenz für laufende Anfragen zu reduzieren. Aktuell verbraucht der Prefill-Prozess zu viel Ressourcen, was die Decode-Leistung beeinträchtigt.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist es wichtig, dass der Throughput für long-context-Anwendungen wie Claude-Code-Konversationen optimiert wird. Die Diskussion zeigt, dass spezifische Parameter und Scheduling-Strategien verwendet werden können, um Decode-Batches zu priorisieren und die Latenz zu reduzieren. Dies ist besonders relevant für Nutzer, die Modelle mit langen Kontexten verwenden.

Konsequenz für OpenCode-Nutzer:
OpenCode-Nutzer können die Parameter `–chunked-prefill-size` und `–enable-mixed-chunk` anpassen, um Decode-Batches zu priorisieren. Dies kann die Leistung und die Benutzererfahrung bei long-context-Anwendungen verbessern.

Handlungsempfehlung:
Testen Sie die Parameter `–chunked-prefill-size` und `–enable-mixed-chunk` und beobachten Sie die Auswirkungen auf den Throughput und die Latenz. Anpassungen an `–schedule-conservativeness` können ebenfalls hilfreich sein.

Fakten-Tabelle:
– Hardware im Post: H20
– Modell: GLM-4.7
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: TP=8

[Frage zur Unterstützung von Qwen3.5-397B-A17B für Ultra-Long Texts (1M)] (6/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die Diskussion dreht sich um Probleme bei der Verwendung des Qwen3.5-397B-A17B-Modells mit einem Kontext von 1 Million Tokens. Der Nutzer hat versucht, das Modell mit SGLang zu verwenden, aber es tritt ein Fehler auf, da die `text_config`-Attribute nicht korrekt überschrieben werden.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist es wichtig, dass Modelle mit langen Kontexten ohne Fehler bereitgestellt werden können. Die aktuelle Diskussion zeigt, dass spezifische Konfigurationen erforderlich sind, um das Modell korrekt zu verwenden. Nutzer mit Consumer-GPUs sollten die Konfiguration sorgfältig überprüfen und ggf. Workarounds anwenden.

Konsequenz für OpenCode-Nutzer:
OpenCode-Nutzer, die Qwen3.5-397B-A17B mit langen Kontexten verwenden, sollten die Konfiguration sorgfältig überprüfen und ggf. Workarounds anwenden, um Fehler zu vermeiden. Dies kann die Bereitstellung und den Einsatz des Modells vereinfachen.

Handlungsempfehlung:
Überprüfen Sie die Konfiguration und wenden Sie Workarounds an, um die `text_config`-Attribute korrekt zu überschreiben. Beobachten Sie die Auswirkungen auf die Leistung und die Fehlerbehandlung.

Fakten-Tabelle:
– Hardware im Post: H20 144GB
– Modell: Qwen3.5-397B-A17B
– Framework-Version: sglang 0.5.12.post1
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]

[Frage zur Unterstützung von DeepSeek V4 Flash mit FP4 auf SM90] (5/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die Diskussion behandelt Probleme bei der Verwendung des DeepSeek V4 Flash-Modells mit FP4-Quantisierung auf SM90-GPUs. Der Nutzer hat versucht, das Modell mit SGLang zu verwenden, aber es tritt ein Fehler auf, da FP4 und SM100 gleichzeitig erforderlich sind.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist es wichtig, dass Modelle mit spezifischen Quantisierungstechniken ohne Fehler bereitgestellt werden können. Die aktuelle Diskussion zeigt, dass es Probleme gibt, wenn FP4-Quantisierung auf SM90-GPUs verwendet wird. Nutzer mit Consumer-GPUs sollten alternative Quantisierungstechniken in Betracht ziehen oder auf zukünftige Updates warten.

Konsequenz für OpenCode-Nutzer:
OpenCode-Nutzer, die DeepSeek V4 Flash mit FP4-Quantisierung verwenden möchten, sollten alternative Quantisierungstechniken wie INT4 oder FP8 in Betracht ziehen. Dies kann die Bereitstellung und den Einsatz des Modells vereinfachen.

Handlungsempfehlung:
Verwenden Sie alternative Quantisierungstechniken wie INT4 oder FP8 und beobachten Sie die Auswirkungen auf die Leistung und die Fehlerbehandlung. Warten Sie auf zukünftige Updates, die die Unterstützung für FP4 auf SM90 verbessern.

Fakten-Tabelle:
– Hardware im Post: H20
– Modell: DeepSeek V4 Flash
– Framework-Version: sglang 0.5.12
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]

[Frage zur Unterstützung von Ling 2.6 lightning/linear Attention Cache Size in SGLang Metriken/Logs] (7/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die Diskussion dreht sich um Probleme bei der Berichterstattung der lightning/linear Attention Cache-Größe für das Ling 2.6-Modell in SGLang. Der Nutzer hat bemerkt, dass SGLang eine viel kleinere Cache-Größe als vLLM berichtet, was die Benchmarking-Ergebnisse verfälschen kann.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist es wichtig, dass die Metriken und Logs korrekt die Cache-Größe berichten, um die Leistung und den Speicherverbrauch zu optimieren. Die aktuelle Diskussion zeigt, dass SGLang möglicherweise die lightning/linear Attention Cache-Größe nicht korrekt berichtet. Nutzer sollten dies bei der Benchmarking und Optimierung berücksichtigen.

Konsequenz für OpenCode-Nutzer:
OpenCode-Nutzer, die Ling 2.6 verwenden, sollten die Metriken und Logs sorgfältig überprüfen und ggf. Workarounds anwenden, um die Cache-Größe korrekt zu berichten. Dies kann die Leistungsoptimierung und den Speicherverbrauch verbessern.

Handlungsempfehlung:
Überprüfen Sie die Metriken und Logs sorgfältig und wenden Sie Workarounds an, um die lightning/linear Attention Cache-Größe korrekt zu berichten. Beobachten Sie die Auswirkungen auf die Leistung und den Speicherverbrauch.

Fakten-Tabelle:
– Hardware im Post: [nicht im Post belegt]
– Modell: Ling 2.6
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]

[Frage zur Unterstützung von CANN 9.0.0] (4/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die Diskussion behandelt Probleme bei der Verwendung von SGLang mit CANN 9.0.0. Der Nutzer hat versucht, SGLang mit CANN 9.0.0 zu verwenden, aber es tritt ein Fehler auf, da es Konflikte mit Triton gibt.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist es wichtig, dass SGLang mit verschiedenen Frameworks und Bibliotheken ohne Fehler verwendet werden kann. Die aktuelle Diskussion zeigt, dass es Probleme gibt, wenn SGLang mit CANN 9.0.0 verwendet wird. Nutzer sollten auf zukünftige Updates warten oder alternative Frameworks in Betracht ziehen.

Konsequenz für OpenCode-Nutzer:
OpenCode-Nutzer, die CANN 9.0.0 verwenden möchten, sollten auf zukünftige Updates warten oder alternative Frameworks in Betracht ziehen. Dies kann die Bereitstellung und den Einsatz von Modellen vereinfachen.

Handlungsempfehlung:
Warten Sie auf zukünftige Updates, die die Unterstützung für CANN 9.0.0 verbessern, oder verwenden Sie alternative Frameworks. Beobachten Sie die Auswirkungen auf die Leistung und die Fehlerbehandlung.

Fakten-Tabelle:
– Hardware im Post: [nicht im Post belegt]
– Modell: [nicht im Post belegt]
– Framework-Version: Triton-ascend 3.2.1, CANN 9.0.0
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]

[Frage zur Unterstützung von Deepep v2] (5/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die Diskussion dreht sich um die Unterstützung von Deepep v2 in SGLang. Deepep v2 verwendet NCCL GIN für RDMA-Kommunikation und TMA für Datenbewegung. Der Nutzer fragt, ob SGLang Unterstützung für Deepep v2 plant.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist es wichtig, dass SGLang mit verschiedenen Parallelisierungstechniken ohne Fehler verwendet werden kann. Die aktuelle Diskussion zeigt, dass es noch keine klare Unterstützung für Deepep v2 gibt. Nutzer sollten auf zukünftige Updates warten oder alternative Parallelisierungstechniken in Betracht ziehen.

Konsequenz für OpenCode-Nutzer:
OpenCode-Nutzer, die Deepep v2 verwenden möchten, sollten auf zukünftige Updates warten oder alternative Parallelisierungstechniken in Betracht ziehen. Dies kann die Bereitstellung und den Einsatz von Modellen vereinfachen.

Handlungsempfehlung:
Warten Sie auf zukünftige Updates, die die Unterstützung für Deepep v2 verbessern, oder verwenden Sie alternative Parallelisierungstechniken. Beobachten Sie die Auswirkungen auf die Leistung und die Fehlerbehandlung.

Fakten-Tabelle:
– Hardware im Post: [nicht im Post belegt]
– Modell: [nicht im Post belegt]
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]

[Frage zur Unterstützung von Diffusers-Modulen für Stable Diffusion 3.5] (6/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die Diskussion behandelt die Unterstützung von Diffusers-Modulen für Stable Diffusion 3.5 in SGLang. Der Nutzer fragt, ob es Pläne gibt, die Diffusers-basierten Module durch SGLang-native Implementierungen zu ersetzen.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist es wichtig, dass SGLang-native Implementierungen für Stable Diffusion 3.5 verfügbar sind, um die Leistung und die Kompatibilität zu verbessern. Die aktuelle Diskussion zeigt, dass es noch keine klaren Pläne gibt, die Diffusers-basierten Module zu ersetzen. Nutzer sollten auf zukünftige Updates warten oder alternative Implementierungen in Betracht ziehen.

Konsequenz für OpenCode-Nutzer:
OpenCode-Nutzer, die Stable Diffusion 3.5 verwenden, sollten auf zukünftige Updates warten oder alternative Implementierungen in Betracht ziehen. Dies kann die Bereitstellung und den Einsatz von Modellen vereinfachen.

Handlungsempfehlung:
Warten Sie auf zukünftige Updates, die die Unterstützung für SGLang-native Implementierungen verbessern, oder verwenden Sie alternative Implement

👁 2 Aufrufe 👤 1 Leser