SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten

Kurzfassung

Die SGLang-Community diskutiert aktuell vor allem Themen, die die Optimierung von Modellen und die Verbesserung der Performance bei lokalen Inference-Aufgaben betreffen. Besonders hervorzuheben sind Diskussionen zur Unterstützung von Qwen3.5, der Optimierung von GLM-4.7 für long-context-Szenarien und der Implementierung von PeerCache für verteilte KV-Caches. Diese Themen sind besonders relevant für Nutzer, die ein autarkes Setup mit 4x 3090 oder 2x 5090 GPUs aufbauen möchten, um Coding-Agenten wie Claude Sonnet auf einem ähnlichen Niveau zu betreiben.

Addition of a not-strictly-block-diffusion model (6/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Die Diskussion dreht sich um die Unterstützung von nicht-streng-block-diffusion-Modellen in SGLang, insbesondere die Fast-dLLM v1-Version von bidirectional LLaDA-8B / Dream-7B. Diese Modelle verwenden eine approximierte KV-Cache und confidence-based decoding thresholding mit gptq_marlin Quantisierung. Der Fragesteller möchte wissen, ob diese Modelle in den Roadmap von SGLang aufgenommen werden und ob bereits jemand daran arbeitet.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Unterstützung von nicht-streng-block-diffusion-Modellen könnte die Flexibilität des Home-Setups erhöhen, insbesondere bei der Verarbeitung von long-context-Aufgaben. Allerdings ist es unklar, ob diese Modelle auf Consumer-GPUs wie 3090 oder 5090 lauffähig sind, da sie spezifische Optimierungen erfordern. Threadripper oder Epyc Workstations könnten hier hilfreich sein, aber es gibt keine konkreten Benchmarks oder VRAM-Grenzen im Post.

Konsequenz für OpenCode-Nutzer:
Die Unterstützung dieser Modelle könnte zu besseren Tool-Calling-Fähigkeiten und einer effizienteren Verarbeitung von long-context-Aufgaben führen. Nutzer sollten die Diskussion verfolgen, um zu sehen, ob und wann diese Modelle in SGLang integriert werden.

Handlungsempfehlung:
Auf PR warten und die Diskussion verfolgen.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: bidirectional LLaDA-8B / Dream-7B
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

How to prioritize decode batches over prefill in SGLang? (GLM-4.7 deployment) (8/10) — OpenCode-Fit: JA

Worum geht es konkret?
Der Fragesteller optimiert die Durchsatzleistung des GLM-4.7-Modells auf einem H20-GPU-Setup mit SGLang. Das Ziel ist es, die Decode-Throughput-Priorität zu erhöhen, um die Latenz für laufende Anfragen zu reduzieren. Der aktuelle Setup verwendet verschiedene Parameter, aber es gibt Probleme mit der Priorisierung von Decode-Batches gegenüber Prefill-Batches, was zu einer signifikanten Leistungsabnahme führt.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Optimierung der Decode-Priorität ist auch für Home-Setups relevant, da sie die Benutzererfahrung bei long-context-Aufgaben verbessern kann. Die genannten Parameter wie `–chunked-prefill-size` und `–enable-mixed-chunk` können auf Consumer-GPUs angewendet werden, um die Leistung zu steigern. Es ist jedoch wichtig, die VRAM-Grenzen (24 GB pro GPU) im Auge zu behalten, um Overflows zu vermeiden.

Konsequenz für OpenCode-Nutzer:
Eine bessere Priorisierung von Decode-Batches kann zu schnelleren Antwortzeiten und einer glatteren Benutzererfahrung führen, insbesondere bei Tool-Calling und long-context-Aufgaben. Nutzer sollten die genannten Parameter anpassen und die Leistung überwachen.

Handlungsempfehlung:
Die genannten Parameter anwenden und die Leistung überwachen. Bei Problemen die Diskussion verfolgen oder weitere Optimierungen anwenden.

Fakten-Tabelle:
– Hardware im Post: H20
– Modell: GLM-4.7
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=8

Question about serving Qwen3.5 text-only SFT model saved as Qwen3_5ForCausalLM (7/10) — OpenCode-Fit: JA

Worum geht es konkret?
Der Fragesteller hat Probleme beim Servieren eines feinjustierten Qwen3.5-Modells mit SGLang. Das Modell wurde mit `AutoModelForCausalLM` trainiert und gespeichert, aber SGLang unterstützt `Qwen3_5ForCausalLM` nicht direkt. Es gibt Fragen zur erwarteten Verhaltensweise und möglichen Workarounds, wie das Modell in SGLang zu integrieren.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Unterstützung von feinjustierten Modellen ist wichtig für Home-Setups, da sie die Anpassung an spezifische Aufgaben ermöglicht. Die genannten Workarounds, wie das Modell in `Qwen3_5ForConditionalGeneration` zu ändern, sind auf Consumer-GPUs anwendbar. Es ist jedoch wichtig, die Kompatibilität und die VRAM-Beschränkungen zu berücksichtigen.

Konsequenz für OpenCode-Nutzer:
Die erfolgreiche Integration von feinjustierten Modellen kann die Leistung und die Anpassungsfähigkeit von Coding-Agenten verbessern. Nutzer sollten die genannten Workarounds anwenden und die Diskussion verfolgen, um sicherzustellen, dass die Änderungen sicher und kompatibel sind.

Handlungsempfehlung:
Das Modell in `Qwen3_5ForConditionalGeneration` ändern und die Diskussion verfolgen.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen3.5
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Small commercial app use of Boson v.3 (3/10) — OpenCode-Fit: NEIN

Worum geht es konkret?
Der Fragesteller möchte wissen, ob die Verwendung von Boson v.3 MP3-Dateien in einer kommerziellen App wie einer SwiftUI-App für den AppStore zulässig ist. Es gibt Fragen zur Lizenzierung und den rechtlichen Aspekten dieser Verwendung.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist nicht direkt relevant für Home-Setups, da sie sich auf die kommerzielle Verwendung von Boson v.3 in Apps konzentriert. Es gibt keine direkten Auswirkungen auf die Hardware oder die Modell-Unterstützung.

Konsequenz für OpenCode-Nutzer:
Diese Diskussion hat keine direkten Auswirkungen auf die Verwendung von SGLang oder Coding-Agenten in einem autarken Home-Setup.

Handlungsempfehlung:
Diese Diskussion ignorieren, da sie nicht relevant ist.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Boson v.3
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

PeerCache — a decentralized P2P RDMA L3 backend for SGLang HiCache (4/10) — OpenCode-Fit: NEIN

Worum geht es konkret?
Die Diskussion stellt PeerCache vor, eine dezentrale P2P RDMA L3-Backend für SGLang HiCache. PeerCache ermöglicht es, einen verteilten KV-Cache ohne zentrale Cache-Server zu verwenden. Es verwendet RDMA für direkte, zustandslose Lesevorgänge zwischen Knoten.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
PeerCache ist primär für Clusteraufgaben und Multi-Node-Setups gedacht, was es für autarke Home-Setups weniger relevant macht. Die Verwendung von RDMA und die Notwendigkeit, mehrere Knoten zu verwalten, machen es komplex und nicht ideal für ein einfaches Home-Setup.

Konsequenz für OpenCode-Nutzer:
Die Verwendung von PeerCache ist für autarke Home-Setups weniger relevant, da es auf RDMA und Clusteraufgaben abzielt. Es gibt keine direkten Vorteile für die Verwendung von Coding-Agenten auf Consumer-GPUs.

Handlungsempfehlung:
Diese Diskussion ignorieren, da sie für autarke Home-Setups nicht relevant ist.

Fakten-Tabelle:
– Hardware im Post: H20
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Does sglang really support run Qwen3.5-397B-A17B for processing Ultra-Long Texts(1M)? (7/10) — OpenCode-Fit: JA

Worum geht es konkret?
Der Fragesteller hat Probleme beim Betrieb des Qwen3.5-397B-A17B-Modells mit SGLang für die Verarbeitung von Ultra-Long-Texten (1M Tokens). Es gibt ein Fehler, der auftritt, wenn die `–json-model-override-args`-Option verwendet wird, um die Kontextlänge zu überschreiben.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Verarbeitung von Ultra-Long-Texten ist für Home-Setups relevant, da es die Fähigkeit erweitert, komplexe und lange Texte zu verarbeiten. Die genannten Fehler könnten jedoch die Verwendung des Modells erschweren. Es ist wichtig, die Fehler zu beheben, um die Leistung und die Kompatibilität zu gewährleisten.

Konsequenz für OpenCode-Nutzer:
Die erfolgreiche Verarbeitung von Ultra-Long-Texten kann die Fähigkeit von Coding-Agenten erweitern, komplexe Aufgaben zu lösen. Nutzer sollten die Diskussion verfolgen, um zu sehen, ob und wann das Problem behoben wird.

Handlungsempfehlung:
Die Diskussion verfolgen und auf Updates warten. Bei weiteren Problemen die Fehlerbehebung selbst durchführen oder die Community um Hilfe bitten.

Fakten-Tabelle:
– Hardware im Post: H20 144GB
– Modell: Qwen3.5-397B-A17B
– Framework-Version: sglang 0.5.12.post1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

SGLang Public Community Events (2/10) — OpenCode-Fit: NEIN

Worum geht es konkret?
Die Diskussion informiert über die wöchentlichen Online-Entwicklertreffen und die lokalen Meetups der SGLang-Community. Es gibt Informationen zu den Zeiten, den Orten und den Themen, die besprochen werden.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist eher für Entwickler und Community-Mitglieder relevant, die aktiv an der Entwicklung von SGLang teilnehmen möchten. Für Nutzer, die ein autarkes Home-Setup betreiben, hat es weniger direkte Auswirkungen.

Konsequenz für OpenCode-Nutzer:
Die Teilnahme an den Meetings kann hilfreich sein, um die neuesten Entwicklungen und Best Practices zu erfahren. Es gibt jedoch keine direkten technischen Auswirkungen auf die Verwendung von Coding-Agenten in einem Home-Setup.

Handlungsempfehlung:
Die Meetings optional besuchen, um die Community und die Entwicklungen besser zu verstehen.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Do Hopper support Deepseek V4 Flash run EP by deepep in the future? (3/10) — OpenCode-Fit: NEIN

Worum geht es konkret?
Der Fragesteller hat Probleme beim Betrieb des DeepSeek V4 Flash-Modells mit Expert Parallel (EP) auf H20-GPUs. Es gibt ein Fehler, der auftritt, wenn die `–deepep-mode`-Option verwendet wird. Es wird gefragt, ob SGLang in der Zukunft die Unterstützung von FP4 auf SM90-GPUs hinzufügen wird.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Verwendung von H20-GPUs und FP4-Quantisierung ist für autarke Home-Setups weniger relevant, da diese Hardware und Technologien eher im Enterprise-Bereich verwendet werden. Die genannten Fehler und die Frage nach zukünftiger Unterstützung sind für Consumer-GPUs nicht direkt anwendbar.

Konsequenz für OpenCode-Nutzer:
Diese Diskussion hat keine direkten Auswirkungen auf die Verwendung von Coding-Agenten auf Consumer-GPUs. Es gibt keine Vorteile oder Probleme, die für autarke Home-Setups relevant sind.

Handlungsempfehlung:
Diese Diskussion ignorieren, da sie für autarke Home-Setups nicht relevant ist.

Fakten-Tabelle:
– Hardware im Post: H20
– Modell: DeepSeek V4 Flash
– Framework-Version: sglang 0.5.12
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Weitere Diskussionen (kurz):

– deepep v2 support? — Enterprise — nicht autark-relevant
– [[Question][Diffusion][SD3.5] Question about SGLang-native support for remaining Diffusers modules for stable-diffusion-3](https://github.com/sgl-project/sglang/discussions/26282) — Enterprise — nicht autark-relevant
– [[RFC] IOChain: request/response filters for OpenAI-compatible serving](https://github.com/sgl-project/sglang/discussions/26222) — Enterprise — nicht autark-relevant
– مرحبا — Enterprise — nicht autark-relevant
– CANN 9.0.0 support? — Enterprise — nicht autark-relevant
– Can thinking_budget work with MTP enabled? — Enterprise — nicht autark-relevant
– Ling 2.6 lightning/linear attention cache size not exposed in SGLang metrics/logs — Enterprise — nicht autark-relevant

👁 2 Aufrufe 👤 2 Leser