SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten
Kurzfassung:
Die SGLang-Community diskutiert aktuell vor allem Themen rund um die Optimierung von Modellen für autarke, lokal betriebene Setup. Besonders relevant sind Diskussionen zur Verbesserung der Kompatibilität von feinjustierten Modellen, der Optimierung von Durchsatz und Latenz, sowie der Unterstützung von spezifischen Modellen wie Qwen3.5 und GLM-4.7. Diese Entwicklungen sind entscheidend für Nutzer, die ein 4x 3090 oder 2x 5090 Setup nutzen und eine ähnliche Leistung wie Claude Sonnet erzielen möchten.
[Question about serving Qwen3.5 text-only SFT model saved as Qwen3_5ForCausalLM] (6/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Die Diskussion dreht sich um ein Problem beim Servieren eines feinjustierten Qwen3.5-Modells mit SGLang. Der Nutzer hat das Modell mit `AutoModelForCausalLM` trainiert und gespeichert, aber SGLang kann das Modell nicht laden, da `Qwen3_5ForCausalLM` nicht als Eingangsklasse registriert ist. Es wird diskutiert, ob es sicher ist, `Qwen3_5ForCausalLM` manuell zu registrieren oder ob es besser ist, die Konfiguration auf `Qwen3_5ForConditionalGeneration` zu ändern.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist diese Diskussion relevant, da sie zeigt, dass manchmal manuelle Anpassungen notwendig sind, um feinjustierte Modelle zu verwenden. Die Lösung, die Konfiguration zu ändern, ist für Consumer-GPUs sicherer und einfacher umzusetzen. Threadripper oder Epyc sind nicht erforderlich, da es sich um Software-Änderungen handelt.
Konsequenz für OpenCode-Nutzer:
Nutzer sollten die Konfiguration ihres feinjustierten Qwen3.5-Modells auf `Qwen3_5ForConditionalGeneration` ändern, um Kompatibilität mit SGLang zu gewährleisten. Dies kann die Modell-Ladegeschwindigkeit und -Stabilität verbessern.
Handlungsempfehlung:
Ändern Sie die `config.json` des Modells, um `Qwen3_5ForConditionalGeneration` zu verwenden, und testen Sie die Kompatibilität mit SGLang.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen3.5
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
[How to prioritize decode batches over prefill in SGLang? (GLM-4.7 deployment)] (7/10) — OpenCode-Fit: JA
Worum geht es konkret?
Die Diskussion beschäftigt sich mit der Optimierung der Durchsatzleistung von GLM-4.7 auf H20-GPUs. Der Nutzer möchte, dass SGLang Decode-Batches priorisiert, um die Latenz für laufende Anfragen zu reduzieren. Derzeit blockieren neue Anfragen die Decode-Leistung, was zu erheblichen Verzögerungen führt.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist sehr relevant für autarke Home-Setups, da sie zeigt, wie man die Leistung von Modellen wie GLM-4.7 optimieren kann. Die Parameter `–chunked-prefill-size` und `–enable-mixed-chunk` können auch auf Consumer-GPUs verwendet werden, um die Decode-Leistung zu verbessern. Threadripper oder Epyc sind nicht erforderlich.
Konsequenz für OpenCode-Nutzer:
Die Optimierung der Decode-Priorität kann die Antwortzeiten für laufende Anfragen erheblich verbessern, was besonders für Coding-Agenten wie OpenCode wichtig ist. Nutzer sollten die vorgeschlagenen Parameter ausprobieren, um die Leistung zu optimieren.
Handlungsempfehlung:
Testen Sie die Parameter `–chunked-prefill-size 4096` und `–enable-mixed-chunk` in Ihrer SGLang-Konfiguration, um die Decode-Priorität zu erhöhen.
Fakten-Tabelle:
– Hardware im Post: H20
– Modell: GLM-4.7
– Framework-Version: SGLang 0.5.12.post1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=8
[Small commercial app use of Boson v.3] (3/10) — OpenCode-Fit: NEIN
Worum geht es konkret?
Die Diskussion dreht sich um die kommerzielle Nutzung von Boson v.3-Ausgabedateien in einer kleinen App für den AppStore. Der Nutzer fragt, ob eine Lizenz erforderlich ist, um Boson v.3 in einer kommerziellen Anwendung zu verwenden.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist für autarke Home-Setups nicht relevant, da sie sich auf die kommerzielle Nutzung von Boson v.3 konzentriert. Es gibt keine direkte Anwendung auf die lokale Inference von Modellen auf Consumer-GPUs.
Konsequenz für OpenCode-Nutzer:
Für OpenCode-Nutzer, die ihre Modelle lokal betreiben, ist diese Diskussion irrelevant. Es gibt keine direkte Auswirkung auf die Leistung oder die Nutzung von Modellen in einem autarken Setup.
Handlungsempfehlung:
Diese Diskussion ignorieren, da sie für autarke Home-Setups nicht relevant ist.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Boson v.3
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
[PeerCache — a decentralized P2P RDMA L3 backend for SGLang HiCache] (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)
Worum geht es konkret?
Die Diskussion stellt PeerCache vor, eine dezentrale P2P RDMA L3-Cache-Backend für SGLang HiCache. PeerCache ermöglicht es, eine Cluster von SGLang-Instanzen über RDMA zu verbinden, um Präfix-KV-Cache direkt zwischen Knoten zu teilen.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist für autarke Home-Setups nicht relevant, da sie sich auf die Verwendung von RDMA und Clustern konzentriert. RDMA und Clustern sind Enterprise-Technologien, die in privaten Haushalten nicht verwendet werden.
Konsequenz für OpenCode-Nutzer:
Für OpenCode-Nutzer, die ihre Modelle lokal betreiben, ist diese Diskussion irrelevant. Es gibt keine direkte Anwendung auf die lokale Inference von Modellen auf Consumer-GPUs.
Handlungsempfehlung:
Diese Diskussion ignorieren, da sie für autarke Home-Setups nicht relevant ist.
Fakten-Tabelle:
– Hardware im Post: RDMA, H20
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
[Does sglang really support run Qwen3.5-397B-A17B for processing Ultra-Long Texts(1M) ?] (5/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Die Diskussion beschäftigt sich mit dem Problem, dass SGLang das Modell Qwen3.5-397B-A17B mit einer Kontextlänge von 1M nicht korrekt lädt. Der Nutzer hat versucht, die Kontextlänge über `–json-model-override-args` zu überschreiben, was zu einem Fehler führt.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist relevant für autarke Home-Setups, da sie zeigt, dass die Unterstützung von Ultra-Long-Texts in SGLang noch nicht vollständig ist. Die Kontextlänge von 1M ist für viele Anwendungen wichtig, insbesondere für Coding-Agenten. Die Lösung des Problems könnte die Leistung und die Anwendbarkeit von Modellen in autarken Setups verbessern.
Konsequenz für OpenCode-Nutzer:
Nutzer sollten die aktuelle Version von SGLang überprüfen und die Diskussion verfolgen, um zu sehen, ob das Problem behoben wird. Die Unterstützung von Ultra-Long-Texts kann die Leistung von Coding-Agenten erheblich verbessern.
Handlungsempfehlung:
Überprüfen Sie die aktuelle Version von SGLang und verfolgen Sie die Diskussion, um zu sehen, ob das Problem behoben wird.
Fakten-Tabelle:
– Hardware im Post: H20 144GB
– Modell: Qwen3.5-397B-A17B
– Framework-Version: SGLang 0.5.12.post1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
[SGLang Public Community Events] (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)
Worum geht es konkret?
Die Diskussion informiert über wöchentliche Online- und lokale Treffen der SGLang-Community. Diese Treffen dienen der Diskussion von Features, Problemen und der Roadmap.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist für autarke Home-Setups nicht relevant, da sie sich auf die Organisation von Community-Events konzentriert. Die Treffen sind eher für Entwickler und Beitragsinteressierte gedacht.
Konsequenz für OpenCode-Nutzer:
Für OpenCode-Nutzer, die ihre Modelle lokal betreiben, ist diese Diskussion irrelevant. Es gibt keine direkte Anwendung auf die lokale Inference von Modellen auf Consumer-GPUs.
Handlungsempfehlung:
Diese Diskussion ignorieren, da sie für autarke Home-Setups nicht relevant ist.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
[Do Hopper support Deepseek V4 Flash run EP by deepep in the future?] (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)
Worum geht es konkret?
Die Diskussion dreht sich um das Problem, dass DeepSeek V4 Flash mit Expert Parallel (EP) auf H20-GPUs nicht läuft. Der Nutzer hat versucht, das Modell mit deepep v1.2.1 und SGLang 0.5.12 zu starten, was zu einem Fehler führt. Es wird gefragt, ob SGLang in der Zukunft FP4-Unterstützung auf SM90 hinzufügen wird.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist für autarke Home-Setups nicht relevant, da sie sich auf die Verwendung von H20-GPUs und FP4-Unterstützung konzentriert. H20-GPUs sind Enterprise-Hardware und nicht für private Haushalte geeignet.
Konsequenz für OpenCode-Nutzer:
Für OpenCode-Nutzer, die ihre Modelle lokal betreiben, ist diese Diskussion irrelevant. Es gibt keine direkte Anwendung auf die lokale Inference von Modellen auf Consumer-GPUs.
Handlungsempfehlung:
Diese Diskussion ignorieren, da sie für autarke Home-Setups nicht relevant ist.
Fakten-Tabelle:
– Hardware im Post: H20
– Modell: DeepSeek V4 Flash
– Framework-Version: SGLang 0.5.12
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
[deepep v2 support?] (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)
Worum geht es konkret?
Die Diskussion fragt, ob SGLang die Unterstützung für deepep v2 hinzufügen wird. Deepep v2 verwendet NCCL GIN für RDMA-Kommunikation, TMA für Datenbewegung und führt den neuen ElasticBuffer ein.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist für autarke Home-Setups nicht relevant, da sie sich auf die Verwendung von RDMA und Clustern konzentriert. RDMA und Clustern sind Enterprise-Technologien, die in privaten Haushalten nicht verwendet werden.
Konsequenz für OpenCode-Nutzer:
Für OpenCode-Nutzer, die ihre Modelle lokal betreiben, ist diese Diskussion irrelevant. Es gibt keine direkte Anwendung auf die lokale Inference von Modellen auf Consumer-GPUs.
Handlungsempfehlung:
Diese Diskussion ignorieren, da sie für autarke Home-Setups nicht relevant ist.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
[Ling 2.6 lightning/linear attention cache size not exposed in SGLang metrics/logs] (6/10) — OpenCode-Fit: JA
Worum geht es konkret?
Die Diskussion beschäftigt sich mit dem Problem, dass SGLang die Cache-Größe für lightning/linear Attention von Ling 2.6 nicht korrekt berichtet. Der Nutzer bemerkt, dass SGLang nur die Attention KV-Felder berichtet, während die linear/lightning-attention Cache-Größe als 0.00 GB angezeigt wird.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist relevant für autarke Home-Setups, da sie zeigt, dass die Cache-Größe für lightning/linear Attention in SGLang nicht korrekt berichtet wird. Dies kann zu einer Fehlkennung der tatsächlichen Cache-Last führen, was die Leistungsoptimierung erschweren kann.
Konsequenz für OpenCode-Nutzer:
Die genaue Berichterstattung der Cache-Größe ist wichtig, um die Leistung von Modellen wie Ling 2.6 zu optimieren. Nutzer sollten die Diskussion verfolgen, um zu sehen, ob die Cache-Größe in zukünftigen Versionen von SGLang korrekt berichtet wird.
Handlungsempfehlung:
Verfolgen Sie die Diskussion und überprüfen Sie, ob die Cache-Größe in zukünftigen Versionen von SGLang korrekt berichtet wird. Bis dahin können Sie die Leistung manuell überwachen.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Ling 2.6
– Framework-Version: SGLang 0.5.12.post1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfig