SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten

Kurzfassung

Die SGLang-Community diskutiert aktuell intensiv über Themen, die die Leistung und den Einsatz von lokalen KI-Modellen auf Consumer-Hardware verbessern. Dominierende Themen sind die Optimierung der Inference auf Multi-GPU-Setups, die Unterstützung von spezifischen Modellen wie Qwen3.5 und GLM-4.7, sowie die Implementierung von Prefix-Caching für Agent-Workloads. Diese Entwicklungen sind besonders relevant für Nutzer, die ein autarkes Setup mit 4x 3090 oder 2x 5090 GPUs betreiben und eine hohe Leistung für Coding-Agenten wie OpenCode erzielen möchten.

Addition of a not-strictly-block-diffusion model (7/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Die Diskussion dreht sich um die Möglichkeit, non-block diffusion LLMs wie Fast-dLLM v1 mit bidirectional LLaDA-8B und Dream-7B in SGLang zu integrieren. Diese Modelle verwenden approximate-KV-cache und confidence-based decoding thresholding, was die Leistung und Effizienz verbessern könnte. Der Fragesteller möchte wissen, ob diese Modelle im Roadmap von SGLang berücksichtigt werden und ob bereits jemand daran arbeitet.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Integration von non-block diffusion LLMs könnte die Leistung von Coding-Agenten wie OpenCode auf Consumer-GPUs verbessern. Diese Modelle sind besonders relevant, wenn man eine hohe Kontextlänge und schnelle Decoding-Geschwindigkeiten benötigt. Allerdings ist die Implementierung noch in der Planungsphase, und es gibt derzeit keine konkreten Zeitpläne.

Konsequenz für OpenCode-Nutzer:
Die Unterstützung dieser Modelle könnte zu schnelleren und effizienteren Agent-Workloads führen, insbesondere bei der Verarbeitung langer Texte. Nutzer sollten die Diskussion verfolgen, um über Fortschritte informiert zu sein.

Handlungsempfehlung:
Auf PR warten und die Diskussion verfolgen.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Fast-dLLM v1, bidirectional LLaDA-8B, Dream-7B
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

How to prioritize decode batches over prefill in SGLang? (GLM-4.7 deployment) (8/10) — OpenCode-Fit: JA

Worum geht es konkret?
Der Fragesteller optimiert die Deployment des GLM-4.7 Modells auf H20-GPUs und hat Probleme mit der Priorisierung von Decode-Batches über Prefill. Er verwendet verschiedene Parameter, um die Decode-Throughput zu verbessern, aber neue Anfragen blockieren die laufenden Decode-Vorgänge. Er sucht nach Konfigurationsoptionen, um dieses Problem zu lösen.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Optimierung der Decode-Priorisierung ist auch für Home-Setups relevant, da sie die Leistung bei gleichzeitigen Anfragen verbessert. Die Parameter wie `–chunked-prefill-size`, `–enable-mixed-chunk`, und `–schedule-conservativeness` können auf Consumer-GPUs angewendet werden, um die Latenz für laufende Anfragen zu reduzieren.

Konsequenz für OpenCode-Nutzer:
Eine bessere Priorisierung von Decode-Batches kann zu einer glatteren und schnelleren Verarbeitung von Agent-Workloads führen, insbesondere bei der Verarbeitung langer Kontexte und gleichzeitigen Anfragen.

Handlungsempfehlung:
Experimentiere mit den genannten Parametern und beobachte die Effekte auf die Leistung. Die Dokumentation und Community-Beiträge können weitere Tipps liefern.

Fakten-Tabelle:
– Hardware im Post: H20
– Modell: GLM-4.7
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=8

Question about serving Qwen3.5 text-only SFT model saved as Qwen3_5ForCausalLM (7/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Der Fragesteller hat Probleme beim Servieren eines feinjustierten Qwen3.5-Modells mit SGLang. Das Modell wurde mit `AutoModelForCausalLM` trainiert und gespeichert, aber SGLang unterstützt `Qwen3_5ForCausalLM` nicht direkt. Er fragt, ob es sicher ist, `Qwen3_5ForCausalLM` manuell zu registrieren oder ob es besser ist, die Konfiguration auf `Qwen3_5ForConditionalGeneration` zurückzusetzen.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Unterstützung von feinjustierten Modellen ist für Home-Setups wichtig, da sie die Leistung und Anpassungsfähigkeit erhöhen. Die manuelle Registrierung von `Qwen3_5ForCausalLM` könnte eine temporäre Lösung sein, aber es ist ratsam, die Konfiguration auf `Qwen3_5ForConditionalGeneration` zurückzusetzen, um Kompatibilitätssicherheit zu gewährleisten.

Konsequenz für OpenCode-Nutzer:
Die erfolgreiche Servierung von feinjustierten Modellen kann die Leistung und die Anpassungsfähigkeit von Coding-Agenten verbessern. Nutzer sollten die Konfigurationen sorgfältig prüfen und gegebenenfalls die Community um Hilfe bitten.

Handlungsempfehlung:
Die Konfiguration auf `Qwen3_5ForConditionalGeneration` zurücksetzen und die Diskussion verfolgen, um auf Updates zu warten.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen3.5
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Small commercial app use of Boson v.3 (3/10) — OpenCode-Fit: NEIN

Worum geht es konkret?
Der Fragesteller möchte wissen, ob er Boson v.3 MP3-Dateien in einer kommerziellen SwiftUI-App für den AppStore verwenden darf, ohne eine Lizenz zu benötigen. Es handelt sich um eine Frage zur Lizenzierung und kommerziellen Nutzung.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist für Home-Setups irrelevant, da sie sich auf die kommerzielle Nutzung von Boson v.3 in einer App konzentriert. Für Nutzer, die ein autarkes Setup betreiben, ist diese Frage nicht relevant.

Konsequenz für OpenCode-Nutzer:
Keine direkte Konsequenz für OpenCode-Nutzer. Die Diskussion ist eher für Entwickler von kommerziellen Anwendungen relevant.

Handlungsempfehlung:
Die Lizenzbedingungen von Boson v.3 prüfen und gegebenenfalls die Community oder den Lizenzgeber um Klarstellung bitten.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Boson v.3
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

PeerCache — a decentralized P2P RDMA L3 backend for SGLang HiCache (4/10) — OpenCode-Fit: NEIN

Worum geht es konkret?
Die Diskussion stellt PeerCache vor, eine dezentrale P2P RDMA L3-Cache-Backend für SGLang HiCache. PeerCache ermöglicht es, eine Gruppe von SGLang-Instanzen über RDMA direkt miteinander zu kommunizieren, ohne einen zentralen Cache-Server zu benötigen. Es wird als Drop-in-Ersatz für HiCache angeboten.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
PeerCache ist für Multi-Node-Setups und Clustervernetzung gedacht, was für Home-Setups mit 1-6 GPUs nicht relevant ist. Die Hardwareanforderungen wie RDMA und InfiniBand sind für die meisten privaten Nutzer zu hoch.

Konsequenz für OpenCode-Nutzer:
Keine direkte Konsequenz für OpenCode-Nutzer. Die Diskussion ist eher für Enterprise-Setups relevant.

Handlungsempfehlung:
Enterprise — ignorieren.

Fakten-Tabelle:
– Hardware im Post: RDMA, InfiniBand
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Does sglang really support run Qwen3.5-397B-A17B for processing Ultra-Long Texts(1M) ? (8/10) — OpenCode-Fit: JA

Worum geht es konkret?
Der Fragesteller hat Probleme beim Betrieb des Qwen3.5-397B-A17B-Modells mit einer Kontextlänge von 1M auf H20-GPUs. Er verwendet die `–json-model-override-args` Option, die einen Fehler verursacht. Er fragt, ob es möglich ist, das Modell mit der gewünschten Kontextlänge zu betreiben und wie der Fehler behoben werden kann.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Unterstützung von Modellen mit sehr langer Kontextlänge ist für Home-Setups relevant, da sie die Leistung bei der Verarbeitung großer Texte verbessern kann. Die `–json-model-override-args` Option kann auf Consumer-GPUs verwendet werden, aber es gibt derzeit ein Problem, das behoben werden muss.

Konsequenz für OpenCode-Nutzer:
Die erfolgreiche Verarbeitung von Ultra-Long Texts kann die Leistung von Coding-Agenten erheblich verbessern. Nutzer sollten die Diskussion verfolgen, um auf Lösungen zu warten.

Handlungsempfehlung:
Die Diskussion verfolgen und auf Updates warten. Möglicherweise ist ein Patch oder eine Workaround-Lösung in Kürze verfügbar.

Fakten-Tabelle:
– Hardware im Post: H20
– Modell: Qwen3.5-397B-A17B
– Framework-Version: sglang 0.5.12.post1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Weitere Diskussionen (kurz):

– Do Hopper support Deepseek V4 Flash run EP by deepep in the future? (2/10) — OpenCode-Fit: NEIN
– Enterprise — nicht autark-relevant, H20-GPU.

– deepep v2 support? (2/10) — OpenCode-Fit: NEIN
– Enterprise — nicht autark-relevant, NCCL GIN, TMA.

– [[Question][Diffusion][SD3.5] Question about SGLang-native support for remaining Diffusers modules for stable-diffusion-3](https://github.com/sgl-project/sglang/discussions/26282) (5/10) — OpenCode-Fit: BEDINGT
– Relevante Frage zur Unterstützung von Diffusers-Modulen, aber spezifisch für Stable Diffusion 3.5.

– [[RFC] IOChain: request/response filters for OpenAI-compatible serving](https://github.com/sgl-project/sglang/discussions/26222) (4/10) — OpenCode-Fit: BEDINGT
– Vorschlag für eine Request/Response-Filter-Pipeline, relevant für die Erweiterbarkeit von SGLang.

– مرحبا (2/10) — OpenCode-Fit: NEIN
– Allgemeine Frage, irrelevant für autarke Setups.

– CANN 9.0.0 support? (3/10) — OpenCode-Fit: NEIN
– Frage zur Unterstützung von CANN 9.0.0, relevant für spezifische Hardwarekonfigurationen.

– Can thinking_budget work with MTP enabled? (3/10) — OpenCode-Fit: NEIN
– Frage zur Kompatibilität von `thinking_budget` mit MTP, spezifisch für bestimmte Konfigurationen.

– Ling 2.6 lightning/linear attention cache size not exposed in SGLang metrics/logs (6/10) — OpenCode-Fit: BEDINGT
– Frage zur Berücksichtigung des Lightning/Linear Attention-Caches in den SGLang-Metriken, relevant für die Leistungsüberwachung.

👁 2 Aufrufe 👤 2 Leser