SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten
Kurzfassung:
Die SGLang-Community diskutiert aktuell intensiv über die Optimierung von Modellen und Infrastrukturen für autarke, lokale Agent-Inference. Themen wie die Unterstützung von Qwen3.5, die Optimierung von GLM-4.7 für langfristige Kontexte und die Implementierung von PeerCache für dezentrale RDMA-KV-Caching sind besonders relevant. Diese Entwicklungen haben direkte Auswirkungen auf Nutzer, die ein 4x 3090 oder 2x 5090 Setup nutzen möchten, um Claude-Sonnet-Niveau zu erreichen.
[Frage zur Bereitstellung eines feinjustierten Qwen3.5-Modells] (8/10) — OpenCode-Fit: JA
Worum geht es konkret?
Die Diskussion dreht sich um Probleme bei der Bereitstellung eines feinjustierten Qwen3.5-Modells mit SGLang. Der Benutzer hat das Modell mit Transformers trainiert und versucht, es mit SGLang zu servieren. Dabei tritt ein Fehler auf, da die Architektur `Qwen3_5ForCausalLM` nicht als SGLang-Eingangsklasse registriert ist. Es wird diskutiert, ob diese Architektur absichtlich nicht unterstützt wird und welche Workarounds möglich sind.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die Unterstützung von Qwen3.5 relevant, da es ein leistungsstarkes Modell für Agent-Workloads ist. Die Lösung könnte darin bestehen, die Architektur manuell zu registrieren oder die gespeicherte Konfiguration zu ändern. Beides ist auf Consumer-GPUs möglich, ohne spezielle Hardware zu benötigen.
Konsequenz für OpenCode-Nutzer:
Die manuelle Registrierung der Architektur oder die Änderung der gespeicherten Konfiguration kann die Bereitstellung des feinjustierten Modells ermöglichen. Dies führt zu besseren Tool-Calling-Fähigkeiten und einer verbesserten Agent-Performance.
Handlungsempfehlung:
Manuell die Architektur `Qwen3_5ForCausalLM` in SGLang registrieren oder die gespeicherte Konfiguration auf `Qwen3_5ForConditionalGeneration` ändern.
Fakten-Tabelle:
– Hardware im Post: [nicht im Post belegt]
– Modell: Qwen3.5
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]
[Priorisierung von Decode-Batches über Prefill in SGLang (GLM-4.7 Deployment)] (7/10) — OpenCode-Fit: JA
Worum geht es konkret?
Der Benutzer bereitet das GLM-4.7-Modell auf einem H20-GPU-Setup vor und versucht, die Durchsatzoptimierung zu verbessern. Das Ziel ist es, Decode-Batches zu priorisieren, um die Leistung für laufende Anfragen zu gewährleisten, wenn neue Anfragen eintreffen. Der Benutzer hat bereits einige Parameter angepasst, aber die gewünschte Priorisierung wird nicht erreicht.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die Optimierung der Decode-Priorisierung wichtig, um eine glatte Leistung bei langfristigen Kontexten zu gewährleisten. Die Parameter `–chunked-prefill-size` und `–enable-mixed-chunk` können auch auf Consumer-GPUs verwendet werden, um die Leistung zu verbessern.
Konsequenz für OpenCode-Nutzer:
Die Optimierung der Decode-Priorisierung kann zu einer besseren Leistung bei langfristigen Agent-Workloads führen, was besonders für OpenCode-Nutzer relevant ist, die kontinuierliche Tool-Calling-Fähigkeiten benötigen.
Handlungsempfehlung:
Die Parameter `–chunked-prefill-size` und `–enable-mixed-chunk` anpassen und die SGLang-Dokumentation zur Priorisierung von Decode-Batches über Prefill konsultieren.
Fakten-Tabelle:
– Hardware im Post: H20
– Modell: GLM-4.7
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: TP=8
[Frage zur Unterstützung von Qwen3.5-397B-A17B für Ultra-Lange Texte (1M)] (6/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Der Benutzer versucht, das Qwen3.5-397B-A17B-Modell mit einem Kontext von 1 Million Tokens zu verwenden. Er verwendet die `–json-model-override-args`-Option, um die Konfiguration zu überschreiben, aber erhält einen `AssertionError`, da die `num_attention_heads`-Eigenschaft fehlt.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Verwendung von Qwen3.5-397B-A17B mit einem 1-Million-Token-Kontext ist für ein autarkes Home-Setup relevant, da es erweiterte Agent-Workloads ermöglicht. Die Lösung könnte darin bestehen, die Konfiguration manuell zu korrigieren oder auf eine zukünftige SGLang-Version zu warten, die das Problem behebt.
Konsequenz für OpenCode-Nutzer:
Die Unterstützung von Ultra-Langen Texten kann die Fähigkeit von OpenCode-Agenten erweitern, komplexe und langfristige Aufgaben zu bearbeiten. Die manuelle Korrektur der Konfiguration oder das Warten auf eine Update kann die Leistung verbessern.
Handlungsempfehlung:
Die Konfiguration manuell korrigieren oder auf eine zukünftige SGLang-Version warten, die das Problem behebt.
Fakten-Tabelle:
– Hardware im Post: H20 144GB
– Modell: Qwen3.5-397B-A17B
– Framework-Version: sglang 0.5.12.post1
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]
[PeerCache — ein dezentraler P2P RDMA L3-Backend für SGLang HiCache] (5/10) — OpenCode-Fit: NEIN
Worum geht es konkret?
PeerCache ist ein dezentraler L3-KV-Cache-Backend für SGLang HiCache, das es ermöglicht, Präfix-KV-Cache direkt zwischen Knoten über RDMA zu teilen. Es wird ohne zentrale Cache-Server oder Metadaten-Master betrieben und unterstützt Mooncake-style RDMA-KV-Teilung.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
PeerCache ist für Clusterverwendungen und erfordert RDMA-Unterstützung, was für ein autarkes Home-Setup nicht relevant ist. Consumer-GPUs und Workstations haben in der Regel keine RDMA-Unterstützung, sodass diese Lösung nicht anwendbar ist.
Konsequenz für OpenCode-Nutzer:
PeerCache ist für die Verwendung in Clustern gedacht und bringt keine direkten Vorteile für ein autarkes Home-Setup. OpenCode-Nutzer sollten sich auf andere Optimierungen konzentrieren, die auf Consumer-Hardware laufen.
Handlungsempfehlung:
PeerCache ignorieren, da es für autarke Home-Setups nicht relevant ist.
Fakten-Tabelle:
– Hardware im Post: [nicht im Post belegt]
– Modell: [nicht im Post belegt]
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]
[Frage zur Unterstützung von DeepSeek V4 Flash mit FP4 auf SM90] (4/10) — OpenCode-Fit: NEIN
Worum geht es konkret?
Der Benutzer versucht, DeepSeek V4 Flash mit FP4-Quantisierung auf einer H20-GPU mit SM90-Architektur zu verwenden. Er erhält einen `AssertionError`, da FP4 und SM100 gleichzeitig erforderlich sind. Es wird gefragt, ob SGLang in der Zukunft FP4 auf SM90 unterstützen wird.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Verwendung von DeepSeek V4 Flash mit FP4-Quantisierung auf SM90 ist für ein autarkes Home-Setup nicht relevant, da SM90-GPUs in der Regel nicht in Consumer-Setups verwendet werden. Die Unterstützung von FP4 auf SM90 ist eher ein Enterprise-Thema.
Konsequenz für OpenCode-Nutzer:
Die Unterstützung von FP4 auf SM90 ist für OpenCode-Nutzer in einem autarken Home-Setup nicht relevant. Es gibt bessere Optionen für die Quantisierung auf Consumer-GPUs, wie INT4 oder FP8.
Handlungsempfehlung:
Die Unterstützung von FP4 auf SM90 ignorieren und stattdessen auf andere Quantisierungsmethoden wie INT4 oder FP8 fokussieren.
Fakten-Tabelle:
– Hardware im Post: H20
– Modell: DeepSeek V4 Flash
– Framework-Version: sglang 0.5.12
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]
[Frage zur SGLang-eigenen Unterstützung der verbleibenden Diffusers-Module für Stable Diffusion 3.5] (3/10) — OpenCode-Fit: NEIN
Worum geht es konkret?
Der Benutzer fragt, ob SGLang-Entwickler vorhaben, die verbleibenden Diffusers-Module für Stable Diffusion 3.5 durch SGLang-eigene Implementierungen zu ersetzen. Aktuell werden einige Module direkt von Diffusers verwendet, was die Leistung und die Integration beeinträchtigen könnte.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die SGLang-eigene Unterstützung von Diffusers-Modulen könnte die Leistung und die Integration von Stable Diffusion 3.5 verbessern. Allerdings ist dies eher ein Entwicklungs-Thema und hat weniger direkte Auswirkungen auf ein autarkes Home-Setup.
Konsequenz für OpenCode-Nutzer:
Die SGLang-eigene Unterstützung von Diffusers-Modulen könnte in Zukunft die Leistung von Stable Diffusion 3.5 verbessern, aber es gibt aktuell keine dringenden Handlungsempfehlungen für OpenCode-Nutzer.
Handlungsempfehlung:
Die Diskussion verfolgen und auf zukünftige Updates warten.
Fakten-Tabelle:
– Hardware im Post: [nicht im Post belegt]
– Modell: Stable Diffusion 3.5
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]
Weitere Diskussionen (kurz):
– SGLang Public Community Events — ENTERPRISE (für uns irrelevant): Wöchentliche Online-Treffen und lokale Meetups für SGLang-Entwickler. Nicht direkt relevant für autarke Home-Setups.
– Do Hopper support Deepseek V4 Flash run EP by deepep in the future? — ENTERPRISE (für uns irrelevant): Frage zur Unterstützung von DeepSeek V4 Flash mit FP4 auf SM90. Relevanter für Enterprise-Setups.
– deepep v2 support? — ENTERPRISE (für uns irrelevant): Frage zur Unterstützung von DeepEP v2, das RDMA-Kommunikation und TMA verwendet. Relevanter für Clusterverwendungen.
– CANN 9.0.0 support? — ENTERPRISE (für uns irrelevant): Frage zur Unterstützung von CANN 9.0.0, das Konflikte mit aktuellen SGLang-Versionen verursacht. Relevanter für spezifische Hardware-Setups.
– Can thinking_budget work with MTP enabled? — ENTERPRISE (für uns irrelevant): Frage zur Verwendung von `thinking_budget` mit MTP. Relevanter für spezifische Optimierungen.
– Ling 2.6 lightning/linear attention cache size not exposed in SGLang metrics/logs — ENTERPRISE (für uns irrelevant): Frage zur Berücksichtigung des Lightning/Linear Attention Cache in SGLang-Metriken. Relevanter für spezifische Benchmarking-Szenarien.