SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten

Kurzfassung: Die SGLang-Community diskutiert aktuell vor allem Themen rund um die Optimierung von Modellen für autarke, lokal betriebene Setup. Besonders relevant sind Diskussionen zur Kompatibilität von feinjustierten Modellen, der Optimierung von Throughput und der Unterstützung von langen Kontexten. Diese Themen sind entscheidend für Nutzer, die mit 4x 3090 oder 2x 5090-GPU-Setups Claude-Sonnet-Niveau erreichen möchten.

[Frage zur Bereitstellung eines feinjustierten Qwen3.5-Modells] (7/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die Diskussion dreht sich um Probleme bei der Bereitstellung eines feinjustierten Qwen3.5-Modells mit SGLang. Der Nutzer hat das Modell mit `AutoModelForCausalLM` trainiert und gespeichert, aber SGLang erkennt die Architektur `Qwen3_5ForCausalLM` nicht. Es wird diskutiert, ob diese Architektur absichtlich nicht unterstützt wird und welche Workarounds möglich sind.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die Kompatibilität von feinjustierten Modellen wichtig. Die aktuelle Diskussion zeigt, dass manuell die Architektur in `Qwen3_5ForConditionalGeneration` ändern oder `Qwen3_5ForCausalLM` in SGLang registrieren kann. Beides sollte auf Consumer-GPUs funktionieren, aber es erfordert technisches Know-how.

Konsequenz für OpenCode-Nutzer:
Die manuelle Änderung der Architektur oder das Registrieren der Architektur in SGLang kann die Kompatibilität von feinjustierten Modellen verbessern. Dies ist besonders relevant, wenn man spezifische Modelle für Agent-Workloads verwenden möchte.

Handlungsempfehlung:
Manuell die Architektur in `Qwen3_5ForConditionalGeneration` ändern oder `Qwen3_5ForCausalLM` in SGLang registrieren. Auf PRs warten, die diese Funktionalität offiziell hinzufügen.

Fakten-Tabelle:
– Hardware im Post: [nicht im Post belegt]
– Modell: Qwen3.5
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]

[Priorisierung von Decode-Batches über Prefill in SGLang (GLM-4.7 Deployment)] (8/10) — OpenCode-Fit: JA

Zur Discussion

Worum geht es konkret?
Die Diskussion behandelt die Optimierung des Throughputs bei der Bereitstellung des GLM-4.7-Modells mit SGLang. Der Nutzer möchte, dass Decode-Batches priorisiert werden, um die Leistung bei laufenden Anfragen zu verbessern, insbesondere bei langen Kontexten.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die Optimierung des Throughputs entscheidend, um eine glatte Leistung bei laufenden Anfragen zu gewährleisten. Die Parameter `–chunked-prefill-size` und `–enable-mixed-chunk` können hier hilfreich sein, aber es wird weiterhin diskutiert, wie man die Priorisierung von Decode-Batches verbessern kann.

Konsequenz für OpenCode-Nutzer:
Die Optimierung der Throughput-Parameter kann die Leistung von Agent-Workloads verbessern, insbesondere bei langen Kontexten. Dies ist wichtig, um eine reibungslose Benutzererfahrung zu gewährleisten.

Handlungsempfehlung:
Die Parameter `–chunked-prefill-size` und `–enable-mixed-chunk` anpassen und auf PRs warten, die die Priorisierung von Decode-Batches verbessern.

Fakten-Tabelle:
– Hardware im Post: H20
– Modell: GLM-4.7
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: TP=8

[Frage zur Unterstützung von Ultra-Langen Texten mit Qwen3.5-397B-A17B] (6/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die Diskussion dreht sich um Probleme bei der Verarbeitung von Ultra-Langen Texten (1M Kontextlänge) mit dem Qwen3.5-397B-A17B-Modell. Der Nutzer hat Probleme mit der `–json-model-override-args`-Option, die die `text_config` überschreibt und zu einem `AssertionError` führt.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Verarbeitung von Ultra-Langen Texten ist für Agent-Workloads wichtig, insbesondere bei der Verarbeitung von langen Code-Snippets. Die aktuelle Diskussion zeigt, dass die `–json-model-override-args`-Option möglicherweise nicht korrekt funktioniert, was die Verwendung von Ultra-Langen Texten erschwert.

Konsequenz für OpenCode-Nutzer:
Die Fehlfunktion der `–json-model-override-args`-Option kann die Verarbeitung von Ultra-Langen Texten beeinträchtigen. Nutzer sollten auf PRs warten, die dieses Problem beheben.

Handlungsempfehlung:
Auf PRs warten, die die `–json-model-override-args`-Option verbessern. Alternativ kann man versuchen, die `text_config` manuell zu ändern, aber dies erfordert technisches Know-how.

Fakten-Tabelle:
– Hardware im Post: H20 144GB
– Modell: Qwen3.5-397B-A17B
– Framework-Version: sglang 0.5.12.post1
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]

[Frage zur SGLang-native Unterstützung für verbleibende Diffusers-Module für Stable-Diffusion-3] (5/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die Diskussion behandelt die Frage, ob SGLang- native Implementierungen für die verbleibenden Diffusers-Module von Stable-Diffusion-3 geplant sind. Der Nutzer möchte wissen, ob die Diffusers-Module `transformer.transformer_blocks.*` und `transformer.time_text_embed` in SGLang integriert werden.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die native Unterstützung von Diffusers-Modulen kann die Leistung und Effizienz von Stable-Diffusion-3-Modellen verbessern. Für ein autarkes Home-Setup ist dies relevant, wenn man Stable-Diffusion-3 für Agent-Workloads verwenden möchte.

Konsequenz für OpenCode-Nutzer:
Die native Unterstützung von Diffusers-Modulen kann die Leistung von Stable-Diffusion-3-Modellen verbessern, was für Agent-Workloads nützlich sein kann. Nutzer sollten auf PRs warten, die diese Funktionalität hinzufügen.

Handlungsempfehlung:
Auf PRs warten, die die native Unterstützung von Diffusers-Modulen hinzufügen. Alternativ kann man die aktuellen Diffusers-Module weiterhin verwenden, aber dies kann die Leistung beeinträchtigen.

Fakten-Tabelle:
– Hardware im Post: [nicht im Post belegt]
– Modell: Stable-Diffusion-3.5
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]

[Frage zur Unterstützung von DeepSeek V4 Flash mit Expert Parallel auf H20] (4/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die Diskussion dreht sich um Probleme bei der Verwendung von DeepSeek V4 Flash mit Expert Parallel (EP) auf H20-GPUs. Der Nutzer erhält einen `AssertionError`, der darauf hinweist, dass FP4 und SM100 gleichzeitig benötigt werden, obwohl er SM90 verwendet.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Verwendung von DeepSeek V4 Flash mit EP ist für die Leistung von Modellen relevant, insbesondere bei der Verarbeitung von langen Kontexten. Die aktuelle Diskussion zeigt, dass die Unterstützung von FP4 und SM90 noch nicht vollständig ist, was die Verwendung auf Consumer-GPUs erschwert.

Konsequenz für OpenCode-Nutzer:
Die Fehlfunktion von DeepSeek V4 Flash mit EP kann die Leistung von Modellen beeinträchtigen. Nutzer sollten auf PRs warten, die die Unterstützung von FP4 und SM90 verbessern.

Handlungsempfehlung:
Auf PRs warten, die die Unterstützung von FP4 und SM90 hinzufügen. Alternativ kann man versuchen, andere Quantisierungsmethoden zu verwenden, aber dies kann die Leistung beeinträchtigen.

Fakten-Tabelle:
– Hardware im Post: H20
– Modell: DeepSeek V4 Flash
– Framework-Version: sglang 0.5.12
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]

[Frage zur Unterstützung von Ling 2.6 lightning/linear Attention Cache in SGLang] (6/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die Diskussion dreht sich um Probleme bei der Berichterstattung der Cache-Größe für Ling 2.6 lightning/linear Attention in SGLang. Der Nutzer bemerkt, dass SGLang eine viel kleinere Cache-Größe als vLLM berichtet, was die Benchmarking-Ergebnisse beeinträchtigen kann.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die korrekte Berichterstattung der Cache-Größe ist wichtig für die Optimierung von Modellen, insbesondere bei der Verwendung von lightning/linear Attention. Die aktuelle Diskussion zeigt, dass SGLang möglicherweise die lightning/linear Attention Cache-Größe nicht korrekt berichtet, was die Benchmarking-Ergebnisse beeinträchtigen kann.

Konsequenz für OpenCode-Nutzer:
Die Fehlmeldung der Cache-Größe kann die Optimierung von Modellen erschweren. Nutzer sollten auf PRs warten, die die Berichterstattung der Cache-Größe verbessern.

Handlungsempfehlung:
Auf PRs warten, die die Berichterstattung der Cache-Größe verbessern. Alternativ kann man versuchen, die Cache-Größe manuell zu überprüfen, aber dies erfordert technisches Know-how.

Fakten-Tabelle:
– Hardware im Post: [nicht im Post belegt]
– Modell: Ling 2.6
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]

Weitere Diskussionen (kurz):

– Addition of a not-strictly-block-diffusion model — Enterprise — nicht autark-relevant.
– Small commercial app use of Boson v.3 — Lizenzfragen für kommerzielle Nutzung, nicht direkt relevant für autarke Setup.
– PeerCache — a decentralized P2P RDMA L3 backend for SGLang HiCache — Enterprise — nicht autark-relevant.
– SGLang Public Community Events — Community-Events, nicht direkt relevant für technische Optimierung.
– Do Hopper support Deepseek V4 Flash run EP by deepep in the future? — Enterprise — nicht autark-relevant.
– deepep v2 support? — Enterprise — nicht autark-relevant.
– CANN 9.0.0 support? — Kompatibilitätsprobleme, relevant für spezifische Hardware.
– Can thinking_budget work with MTP enabled? — Spezifische Funktionalität, nicht direkt relevant für autarke Setup.
– Ling 2.6 lightning/linear attention cache size not exposed in SGLang metrics/logs — Cache-Optimierung, relevant für spezifische Modelle.
– مرحبا — Allgemeine Frage, nicht direkt relevant für technische Optimierung.
– [[RFC] IOChain: request/response filters for OpenAI-compatible serving](https://github.com/sgl-project/sglang/discussions/26222) — Enterprise — nicht autark-relevant.

👁 3 Aufrufe 👤 3 Leser