SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten

Kurzfassung

Die SGLang-Community diskutiert aktuell intensiv über Themen wie die Optimierung von Modellen für autarke Home-Setups, die Unterstützung von spezifischen Architekturen und die Verbesserung der Performance bei langen Kontexten. Dominierende Themen sind die Integration von Qwen3.5-Modellen, die Optimierung von GLM-4.7 für langfristige Anfragen und die Unterstützung von PeerCache für dezentrale RDMA-Kommunikation. Diese Entwicklungen sind besonders relevant für Nutzer, die ein autarkes Setup mit 4x 3090 oder 2x 5090 aufbauen möchten, um Coding-Agenten wie OpenCode lokal und effizient zu betreiben.

[Question about serving Qwen3.5 text-only SFT model saved as Qwen3_5ForCausalLM] (7/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die Diskussion dreht sich um Probleme beim Servieren eines feinjustierten Qwen3.5-Modells mit SGLang. Der Benutzer hat das Modell als `Qwen3_5ForCausalLM` gespeichert, was zu einem Fehler führt, da SGLang diese Architektur nicht unterstützt. Es wird diskutiert, ob man die Architektur manuell ändern oder das Modell als `Qwen3_5ForConditionalGeneration` speichern sollte.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist es wichtig, dass das Modell korrekt konfiguriert ist, um ohne Fehler zu laufen. Die Lösung, das Modell als `Qwen3_5ForConditionalGeneration` zu speichern, ist für Consumer-GPUs wie 3090 oder 5090 geeignet, da es keine speziellen Hardwareanforderungen hat.

Konsequenz für OpenCode-Nutzer:
Die korrekte Konfiguration des Modells sorgt für eine bessere Kompatibilität und verhindert Laufzeitfehler. Dies ist besonders wichtig für OpenCode-Nutzer, die lokal feinjustierte Modelle verwenden möchten.

Handlungsempfehlung:
Ändern Sie die Architektur des gespeicherten Modells manuell zurück zu `Qwen3_5ForConditionalGeneration` oder warten Sie auf ein Update von SGLang, das `Qwen3_5ForCausalLM` unterstützt.

Fakten-Tabelle:
– Hardware im Post: [nicht im Post belegt]
– Modell: Qwen3.5
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]

[How to prioritize decode batches over prefill in SGLang? (GLM-4.7 deployment)] (8/10) — OpenCode-Fit: JA

Zur Discussion

Worum geht es konkret?
Die Diskussion behandelt die Optimierung der Durchsatzleistung von GLM-4.7 bei langen Kontexten. Der Benutzer möchte, dass SGLang Decode-Batches priorisiert, um die Leistung für laufende Anfragen zu verbessern, wenn neue Anfragen eintreffen.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die Optimierung der Decode-Leistung besonders wichtig, da es häufig zu langen Kontexten kommt, wie bei Coding-Agenten. Die Einstellungen `–chunked-prefill-size 4096` und `–enable-mixed-chunk` können auf Consumer-GPUs angewendet werden, um die Leistung zu verbessern.

Konsequenz für OpenCode-Nutzer:
Die Priorisierung von Decode-Batches sorgt für eine bessere Reaktionsfähigkeit und geringere Latenz bei laufenden Anfragen, was die Benutzererfahrung verbessert. OpenCode-Nutzer sollten diese Einstellungen anwenden, um eine glatte und effiziente Agenten-Interaktion zu gewährleisten.

Handlungsempfehlung:
Verwenden Sie die Einstellungen `–chunked-prefill-size 4096` und `–enable-mixed-chunk` in Ihrer SGLang-Konfiguration, um Decode-Batches zu priorisieren.

Fakten-Tabelle:
– Hardware im Post: H20
– Modell: GLM-4.7
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: TP=8

[PeerCache — a decentralized P2P RDMA L3 backend for SGLang HiCache] (6/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die Diskussion stellt PeerCache vor, eine dezentrale RDMA-basierte L3-Cache-Backend für SGLang HiCache. PeerCache ermöglicht es, Präfix-KV-Cache direkt zwischen Knoten zu teilen, ohne zentrale Cache-Server oder Metadaten-Master.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist PeerCache weniger relevant, da es auf RDMA (Remote Direct Memory Access) basiert, das in der Regel in Clustern mit mehreren Knoten verwendet wird. Consumer-GPUs wie 3090 oder 5090 haben normalerweise keine RDMA-Fähigkeiten.

Konsequenz für OpenCode-Nutzer:
PeerCache ist für die Verbesserung der Cache-Performance in Clustern gedacht. Für OpenCode-Nutzer mit einem autarken Home-Setup ist es eher irrelevant, da es keine direkte Anwendung auf ein einzelnes oder wenige Consumer-GPUs hat.

Handlungsempfehlung:
Ignorieren Sie PeerCache, es sei denn, Sie planen, ein Cluster mit mehreren Knoten aufzusetzen, die RDMA unterstützen.

Fakten-Tabelle:
– Hardware im Post: [nicht im Post belegt]
– Modell: [nicht im Post belegt]
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]

[Does sglang really support run Qwen3.5-397B-A17B for processing Ultra-Long Texts(1M) ?] (7/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die Diskussion behandelt das Problem, dass SGLang bei der Verwendung des Qwen3.5-397B-A17B-Modells mit einem Kontext von 1 Million Tokens einen Fehler wirft. Der Benutzer hat versucht, die Kontextlänge zu überschreiben, was zu einem Assertion-Fehler führt.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist die Unterstützung von langen Kontexten wichtig, insbesondere für Coding-Agenten, die oft mit großen Texten arbeiten. Der Fehler bei der Kontextlängen-Überschreibung ist ein bekanntes Problem, das aufgelöst werden muss, um das Modell effektiv zu verwenden.

Konsequenz für OpenCode-Nutzer:
Die Fähigkeit, lange Texte zu verarbeiten, ist entscheidend für die Effizienz von Coding-Agenten. OpenCode-Nutzer sollten auf ein Update von SGLang warten, das das Problem behebt, oder alternative Modelle mit unterstützten langen Kontexten verwenden.

Handlungsempfehlung:
Warten Sie auf ein Update von SGLang, das das Problem mit der Kontextlängen-Überschreibung behebt, oder verwenden Sie im Moment alternative Modelle, die längere Kontexte unterstützen.

Fakten-Tabelle:
– Hardware im Post: H20 144GB
– Modell: Qwen3.5-397B-A17B
– Framework-Version: sglang 0.5.12.post1
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]

[Do Hopper support Deepseek V4 Flash run EP by deepep in the future?] (5/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die Diskussion dreht sich um das Problem, dass DeepSeek V4 Flash mit Expert Parallel (EP) auf H20-GPUs nicht funktioniert. Der Benutzer hat einen Fehler erhalten, der darauf hindeutet, dass FP4 und SM100 gleichzeitig erforderlich sind, was auf SM90-GPUs nicht möglich ist.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup mit 3090 oder 5090-GPUs ist die Unterstützung von DeepSeek V4 Flash mit EP aktuell nicht möglich, da diese GPUs die erforderliche Hardware (FP4 und SM100) nicht haben. Es wird erwartet, dass SGLang in der Zukunft Unterstützung für FP4 auf SM90 hinzufügen wird.

Konsequenz für OpenCode-Nutzer:
Die Unterstützung von DeepSeek V4 Flash mit EP ist für die Leistung von Coding-Agenten wichtig, insbesondere bei der Verarbeitung komplexer Aufgaben. OpenCode-Nutzer sollten im Moment alternative Modelle verwenden oder auf ein zukünftiges Update von SGLang warten.

Handlungsempfehlung:
Warten Sie auf ein zukünftiges Update von SGLang, das FP4 auf SM90 unterstützt, oder verwenden Sie alternative Modelle, die auf Ihren GPUs laufen.

Fakten-Tabelle:
– Hardware im Post: H20
– Modell: DeepSeek V4 Flash
– Framework-Version: sglang 0.5.12
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]

[SGLang Public Community Events] (4/10) — OpenCode-Fit: NEIN

Zur Discussion

Worum geht es konkret?
Die Diskussion informiert über wöchentliche Online-Entwicklungstreffen und lokale Meetups der SGLang-Community. Diese Treffen dienen der Diskussion von Features, dringenden Problemen und der Roadmap.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup sind diese Events weniger relevant, da sie sich hauptsächlich auf die Entwicklung und den Austausch zwischen Entwicklern konzentrieren. Sie können jedoch nützlich sein, um die neuesten Entwicklungen und Updates zu verfolgen.

Konsequenz für OpenCode-Nutzer:
Die Teilnahme an diesen Events kann hilfreich sein, um über die neuesten Entwicklungen und Best Practices informiert zu sein, ist aber nicht unbedingt notwendig für den Betrieb eines autarken Home-Setups.

Handlungsempfehlung:
Teilnehmen Sie den Events, wenn Sie sich für die Entwicklung von SGLang interessieren, aber es ist nicht zwingend erforderlich für den Betrieb eines autarken Home-Setups.

Weitere Diskussionen (kurz):

– Addition of a not-strictly-block-diffusion model — Enterprise — nicht autark-relevant
– Small commercial app use of Boson v.3 — Relevante Lizenzfrage, aber eher für kommerzielle Anwendungen
– deepep v2 support? — Enterprise — nicht autark-relevant
– [[Question][Diffusion][SD3.5] Question about SGLang-native support for remaining Diffusers modules for stable-diffusion-3](https://github.com/sgl-project/sglang/discussions/26282) — Spezifisch für Stable Diffusion, eher für spezialisierte Anwendungen
– [[RFC] IOChain: request/response filters for OpenAI-compatible serving](https://github.com/sgl-project/sglang/discussions/26222) — Enterprise — nicht autark-relevant
– مرحبا — Allgemeine Frage, eher irrelevant
– CANN 9.0.0 support? — Spezifisch für CANN, eher für spezialisierte Anwendungen
– Can thinking_budget work with MTP enabled? — Spezifische Frage, eher für spezialisierte Anwendungen
– Ling 2.6 lightning/linear attention cache size not exposed in SGLang metrics/logs — Spezifische Frage, eher für spezialisierte Anwendungen

👁 3 Aufrufe 👤 2 Leser