SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten

Kurzfassung: Die SGLang-Community diskutiert aktuell vor allem Themen rund um die Optimierung von Modellen und der Verbesserung der Performance auf Consumer-GPUs. Dominierende Themen sind die Unterstützung von Qwen3.5, die Optimierung von GLM-4.7 für long-context-Szenarien, und die Implementierung von Prefix-Caching. Diese Entwicklungen sind besonders relevant für Nutzer, die ein autarkes Setup mit 4x 3090 oder 2x 5090 aufbauen wollen, um Coding-Agenten wie OpenCode lokal und effizient zu betreiben.

[Addition of a not-strictly-block-diffusion model] (6/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die Diskussion dreht sich um die Möglichkeit, non-block diffusion LLMs wie Fast-dLLM v1 mit bidirectional LLaDA-8B und Dream-7B in SGLang zu integrieren. Diese Modelle verwenden approximate-KV-cache und confidence-based decoding thresholding mit gptq_marlin Quantisierung. Der Fragesteller möchte wissen, ob dies im Roadmap von SGLang berücksichtigt wird und ob jemand bereits daran arbeitet.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Integration von non-block diffusion LLMs könnte die Modellvielfalt auf Consumer-GPUs erweitern. Allerdings ist es unklar, ob diese Modelle spezifisch für 24 GB VRAM optimiert sind. Die Quantisierung mit gptq_marlin könnte den VRAM-Verbrauch reduzieren, was für 4x 3090 oder 2x 5090 vorteilhaft wäre. Threadripper oder Epyc Workstations könnten hilfreich sein, aber Consumer-Boards sollten auch funktionieren.

Konsequenz für OpenCode-Nutzer:
Die Integration dieser Modelle könnte die Tool-Calling-Qualität und die strukturierte Ausgabe verbessern. Nutzer sollten die Entwicklung verfolgen und auf Updates warten, um die neuesten Optimierungen zu nutzen.

Handlungsempfehlung:
Auf PR warten und die Entwicklung verfolgen.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Fast-dLLM v1, bidirectional LLaDA-8B, Dream-7B
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

[How to prioritize decode batches over prefill in SGLang? (GLM-4.7 deployment)] (8/10) — OpenCode-Fit: JA

Zur Discussion

Worum geht es konkret?
Der Fragesteller deployt das GLM-4.7 Modell auf H20 und benötigt Hilfe zur Optimierung der Durchsatzleistung. Das Ziel ist es, den Decode-Prozess zu priorisieren, um die Latenz für laufende Anfragen zu reduzieren. Der aktuelle Setup führt dazu, dass neue Anfragen den Prefill-Prozess dominieren und die Decode-Leistung beeinträchtigen.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Optimierung des Decode-Prozesses ist auch für Consumer-GPUs relevant. Die Parameter `–chunked-prefill-size` und `–enable-mixed-chunk` können verwendet werden, um den Decode-Prozess zu priorisieren. Dies ist besonders nützlich für long-context-Szenarien wie Claude-Code-Konversationen. Die VRAM-Verwaltung und die Multi-GPU-Konfiguration (TP=8) sind entscheidend, um die Performance zu steigern.

Konsequenz für OpenCode-Nutzer:
Eine bessere Priorisierung des Decode-Prozesses kann die Responsivität des Coding-Agenten verbessern. Nutzer sollten die vorgeschlagenen Parameter anpassen und die Performance überwachen.

Handlungsempfehlung:
Die Parameter `–chunked-prefill-size 4096` und `–enable-mixed-chunk` anwenden und die Performance überwachen.

Fakten-Tabelle:
– Hardware im Post: H20
– Modell: GLM-4.7
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=8

[Question about serving Qwen3.5 text-only SFT model saved as Qwen3_5ForCausalLM] (7/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Der Fragesteller hat Probleme beim Servieren eines feinjustierten Qwen3.5-Modells mit SGLang. Das Modell wurde mit `AutoModelForCausalLM` trainiert und gespeichert, aber SGLang erkennt `Qwen3_5ForCausalLM` nicht als gültige Architektur. Es wird erörtert, ob `Qwen3_5ForCausalLM` absichtlich nicht als SGLang-Eintragsklasse registriert ist und welche Workarounds möglich sind.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Unterstützung von feinjustierten Modellen ist für autarke Setups wichtig. Die fehlende Registrierung von `Qwen3_5ForCausalLM` kann ein Hindernis darstellen, aber es gibt Workarounds, wie das Ändern der Architektur in `Qwen3_5ForConditionalGeneration`. Dies ist besonders relevant, wenn Nutzer eigene Modelle trainieren und lokal betreiben möchten.

Konsequenz für OpenCode-Nutzer:
Die Möglichkeit, feinjustierte Modelle zu servieren, erweitert die Anwendungsmöglichkeiten von OpenCode. Nutzer sollten die Workarounds anwenden und die Entwicklung verfolgen, um sicherzustellen, dass ihre Modelle kompatibel sind.

Handlungsempfehlung:
Die Architektur in `Qwen3_5ForConditionalGeneration` ändern und die Kompatibilität überprüfen.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen3.5
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

[Does sglang really support run Qwen3.5-397B-A17B for processing Ultra-Long Texts(1M) ?] (7/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Der Fragesteller versucht, das Qwen3.5-397B-A17B Modell mit 1M Kontextlänge auf H20 zu betreiben, aber erhält einen AssertionError. Die Verwendung der `–json-model-override-args` Option führt zu einem Fehler, da die `text_config` überschrieben wird.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Unterstützung von Ultra-Long Texts ist für autarke Setups relevant, insbesondere für long-context-Szenarien. Die Verwendung von 4x 3090 oder 2x 5090 sollte theoretisch möglich sein, aber die aktuelle Implementierung hat Probleme. Die VRAM-Verwaltung und die Konfiguration der `text_config` sind entscheidend.

Konsequenz für OpenCode-Nutzer:
Die Fähigkeit, Ultra-Long Texts zu verarbeiten, kann die Anwendungsmöglichkeiten von OpenCode erweitern. Nutzer sollten die Fehlerbehebung verfolgen und auf Updates warten.

Handlungsempfehlung:
Auf PR warten und die Fehlerbehebung verfolgen.

Fakten-Tabelle:
– Hardware im Post: H20 144GB
– Modell: Qwen3.5-397B-A17B
– Framework-Version: sglang 0.5.12.post1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

[PeerCache — a decentralized P2P RDMA L3 backend for SGLang HiCache] (3/10) — OpenCode-Fit: NEIN

Zur Discussion

Worum geht es konkret?
PeerCache ist ein dezentraler P2P RDMA L3 Cache-Backend für SGLang HiCache. Es ermöglicht es, eine Gruppe von SGLang-Instanzen, die über RDMA verbunden sind, Prefix-KV-Cache direkt zwischen den Knoten zu teilen, ohne einen zentralen Cache-Server oder Metadaten-Master zu benötigen.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
PeerCache ist eher für Enterprise-Setups mit RDMA-Unterstützung und mehreren Knoten gedacht. Für ein autarkes Home-Setup mit Consumer-GPUs und ohne RDMA-Unterstützung ist dies nicht relevant. Die Hardwareanforderungen und die Komplexität der Einrichtung sind zu hoch.

Konsequenz für OpenCode-Nutzer:
PeerCache hat keinen direkten Nutzen für OpenCode-Nutzer in einem autarken Home-Setup. Die Fokus liegt auf dezentralen, hochskalierbaren Lösungen, die für private Haushalte nicht geeignet sind.

Handlungsempfehlung:
Ignorieren, da es für autarke Home-Setups nicht relevant ist.

Fakten-Tabelle:
– Hardware im Post: RDMA-fähige Netzwerkkarten
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

[SGLang Public Community Events] (2/10) — OpenCode-Fit: NEIN

Zur Discussion

Worum geht es konkret?
Die Diskussion informiert über wöchentliche Online-Entwicklungstreffen und lokale Meetups der SGLang-Community. Diese Veranstaltungen dienen der Diskussion von Features, dringenden Problemen und der Roadmap.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Community-Events sind eher für Entwickler und Beitragsinteressierte gedacht. Für Nutzer, die ein autarkes Home-Setup betreiben, haben diese Events eher indirekten Nutzen, da sie die Entwicklung und Verbesserung von SGLang fördern.

Konsequenz für OpenCode-Nutzer:
Die Teilnahme an Community-Events kann hilfreich sein, um die neuesten Entwicklungen zu verfolgen und Feedback zu geben. Allerdings sind diese Events nicht direkt relevant für die tägliche Nutzung von OpenCode in einem autarken Setup.

Handlungsempfehlung:
Teilnahme an Community-Events als optionales Engagement.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Weitere Diskussionen (kurz):

– Do Hopper support Deepseek V4 Flash run EP by deepep in the future? — Enterprise — nicht autark-relevant.
– deepep v2 support? — Enterprise — nicht autark-relevant.
– [[Question][Diffusion][SD3.5] Question about SGLang-native support for remaining Diffusers modules for stable-diffusion-3](https://github.com/sgl-project/sglang/discussions/26282) — Relevante Frage zur Unterstützung von Stable Diffusion 3.5, aber eher für spezialisierte Anwendungen.
– [[RFC] IOChain: request/response filters for OpenAI-compatible serving](https://github.com/sgl-project/sglang/discussions/26222) — Relevante Diskussion zur Erweiterbarkeit von SGLang, aber eher für fortgeschrittene Nutzer.
– CANN 9.0.0 support? — Relevante Frage zur Kompatibilität mit CANN 9.0.0, aber eher für spezialisierte Hardware.
– Can thinking_budget work with MTP enabled? — Relevante Frage zur Optimierung von Modellen, aber eher für fortgeschrittene Nutzer.
– Ling 2.6 lightning/linear attention cache size not exposed in SGLang metrics/logs — Relevante Frage zur Verbesserung der Metriken, aber eher für fortgeschrittene Nutzer.

👁 2 Aufrufe 👤 2 Leser