SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten

Kurzfassung

Die SGLang-Community diskutiert aktuell vor allem Themen rund um die Optimierung von Modellen für autarke, lokal betriebene Setup. Besonders relevant sind Diskussionen zur Verbesserung der Performance von Consumer-GPUs, der Unterstützung von Modellen wie Qwen3, Llama-3.3 und GLM, sowie der Implementierung von Prefix-Caching für Agent-Workloads. Diese Entwicklungen sind entscheidend für Nutzer, die ein Claude-Sonnet-ähnliches Coding-Erlebnis auf 4x 3090 oder 2x 5090 erreichen möchten.

Is there a example about deepseek-v4-pro pd disaggregation？ (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)

Worum geht es konkret?
Der Nutzer fragt nach einem Beispiel zur pd-disaggregation für das Modell DeepSeek V4 Pro. Er folgt der offiziellen Dokumentation, aber stößt auf Probleme bei der Konfiguration und dem parallelen Betrieb auf mehreren Knoten. Die Diskussion beinhaltet detaillierte Befehle und Konfigurationen, die RDMA und Mooncake-Backend verwenden.

Was heißt das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist nicht für autarke Home-Setups relevant, da sie auf Enterprise-Hardware wie H100 und RDMA-Netzwerke fokussiert ist. Consumer-GPUs und einfache Workstations können diese Konfigurationen nicht nachbilden.

Konsequenz für OpenCode-Nutzer:
Diese Diskussion hat keinen direkten Einfluss auf OpenCode-Nutzer mit Consumer-GPUs. Es gibt keine relevanten Verbesserungen oder Workarounds, die auf autarken Home-Setups anwendbar wären.

Handlungsempfehlung:
Enterprise — ignorieren.

Fakten-Tabelle:
– Hardware im Post: NVIDIA H100 (80GB)
– Modell: DeepSeek V4 Pro
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=16, PP=2

[[Diffusion] Is there support for /metrics endpoint in SGLang Diffusion (Qwen-Image)](https://github.com/sgl-project/sglang/discussions/18576) (3/10) — OpenCode-Fit: NEIN

Worum geht es konkret?
Der Nutzer versucht, das `/metrics`-Endpoint für das Diffusion-Modell Qwen-Image-2512 zu verwenden, aber erhält einen 404-Fehler. Er verwendet Kubernetes und die neueste nightly-Version von SGLang. Das `/metrics`-Endpoint wird für die Überwachung von Metriken wie Prometheus benötigt.

Was heißt das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist eher relevant für Enterprise-Setups, die Kubernetes und H100-GPUs verwenden. Für autarke Home-Setups mit Consumer-GPUs und einfachen Workstations ist die Überwachung von Metriken weniger kritisch und oft nicht erforderlich.

Konsequenz für OpenCode-Nutzer:
Für OpenCode-Nutzer mit autarken Home-Setups ist die Verfügbarkeit des `/metrics`-Endpoints weniger relevant. Es gibt keine direkten Vorteile oder Verbesserungen, die aus dieser Diskussion resultieren.

Handlungsempfehlung:
Beobachten, noch nicht stable. Wenn Metriken wichtig sind, kann man auf eine zukünftige Implementierung warten.

Fakten-Tabelle:
– Hardware im Post: NVIDIA H100 (80GB)
– Modell: Qwen-Image-2512
– Framework-Version: lmsysorg/sglang:nightly-dev-20260209-bf89cc38
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=1

Severe image quality discrepancy between singleton and dynamic batched requests with identical seed, steps and size (5/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Der Nutzer berichtet über eine signifikante Unterschied in der Bildqualität zwischen singleton- und batched-Anfragen bei der Verwendung des Diffusion-Modells. Trotz identischer Parameter wie Seed, Anzahl der Inferenzschritte und Größe, sind die generierten Bilder bei batched-Anfragen deutlich unterschiedlich.

Was heißt das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist relevant für Nutzer, die Diffusion-Modelle auf autarken Home-Setups betreiben. Die Unterschiede in der Bildqualität können bei der Verwendung von Batch-Verarbeitung auffallen, was die konsistente Qualität der generierten Bilder beeinträchtigen kann.

Konsequenz für OpenCode-Nutzer:
Für OpenCode-Nutzer, die Diffusion-Modelle verwenden, kann dies zu unerwarteten Ergebnissen führen. Es ist wichtig, die Batch-Größe und die Verarbeitungsstrategie sorgfältig zu konfigurieren, um konsistente Ergebnisse zu erzielen.

Handlungsempfehlung:
Auf PR warten. Die Diskussion und mögliche Workarounds im Issue-Thread verfolgen.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Diffusion-Modell
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Question about serving Qwen3.5 text-only SFT model saved as Qwen3_5ForCausalLM (6/10) — OpenCode-Fit: JA

Worum geht es konkret?
Der Nutzer hat Probleme beim Betreiben eines feinjustierten Qwen3.5-Modells mit SGLang. Das Modell wurde mit `AutoModelForCausalLM` trainiert und gespeichert, aber SGLang unterstützt `Qwen3_5ForCausalLM` nicht direkt. Es gibt eine Diskussion darüber, ob man das Modell manuell anpassen oder die Architektur in der Konfiguration ändern sollte.

Was heißt das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist relevant für Nutzer, die feinjustierte Modelle auf autarken Home-Setups betreiben möchten. Die Lösung, die Architektur in der Konfiguration zu ändern, kann helfen, das Modell erfolgreich zu betreiben.

Konsequenz für OpenCode-Nutzer:
Für OpenCode-Nutzer, die feinjustierte Modelle verwenden, kann die Änderung der Architektur in der Konfiguration eine Lösung sein. Dies ermöglicht es, das Modell ohne umfangreiche Anpassungen zu betreiben.

Handlungsempfehlung:
Modifiziere die gespeicherte Konfiguration, um `Qwen3_5ForConditionalGeneration` zu verwenden. Dies sollte das Problem beheben.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen3.5
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Addition of a not-strictly-block-diffusion model (4/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Der Nutzer fragt, ob das Hinzufügen von nicht-streng block-diffusion Modellen wie bidirectional LLaDA-8B oder Dream-7B mit approximate-KV-Cache und confidence-based decoding thresholding in den Roadmap von SGLang geplant ist. Diese Modelle könnten durch gptq_marlin-Quantisierung unterstützt werden.

Was heißt das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist relevant, da sie die Unterstützung von weiteren Modellen auf autarken Home-Setups betrifft. Die Hinzufügung solcher Modelle könnte die Vielfalt der verfügbaren Modelle erweitern und die Leistung verbessern.

Konsequenz für OpenCode-Nutzer:
Für OpenCode-Nutzer könnte die Unterstützung dieser Modelle zusätzliche Optionen bieten, insbesondere bei der Verarbeitung langer Kontexte und der Verbesserung der Decoding-Qualität.

Handlungsempfehlung:
Auf PR warten. Die Diskussion im Issue-Thread verfolgen, um Updates zur Implementierung zu erhalten.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: bidirectional LLaDA-8B, Dream-7B
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

How to prioritize decode batches over prefill in SGLang? (GLM-4.7 deployment) (7/10) — OpenCode-Fit: JA

Worum geht es konkret?
Der Nutzer fragt, wie man in SGLang die Priorität von Decode-Batches über Prefill erhöhen kann, um die Durchsatzleistung für laufende Anfragen zu verbessern. Er verwendet das GLM-4.7-Modell auf H20-GPUs und hat Probleme mit der Latenz, wenn neue Anfragen eintreffen.

Was heißt das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist sehr relevant für autarke Home-Setups, da sie die Optimierung der Leistung und Latenz bei der Verarbeitung langer Kontexte betrifft. Die Priorisierung von Decode-Batches kann die Benutzererfahrung bei der Verwendung von Coding-Agenten wie OpenCode erheblich verbessern.

Konsequenz für OpenCode-Nutzer:
Für OpenCode-Nutzer kann die Priorisierung von Decode-Batches die Antwortzeiten und die Gesamtleistung bei der Verarbeitung langer Kontexte verbessern. Dies führt zu einer reibungsloseren und effizienteren Benutzererfahrung.

Handlungsempfehlung:
Konfiguriere die Parameter `–chunked-prefill-size`, `–enable-mixed-chunk` und `–schedule-conservativeness` entsprechend, um die Priorität von Decode-Batches zu erhöhen. Die Diskussion im Issue-Thread verfolgen, um weitere Optimierungstipps zu erhalten.

Fakten-Tabelle:
– Hardware im Post: H20
– Modell: GLM-4.7
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=8

Small commercial app use of Boson v.3 (2/10) — OpenCode-Fit: NEIN

Worum geht es konkret?
Der Nutzer fragt, ob es erlaubt ist, Boson v.3-Ausgabe-Dateien in einer kommerziellen App wie einer SwiftUI-App für den AppStore zu verwenden. Es gibt eine Diskussion über die Lizenzbedingungen und die Verwendbarkeit der Dateien.

Was heißt das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist nicht direkt relevant für autarke Home-Setups, da sie sich auf die kommerzielle Verwendung von Boson-Ausgabe-Dateien konzentriert. Für die meisten Nutzer von autarken Home-Setups ist die kommerzielle Lizenzierung weniger relevant.

Konsequenz für OpenCode-Nutzer:
Für OpenCode-Nutzer, die Boson-Ausgabe-Dateien in kommerziellen Anwendungen verwenden möchten, ist es wichtig, die Lizenzbedingungen zu prüfen. Es gibt keine direkten Vorteile oder Verbesserungen, die aus dieser Diskussion resultieren.

Handlungsempfehlung:
Prüfe die Lizenzbedingungen von Boson v.3, bevor du die Dateien in kommerziellen Anwendungen verwendest.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Boson v.3
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

PeerCache — a decentralized P2P RDMA L3 backend for SGLang HiCache (5/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Die Diskussion stellt PeerCache vor, eine dezentrale L3 KV-Cache-Backend für SGLang HiCache, das RDMA (Remote Direct Memory Access) verwendet, um Präfix-KV-Cache direkt zwischen Knoten zu teilen. Es gibt keine zentrale Cache-Server und keine Metadaten-Master.

Was heißt das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist relevant für autarke Home-Setups, die mehrere GPUs verwenden und eine effiziente Cache-Strategie benötigen. PeerCache kann die Leistung und Effizienz der Cache-Verwaltung verbessern, insbesondere bei der Verarbeitung langer Kontexte.

Konsequenz für OpenCode-Nutzer:
Für OpenCode-Nutzer kann PeerCache die Cache-Verwaltung optimieren und die Leistung bei der Verarbeitung langer Kontexte verbessern. Dies führt zu einer reibungsloseren und effizienteren Benutzererfahrung.

Handlungsempfehlung:
Installiere PeerCache und konfiguriere es als L3-Backend für SGLang HiCache. Die Dokumentation und das Repo im Post befolgen, um die Installation und Konfiguration durchzuführen.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Does sglang really support run Qwen3.5-397B-A17B for processing Ultra-Long Texts(1M) ? (6/10) — OpenCode-Fit: JA

Worum geht es konkret?
Der Nutzer fragt, ob SGLang das Modell Qwen3.5-397B-A17B mit einer Kontextlänge von 1M Tokens unterstützt. Er versucht, das Modell auf einer H20-GPU mit 144GB VRAM zu betreiben, aber stößt auf einen Fehler bei der Verwendung der `–json-model-override-args`-Option.

Was heißt das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist sehr relevant für autarke Home-Setups, die lange Kontexte verarbeiten möchten. Die Unterstützung von Modellen mit sehr langer Kontextlänge kann die Leistung und die Anwendbarkeit von Coding-Agenten wie OpenCode erheblich verbessern.

Konsequenz für OpenCode-Nutzer:
Für OpenCode-Nutzer, die lange Kontexte verarbeiten möchten, ist die Unterstützung von Modellen wie Qwen3.5-397B-A17B wichtig. Die Lösung des Fehlers kann die Verwendung dieser Modelle ermöglichen und die Leistung verbessern.

Handlungsempfehlung:
Auf PR warten. Die Diskussion im Issue-Thread verfolgen, um Updates zur Fehlerbehebung zu erhalten.

Fakten-Tabelle:
– Hardware im Post: H20 (144GB VRAM)
– Modell: Qwen3.5-397B-A17B
– Framework-Version: sglang 0.5.12.post1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

SGLang Public Community Events (2/10) — OpenCode-Fit: NEIN

**Worum

👁 2 Aufrufe 👤 1 Leser