SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten
Kurzfassung: Die SGLang-Community diskutiert aktuell vor allem Themen rund um die Optimierung von Modellen für Consumer-GPUs, die Verbesserung der Agent-Workloads und die Unterstützung von langen Kontexten. Besonders relevant sind Diskussionen zur Verbesserung der Batch-Verarbeitung, der Unterstützung von spezifischen Modellen wie Qwen3.5 und GLM-4.7, sowie der Implementierung von Prefix-Caching. Diese Entwicklungen sind entscheidend für Nutzer, die ein autarkes Setup mit 4x 3090 oder 2x 5090 aufbauen möchten, um Claude-Sonnet-Niveau zu erreichen.
Severe image quality discrepancy between singleton and dynamic batched requests with identical seed, steps and size (6/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Der Nutzer berichtet über eine erhebliche Unterschiede in der Bildqualität zwischen Singleton- und dynamischen Batch-Anfragen, obwohl die Parameter identisch sind. Die Dokumentation gibt an, dass Batch-Shape-Kernel-Änderungen zu geringfügigen Unterschieden führen können, aber der Nutzer erwartet, dass die visuelle Inhalte und Komposition der Bilder identisch bleiben sollten. Er hat bereits umfangreiche Tests durchgeführt und die Details in einem Issue-Comment geteilt.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist relevant, da sie die Konsistenz der Bildgenerierung in Batch-Modus betrifft. Für ein Home-Setup mit Consumer-GPUs ist es wichtig, dass die Bildqualität bei verschiedenen Anfragearten konsistent bleibt, um eine zuverlässige und vorhersagbare Leistung zu gewährleisten. Allerdings ist der Fokus eher auf die Bildgenerierung und weniger auf Agent-Workloads.
Konsequenz für OpenCode-Nutzer:
Für OpenCode-Nutzer, die hauptsächlich Textgenerierung und Tool-Calling nutzen, ist dieser Aspekt weniger kritisch. Wenn du jedoch auch Bildgenerierung einsetzt, solltest du die Diskussion verfolgen, um eventuelle Workarounds oder Updates zu identifizieren.
Handlungsempfehlung:
Beobachte die Diskussion und warte auf Feedback oder Patches von der Community. Wenn du Bildgenerierung benötigst, prüfe die vorgeschlagenen Workarounds und teste sie in deinem Setup.
Fakten-Tabelle:
– Hardware im Post: [nicht im Post belegt]
– Modell: [nicht im Post belegt]
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]
How to prioritize decode batches over prefill in SGLang? (GLM-4.7 deployment) (8/10) — OpenCode-Fit: JA
Worum geht es konkret?
Der Nutzer diskutiert die Optimierung der Durchsatzleistung bei der Bereitstellung des GLM-4.7-Modells auf H20-GPUs. Das Ziel ist es, den Decode-Batch-Vorrang vor dem Prefill zu gewährleisten, um eine glatte Durchsatzleistung für laufende Anfragen zu gewährleisten. Der Nutzer hat bereits Parameter wie `–chunked-prefill-size` und `–enable-mixed-chunk` eingestellt, aber das Prefill verbraucht immer noch zu viel Ressourcen, was die Decode-Leistung beeinträchtigt.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist hoch relevant, da sie die Optimierung der Ressourcenverteilung bei langen Kontexten und Token-Streams betrifft. Für ein Home-Setup mit 4x 3090 oder 2x 5090 ist es wichtig, dass der Decode-Vorgang priorisiert wird, um eine reibungslose Benutzererfahrung zu gewährleisten. Die vorgeschlagenen Parameter und Einstellungen können direkt auf Consumer-GPUs angewendet werden.
Konsequenz für OpenCode-Nutzer:
Für OpenCode-Nutzer bedeutet dies, dass die Agent-Workloads und Tool-Calling-Operationen glatter und effizienter ablaufen können. Die Priorisierung des Decode-Batches sorgt dafür, dass laufende Anfragen nicht durch neue Anfragen blockiert werden, was die Gesamtleistung verbessert.
Handlungsempfehlung:
Teste die vorgeschlagenen Parameter in deinem Setup und passe sie an, um die beste Leistung zu erzielen. Beobachte die Diskussion, um auf kommende Updates und Optimierungen zu reagieren.
Fakten-Tabelle:
– Hardware im Post: H20
– Modell: GLM-4.7
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: TP=8
Question about serving Qwen3.5 text-only SFT model saved as Qwen3_5ForCausalLM (7/10) — OpenCode-Fit: JA
Worum geht es konkret?
Der Nutzer fragt, warum das Servieren eines feinjustierten Qwen3.5-Modells mit SGLang fehlschlägt, obwohl das Modell als `Qwen3_5ForCausalLM` gespeichert wurde. Die Fehlermeldung gibt an, dass `Qwen3_5ForCausalLM` keine SGLang-Implementierung hat. Der Nutzer untersucht, ob es sicher ist, `Qwen3_5ForCausalLM` manuell als Entry-Class in SGLang zu registrieren oder ob die Konfiguration auf `Qwen3_5ForConditionalGeneration` zurückgesetzt werden sollte.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist relevant, da sie die Kompatibilität von feinjustierten Modellen mit SGLang betrifft. Für ein Home-Setup ist es wichtig, dass spezifische Modelle wie Qwen3.5 ohne Probleme bereitgestellt werden können. Die vorgeschlagenen Workarounds können direkt auf Consumer-GPUs angewendet werden.
Konsequenz für OpenCode-Nutzer:
Für OpenCode-Nutzer bedeutet dies, dass sie sicherstellen müssen, dass ihre feinjustierten Modelle korrekt konfiguriert sind, um sie in SGLang zu verwenden. Die Rücksetzung der Konfiguration auf `Qwen3_5ForConditionalGeneration` kann ein einfacher Workaround sein, um das Modell zu bereitstellen.
Handlungsempfehlung:
Prüfe die Konfiguration deines feinjustierten Modells und passe sie bei Bedarf an. Wenn du `Qwen3_5ForCausalLM` verwendest, versuche die Konfiguration auf `Qwen3_5ForConditionalGeneration` zurückzusetzen oder registriere `Qwen3_5ForCausalLM` manuell in SGLang.
Fakten-Tabelle:
– Hardware im Post: [nicht im Post belegt]
– Modell: Qwen3.5
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]
Does sglang really support run Qwen3.5-397B-A17B for processing Ultra-Long Texts(1M)? (8/10) — OpenCode-Fit: JA
Worum geht es konkret?
Der Nutzer fragt, ob SGLang das Qwen3.5-397B-A17B-Modell mit einem Kontext von 1 Million Tokens unterstützen kann. Er hat versucht, das Modell mit der angegebenen Konfiguration zu starten, aber es tritt ein Fehler auf, der darauf hindeutet, dass die `–json-model-override-args`-Option das `text_config` überschreibt und einen `AssertionError` verursacht.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist sehr relevant, da sie die Unterstützung von langen Kontexten betrifft, was für Agent-Workloads und strukturierte Ausgaben entscheidend ist. Für ein Home-Setup mit 4x 3090 oder 2x 5090 ist es wichtig, dass das Modell mit einem Kontext von 1 Million Tokens korrekt funktioniert. Die vorgeschlagenen Workarounds können direkt auf Consumer-GPUs angewendet werden.
Konsequenz für OpenCode-Nutzer:
Für OpenCode-Nutzer bedeutet dies, dass sie sicherstellen müssen, dass ihre Modelle mit langen Kontexten korrekt konfiguriert sind. Die Überprüfung der `text_config`-Einstellungen und das Anpassen der Konfiguration können dazu beitragen, dass das Modell ohne Fehler läuft.
Handlungsempfehlung:
Prüfe die `text_config`-Einstellungen deines Modells und passe sie bei Bedarf an. Beobachte die Diskussion, um auf kommende Updates und Optimierungen zu reagieren.
Fakten-Tabelle:
– Hardware im Post: H20 144GB
– Modell: Qwen3.5-397B-A17B
– Framework-Version: sglang 0.5.12.post1
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]
Addition of a not-strictly-block-diffusion model (6/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Der Nutzer fragt, ob die Unterstützung von nicht-streng-block-diffusion-Modellen wie bidirectional LLaDA-8B oder Dream-7B mit approximate-KV-Cache und confidence-based decoding thresholding in den Roadmap von SGLang aufgenommen werden soll. Der Nutzer interessiert sich insbesondere für die Verwendung von gptq_marlin-Quantisierung.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist relevant, da sie die Unterstützung von spezifischen Modellen und Quantisierungstechniken betrifft. Für ein Home-Setup ist es wichtig, dass eine breite Palette von Modellen unterstützt wird, um flexible Agent-Workloads zu ermöglichen. Die vorgeschlagenen Modelle und Quantisierungstechniken können auf Consumer-GPUs angewendet werden.
Konsequenz für OpenCode-Nutzer:
Für OpenCode-Nutzer bedeutet dies, dass sie auf die Unterstützung von spezifischen Modellen und Quantisierungstechniken hoffen können, um ihre Agent-Workloads zu verbessern. Die Verwendung von approximate-KV-Cache und confidence-based decoding thresholding kann die Leistung und Effizienz der Modelle steigern.
Handlungsempfehlung:
Beobachte die Diskussion und warte auf Feedback oder Updates von der Community. Wenn die Unterstützung dieser Modelle und Techniken in den Roadmap aufgenommen wird, prüfe die neuen Versionen von SGLang.
Fakten-Tabelle:
– Hardware im Post: [nicht im Post belegt]
– Modell: LLaDA-8B, Dream-7B
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]
PeerCache — a decentralized P2P RDMA L3 backend for SGLang HiCache (5/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Der Nutzer stellt PeerCache vor, eine dezentrale P2P RDMA L3-Backend für SGLang HiCache. PeerCache ermöglicht es, eine Cluster von SGLang-Instanzen über RDMA zu verbinden, um Prefix-KV-Cache direkt zwischen den Knoten zu teilen. Es gibt keine zentrale Cache-Server oder Metadatendienste.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist relevant, da sie die Verbesserung der Cache-Performance und die Ressourcennutzung betrifft. Für ein Home-Setup mit 4x 3090 oder 2x 5090 ist es wichtig, dass die Cache-Performance optimiert wird, um die Gesamtleistung zu steigern. Allerdings erfordert RDMA spezialisierte Hardware, die in einem Home-Setup selten verfügbar ist.
Konsequenz für OpenCode-Nutzer:
Für OpenCode-Nutzer bedeutet dies, dass sie auf die Verbesserung der Cache-Performance hoffen können, wenn sie in einem Cluster-Setup arbeiten. Für ein einzelnes Home-Setup ist die Relevanz begrenzt, da RDMA-Hardware erforderlich ist.
Handlungsempfehlung:
Beobachte die Diskussion, falls du in einem Cluster-Setup arbeitest. Für ein einzelnes Home-Setup ist die Relevanz begrenzt, da RDMA-Hardware erforderlich ist.
Fakten-Tabelle:
– Hardware im Post: RDMA, InfiniBand
– Modell: [nicht im Post belegt]
– Framework-Version: [nicht im Post belegt]
– tok/s / Benchmark: [nicht im Post belegt]
– Multi-GPU-Konfiguration: [nicht im Post belegt]
Weitere Diskussionen (kurz):
– Is there a axample about deepseek-v4-pro pd disaggregation? (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)
– Diskussion über die Bereitstellung von DeepSeek-V4-Pro mit PD-Disaggregation. Reines Enterprise-Setup mit H100-GPUs und RDMA, nicht für autarke Home-Setups relevant.
– Do Hopper support Deepseek V4 Flash run EP by deepep in the future? (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)
– Diskussion über die Unterstützung von DeepSeek V4 Flash mit Expert Parallelism auf Hopper-GPUs. Reines Enterprise-Setup, nicht für autarke Home-Setups relevant.
– deepep v2 support? (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)
– Diskussion über die Unterstützung von DeepEP v2, das RDMA und NCCL GIN verwendet. Reines Enterprise-Setup, nicht für autarke Home-Setups relevant.
– CANN 9.0.0 support? (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)
– Diskussion über die Unterstützung von CANN 9.0.0, das speziell für Ascend-GPUs entwickelt wurde. Reines Enterprise-Setup, nicht für autarke Home-Setups relevant.
– SGLang Public Community Events (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)
– Diskussion über wöchentliche Online-Meetings und lokale Meetups. Reines Community-Update, nicht direkt relevant für autarke Home-Setups.
– مرحبا (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)
– Diskussion in arabischer Sprache, die keine technischen Details enthält. Nicht relevant für autarke Home-Setups.
– [[Question][Diffusion][SD3.5] Question about SGLang-native support for remaining Diffusers modules for stable-diffusion-3](https://github.com/sgl-project/sglang/discussions/26282) (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)
– Diskussion über die Unterstützung von Diffusers-Modulen für Stable Diffusion 3.5. Reines