SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten

Kurzfassung

Die SGLang-Community diskutiert aktuell vor allem Themen rund um die Optimierung von Inference-Performance, insbesondere für Agent-Workloads und strukturierte Ausgaben. Zwei zentrale Themen sind die Implementierung von PeerCache für dezentrale RDMA-KV-Caching und die Unterstützung von Qwen3.5-397B-A17B für die Verarbeitung von Ultra-Long Texts. Diese Entwicklungen sind besonders relevant für Nutzer, die ein autarkes Setup mit 4x 3090 oder 2x 5090-GPUs betreiben möchten, da sie die Effizienz und den VRAM-Verbrauch verbessern können.

[PeerCache — a decentralized P2P RDMA L3 backend for SGLang HiCache] (6/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
PeerCache ist ein dezentraler L3 KV-Cache-Backend für SGLang HiCache, das es ermöglicht, SGLang-Instanzen über RDMA direkt miteinander zu kommunizieren, ohne einen zentralen Cache-Server zu benötigen. Dies ermöglicht eine effizientere Nutzung des KV-Caches, da die Daten direkt zwischen den Knoten geteilt werden können, was die Rechenleistung verbessert.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist PeerCache weniger relevant, da RDMA-Technologie in der Regel auf spezialisierten Netzwerken wie InfiniBand oder RDMA-fähigen Ethernet-Netzwerken läuft. Consumer-GPUs und Standard-Netzwerkkarten unterstützen RDMA in der Regel nicht. Daher ist PeerCache eher für Enterprise-Setups geeignet, die RDMA-Infrastruktur haben.

Konsequenz fuer OpenCode-Nutzer:
PeerCache kann die Performance von Agent-Workloads in Multi-GPU-Setups verbessern, aber es ist nicht direkt anwendbar auf Consumer-GPUs. Für OpenCode-Nutzer mit 4x 3090 oder 2x 5090 ist dies eher eine Zukunftsperspektive, wenn RDMA-Unterstützung in Consumer-Netzwerkkarten verbessert wird.

Handlungsempfehlung:
Beobachten, noch nicht stable. PeerCache ist derzeit eher für Enterprise-Setups geeignet.

Fakten-Tabelle:
– Hardware im Post: RDMA-fähige Netzwerkkarten
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

[Does sglang really support run Qwen3.5-397B-A17B for processing Ultra-Long Texts(1M) ?] (8/10) — OpenCode-Fit: JA

Zur Discussion

Worum geht es konkret?
Die Diskussion dreht sich um die Unterstützung von Qwen3.5-397B-A17B in SGLang für die Verarbeitung von Ultra-Long Texts mit einer Kontextlänge von 1 Million Tokens. Es wird beschrieben, wie man SGLang konfigurieren kann, um diese Modelle zu verwenden, und ein Fehler wird gemeldet, der bei der Verwendung der `–json-model-override-args`-Option auftritt.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Qwen3.5-397B-A17B ist ein hochleistungsfähiges Modell, das für die Verarbeitung langer Texte geeignet ist. Die Unterstützung für Ultra-Long Texts ist besonders relevant für OpenCode-Nutzer, die strukturierte Ausgaben und Agent-Workloads benötigen. Die Verwendung von 4x 3090 oder 2x 5090-GPUs kann die VRAM-Beschränkungen teilweise umgehen, indem die Modelle quantisiert werden.

Konsequenz fuer OpenCode-Nutzer:
Die Unterstützung von Qwen3.5-397B-A17B kann die Leistung von OpenCode-Nutzern erheblich verbessern, insbesondere bei der Verarbeitung langer Texte. Es ist jedoch wichtig, die Konfiguration sorgfältig zu prüfen, um Fehler wie den beschriebenen zu vermeiden.

Handlungsempfehlung:
Auf PR warten. Die Fehlermeldung deutet auf ein Problem mit der Konfiguration hin, das möglicherweise in einer zukünftigen Version behoben wird.

Fakten-Tabelle:
– Hardware im Post: H20 144GB
– Modell: Qwen3.5-397B-A17B
– Framework-Version: sglang 0.5.12.post1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

[Dflash working launch parameters] (7/10) — OpenCode-Fit: JA

Zur Discussion

Worum geht es konkret?
Die Diskussion beschreibt Probleme bei der Verwendung des DFlash speculative decoding Algorithmus mit SGLang. Ein Nutzer berichtet, dass er bei der Verwendung von zwei RTX 3090-GPUs und dem quantisierten Qwen3.5-27B-Modell OOM-Fehler (Out of Memory) erhält, unabhängig von der Kontextlänge.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
DFlash ist eine Technik, die die Inference-Geschwindigkeit durch spekulative Decoding-Operationen verbessern soll. Die OOM-Fehler bei der Verwendung von 2x 3090-GPUs deuten darauf hin, dass die VRAM-Beschränkungen bei der Verwendung von DFlash ein Problem darstellen können. Für 4x 3090 oder 2x 5090-GPUs könnte die Verwendung von DFlash trotzdem sinnvoll sein, wenn die Konfiguration angepasst wird.

Konsequenz fuer OpenCode-Nutzer:
Die Verwendung von DFlash kann die Inference-Geschwindigkeit verbessern, aber es ist wichtig, die VRAM-Beschränkungen zu berücksichtigen. Nutzer sollten die Konfiguration sorgfältig anpassen, um OOM-Fehler zu vermeiden.

Handlungsempfehlung:
Jetzt auf vLLM 0.5.6.post2 updaten und die Konfiguration anpassen. Es kann hilfreich sein, die `–mem-fraction-static`-Option zu reduzieren oder die `–mamba-scheduler-strategy`-Option zu ändern.

Fakten-Tabelle:
– Hardware im Post: 2x RTX 3090 (48GB VRAM)
– Modell: Qwen3.5-27B-GPTQ-Int4
– Framework-Version: 0.5.6.post2
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=2

[Ling 2.6 lightning/linear attention cache size not exposed in SGLang metrics/logs] (7/10) — OpenCode-Fit: JA

Zur Discussion

Worum geht es konkret?
Die Diskussion beschreibt ein Problem bei der Verwendung des Ling 2.6-Modells in SGLang, bei dem die lightning/linear attention cache Größe nicht korrekt in den Metriken und Logs angezeigt wird. Dies führt zu einer möglicherweise irreführenden Darstellung des Cache-Verbrauchs.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für Nutzer, die Ling 2.6 in einem autarken Home-Setup mit 4x 3090 oder 2x 5090-GPUs verwenden, ist die korrekte Anzeige des Cache-Verbrauchs wichtig, um die VRAM-Beschränkungen zu managen. Die fehlende Anzeige der lightning/linear attention cache Größe kann zu Fehlkonfigurationen führen.

Konsequenz fuer OpenCode-Nutzer:
Die fehlende Anzeige des Cache-Verbrauchs kann dazu führen, dass Nutzer die tatsächliche VRAM-Verwendung unterschätzen. Dies kann zu OOM-Fehlern führen, wenn die VRAM-Beschränkungen nicht berücksichtigt werden.

Handlungsempfehlung:
Auf PR warten. Es wird empfohlen, die Diskussion zu verfolgen, um zu sehen, ob eine Lösung implementiert wird, die die Anzeige der lightning/linear attention cache Größe verbessert.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: inclusionAI/Ling-2.6-flash-int4
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

[Support DDTree (Diffusion Draft Tree) to further accelerate DFlash] (7/10) — OpenCode-Fit: JA

Zur Discussion

Worum geht es konkret?
Die Diskussion beschreibt die Motivation und die Vorteile der Implementierung von DDTree (Diffusion Draft Tree) in SGLang, um die Performance des DFlash speculative decoding Algorithmus weiter zu verbessern. DDTree konstruiert einen Baum von wahrscheinlichen Fortsetzungen und verifiziert diese in einem einzigen Vorwärtsdurchlauf.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
DDTree kann die Inference-Geschwindigkeit erheblich verbessern, insbesondere bei der Verwendung von 4x 3090 oder 2x 5090-GPUs. Die Verwendung von DDTree kann die VRAM-Beschränkungen reduzieren, indem mehrere wahrscheinliche Fortsetzungen gleichzeitig verifiziert werden.

Konsequenz fuer OpenCode-Nutzer:
Die Implementierung von DDTree kann die Inference-Geschwindigkeit und die Effizienz von Agent-Workloads verbessern. Nutzer sollten die Diskussion verfolgen, um zu sehen, ob und wann DDTree in SGLang implementiert wird.

Handlungsempfehlung:
Beobachten, noch nicht stable. Es wird empfohlen, die Diskussion zu verfolgen, um zu sehen, ob DDTree in einer zukünftigen Version von SGLang implementiert wird.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen3-30B-MoE
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: 8.22x Speedup (im Vergleich zu autoregressiver Decoding)
– Multi-GPU-Konfiguration: nicht im Post belegt

[Why similar CPU memory leak fixes were split across multiple PRs, and how you pinpoint leaks down to specific lines?] (6/10) — OpenCode-Fit: BEDINGT

Zur Discussion

Worum geht es konkret?
Die Diskussion beschreibt, wie CPU-Memory-Leaks in SGLang identifiziert und behoben wurden. Es wird erklärt, warum ähnliche Fixes in mehreren Pull Requests (PRs) implementiert wurden und welche Tools und Methoden verwendet wurden, um die Lecks zu lokalisieren.

Was heisst das fuer ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für Nutzer, die SGLang in einem autarken Home-Setup betreiben, ist die Stabilität und Zuverlässigkeit des Systems wichtig. CPU-Memory-Leaks können zu langfristigen Problemen führen, insbesondere bei kontinuierlicher Nutzung. Die Diskussion bietet wertvolle Einblicke in die Methoden zur Identifikation und Behebung von Lecks.

Konsequenz fuer OpenCode-Nutzer:
Die Behebung von CPU-Memory-Leaks kann die Stabilität und Zuverlässigkeit von SGLang in langfristigen Agent-Workloads verbessern. Nutzer sollten die Diskussion verfolgen, um zu sehen, welche Tools und Methoden verwendet werden, um Lecks zu identifizieren und zu beheben.

Handlungsempfehlung:
Auf PR warten. Es wird empfohlen, die Diskussion zu verfolgen, um zu sehen, ob weitere Fixes implementiert werden und welche Tools und Methoden verwendet werden, um Lecks zu identifizieren.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Weitere Diskussionen (kurz):

– PeerCache — a decentralized P2P RDMA L3 backend for SGLang HiCache — Enterprise — nicht autark-relevant
– SGLang Public Community Events — Community-Events, nicht direkt relevant für autarke Setups
– Do Hopper support Deepseek V4 Flash run EP by deepep in the future? — Enterprise — nicht autark-relevant
– deepep v2 support? — Enterprise — nicht autark-relevant
– [[Question][Diffusion][SD3.5] Question about SGLang-native support for remaining Diffusers modules for stable-diffusion-3](https://github.com/sgl-project/sglang/discussions/26282) — Spezifisch für Stable Diffusion, nicht direkt relevant für Agent-Workloads
– مرحبا — Allgemeine Frage, nicht direkt relevant
– CANN 9.0.0 support? — Spezifisch für CANN, nicht direkt relevant für autarke Setups
– Can thinking_budget work with MTP enabled? — Spezifisch für MTP, nicht direkt relevant
– sglang在qwen3-vl-4B模型使用dflash加速但是没有收益，都是负收益 — Spezifisch für Qwen3-vl-4B, nicht direkt relevant für autarke Setups

👁 1 Aufrufe 👤 1 Leser