SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten
Kurzfassung
Die SGLang-Community diskutiert aktuell vor allem Themen rund um die Optimierung von lokalen Inference-Setups, insbesondere für Coding-Agenten wie OpenCode. Dominierende Themen sind die Verbesserung von Prefix-Caching, die Unterstützung von spezifischen Modellen wie Qwen3.5-397B-A17B, und die Optimierung von Spekulationsalgorithmen wie DFlash. Diese Entwicklungen sind besonders relevant für Nutzer, die ein autarkes Setup mit 4x 3090 oder 2x 5090 GPUs betreiben möchten, um in der Nähe von Claude-Sonnet-Niveau zu bleiben.
[PeerCache — a decentralized P2P RDMA L3 backend for SGLang HiCache] (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)
Worum geht es konkret?
PeerCache ist ein dezentraler L3 KV-Cache-Backend für SGLang HiCache, das es ermöglicht, eine Gruppe von SGLang-Instanzen über RDMA (one-sided, zero-copy READ) direkt miteinander zu teilen. Es gibt keine zentrale Cache-Server- oder Metadaten-Instanz. Die Architektur ist Mooncake-ähnlich, aber dezentralisiert.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Lösung ist für Enterprise-Setups gedacht, die RDMA und mehrere Knoten mit spezialisierten Netzwerkkarten (NICs) verwenden. Für ein autarkes Home-Setup mit Consumer-GPUs und standardmäßigen Netzwerkkarten ist dies nicht relevant.
Konsequenz für OpenCode-Nutzer:
Diese Technologie bringt keine direkten Vorteile für Nutzer mit autarken Home-Setups. Es ist eher für Clusternutzung in Rechenzentren gedacht.
Handlungsempfehlung:
Enterprise — ignorieren.
Fakten-Tabelle:
– Hardware im Post: RDMA, NICs
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
[Does sglang really support run Qwen3.5-397B-A17B for processing Ultra-Long Texts(1M) ?] (8/10) — OpenCode-Fit: JA
Worum geht es konkret?
Es wird diskutiert, ob SGLang das Modell Qwen3.5-397B-A17B mit einer Kontextlänge von 1 Million Tokens unterstützen kann. Der Benutzer hat versucht, das Modell auf einer H20-GPU mit 144 GB VRAM zu starten, aber es kam zu einem Fehler, der auf ein Problem mit der `–json-model-override-args` Option hindeutet.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Unterstützung von Qwen3.5-397B-A17B mit einer Kontextlänge von 1 Million Tokens ist für autarke Home-Setups sehr relevant, da es ermöglicht, sehr lange Texte zu verarbeiten. Allerdings müssen die VRAM-Beschränkungen von Consumer-GPUs berücksichtigt werden. Die Fehlermeldung deutet darauf hin, dass die `–json-model-override-args` Option möglicherweise die ursprüngliche Konfiguration überschreibt und zu Fehlern führt.
Konsequenz für OpenCode-Nutzer:
Die Fähigkeit, sehr lange Texte zu verarbeiten, kann die Effizienz von Coding-Agenten wie OpenCode erheblich verbessern. Benutzer sollten die Konfiguration sorgfältig prüfen, um sicherzustellen, dass die `–json-model-override-args` Option korrekt verwendet wird.
Handlungsempfehlung:
Die Konfiguration auf SGLang 0.5.12.post1 überprüfen und ggf. die `–json-model-override-args` Option anpassen. Bei Problemen die Diskussion verfolgen oder auf GitHub nach weiteren Lösungen suchen.
Fakten-Tabelle:
– Hardware im Post: H20 144GB
– Modell: Qwen3.5-397B-A17B
– Framework-Version: SGLang 0.5.12.post1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
[Dflash working launch parameters] (7/10) — OpenCode-Fit: JA
Worum geht es konkret?
Ein Benutzer versucht, den DFlash-Spekulationsalgorithmus mit zwei RTX 3090 GPUs und dem quantisierten Qwen3.5-27B-Modell zu verwenden, aber es kommt immer zu einem Out-of-Memory (OOM) Fehler. Der Benutzer fragt, ob es spezifische Parameter gibt, die das Problem beheben könnten.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Verwendung von DFlash kann die Inference-Geschwindigkeit erheblich verbessern, aber es ist wichtig, die VRAM-Beschränkungen von Consumer-GPUs zu berücksichtigen. Die OOM-Fehler deuten darauf hin, dass die aktuelle Konfiguration zu viel Speicher verbraucht. Mögliche Lösungen könnten die Anpassung der `–mem-fraction-static` und `–context-length` Parameter sein.
Konsequenz für OpenCode-Nutzer:
Die erfolgreiche Implementierung von DFlash kann die Geschwindigkeit und Effizienz von Coding-Agenten wie OpenCode erheblich steigern. Benutzer sollten die Konfiguration sorgfältig prüfen und ggf. die VRAM-Verbrauch reduzieren.
Handlungsempfehlung:
Die `–mem-fraction-static` und `–context-length` Parameter anpassen, um den VRAM-Verbrauch zu reduzieren. Bei weiteren Problemen die Diskussion verfolgen oder auf GitHub nach Lösungen suchen.
Fakten-Tabelle:
– Hardware im Post: 2x RTX 3090 (48 GB VRAM)
– Modell: Qwen3.5-27B-GPTQ-Int4
– Framework-Version: SGLang 0.5.6.post2
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=2
[Support DDTree (Diffusion Draft Tree) to further accelerate DFlash] (7/10) — OpenCode-Fit: JA
Worum geht es konkret?
Es wird vorgeschlagen, DDTree (Diffusion Draft Tree) zu unterstützen, um die Leistung von DFlash weiter zu verbessern. DDTree verwendet die Vorhersagen des Diffusions-Drafters, um einen Baum möglicher Fortsetzungen zu konstruieren, der dann in einem einzigen Vorwärtsdurchgang des Zielmodells verifiziert wird.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Implementierung von DDTree kann die Inference-Geschwindigkeit erheblich steigern, was für autarke Home-Setups sehr vorteilhaft ist. Die zusätzlichen 2.13x an Geschwindigkeit, die DDTree gegenüber standardmäßigem DFlash bieten kann, sind besonders relevant für Nutzer mit begrenzter VRAM.
Konsequenz für OpenCode-Nutzer:
Die Unterstützung von DDTree kann die Geschwindigkeit und Effizienz von Coding-Agenten wie OpenCode erheblich verbessern. Benutzer sollten die Implementierung von DDTree im Auge behalten und ggf. auf zukünftige Updates warten.
Handlungsempfehlung:
Auf zukünftige PRs und Updates warten, die DDTree unterstützen. Bei Interesse an der Implementierung die Diskussion verfolgen.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen3-30B-MoE
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: 8.22x Speedup (Qwen3-30B-MoE)
– Multi-GPU-Konfiguration: nicht im Post belegt
[Ling 2.6 lightning/linear attention cache size not exposed in SGLang metrics/logs] (6/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Es wird diskutiert, dass SGLang die Cache-Größe für lightning/linear Attention für das Modell Ling 2.6 nicht korrekt in den Metriken und Logs erfasst. Dies führt zu einer möglicherweise irreführenden Berichterstattung über den tatsächlichen Speicherverbrauch.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die korrekte Berichterstattung über den Speicherverbrauch ist wichtig, um die Effizienz und Leistung von autarken Home-Setups zu optimieren. Die fehlende Berücksichtigung der lightning/linear Attention-Cache kann zu einer Fehleinschätzung des tatsächlichen Speicherverbrauchs führen, was bei der Optimierung von VRAM-Beschränkungen relevant ist.
Konsequenz für OpenCode-Nutzer:
Die korrekte Berichterstattung über den Speicherverbrauch kann die Effizienz von Coding-Agenten wie OpenCode verbessern. Benutzer sollten die Diskussion verfolgen und ggf. auf zukünftige Updates warten, die die Berichterstattung verbessern.
Handlungsempfehlung:
Die Diskussion verfolgen und auf zukünftige PRs warten, die die Berichterstattung über den Speicherverbrauch verbessern. Bei Interesse an der Implementierung die Diskussion verfolgen.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: inclusionAI/Ling-2.6-flash-int4
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
[sglang在qwen3-vl-4B模型使用dflash加速但是没有收益,都是负收益] (5/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Ein Benutzer berichtet, dass die Verwendung von DFlash für das Modell Qwen3-vl-4B keine Leistungsverbesserungen bringt, sondern sogar negative Effekte hat. Die Benchmarks zeigen, dass die Verarbeitung ohne DFlash schneller ist.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Verwendung von DFlash kann bei bestimmten Modellen und Konfigurationen zu negativen Effekten führen. Für autarke Home-Setups ist es wichtig, die Leistung von DFlash sorgfältig zu testen und zu evaluieren, um sicherzustellen, dass es tatsächlich Vorteile bringt.
Konsequenz für OpenCode-Nutzer:
Die Verwendung von DFlash sollte sorgfältig getestet werden, um sicherzustellen, dass es tatsächlich Leistungsverbesserungen bringt. Bei negativen Effekten sollte die Verwendung von DFlash überprüft und ggf. deaktiviert werden.
Handlungsempfehlung:
Die Leistung von DFlash sorgfältig testen und evaluieren. Bei negativen Effekten die Verwendung von DFlash deaktivieren oder alternative Optimierungen prüfen.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen3-vl-4B
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: 223.29 tok/s (Baseline), 11.12 s (Total Latency)
– Multi-GPU-Konfiguration: nicht im Post belegt
[Why similar CPU memory leak fixes were split across multiple PRs, and how you pinpoint leaks down to specific lines?] (4/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Es wird diskutiert, warum ähnliche Fixes für CPU-Memory-Leaks in mehreren PRs aufgeteilt wurden und wie man solche Lecks auf spezifische Zeilen in einem komplexen Serving-System zurückverfolgen kann. Die Diskussion umfasst verschiedene Tools und Methoden zur Fehlersuche und Debugging.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Fähigkeit, CPU-Memory-Leaks zu identifizieren und zu beheben, ist wichtig, um die Stabilität und Leistung von autarken Home-Setups zu gewährleisten. Die Methoden und Tools, die in der Diskussion erwähnt werden, können auch für kleinere, autarke Setups hilfreich sein.
Konsequenz für OpenCode-Nutzer:
Die Verwendung von Tools wie `tracemalloc`, `objgraph`, `heapy`, `jemalloc`, `tcmalloc`, `heap profiling`, `memray`, `pprof`, `valgrind`, `massif`, `ASan`, und `LSan` kann die Fehlersuche und Debugging von CPU-Memory-Leaks erleichtern. Benutzer sollten diese Tools in ihre Workflows integrieren, um die Stabilität ihrer Setups zu verbessern.
Handlungsempfehlung:
Die erwähnten Tools und Methoden in die Fehlersuche und Debugging-Workflows integrieren. Bei Problemen mit CPU-Memory-Leaks die Diskussion verfolgen oder auf GitHub nach weiteren Lösungen suchen.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
Weitere Diskussionen (kurz):
– PeerCache — a decentralized P2P RDMA L3 backend for SGLang HiCache — Enterprise — nicht autark-relevant.
– SGLang Public Community Events — Community-Events und Meetings, nicht direkt relevant für autarke Home-Setups.
– Do Hopper support Deepseek V4 Flash run EP by deepep in the future? — Diskussion über die Unterstützung von Deepseek V4 Flash auf H20-GPUs, nicht direkt relevant für Consumer-GPUs.
– deepep v2 support? — Diskussion über die Unterstützung von DeepEP v2, nicht direkt relevant für autarke Home-Setups.
– [[Question][Diffusion][SD3.5] Question about SGLang-native support for remaining Diffusers modules for stable-diffusion-3](https://github.com/sgl-project/sglang/discussions/26282) — Frage zur Unterstützung von Diffusers-Modulen, nicht direkt relevant für autarke Home-Setups.
– CANN 9.0.0 support? — Diskussion über die Unterstützung von CANN 9.0.0, nicht direkt relevant für autarke Home-Setups.
– Can thinking_budget work with MTP enabled? — Frage zur Verwendung von `thinking_budget` mit MTP, nicht direkt relevant für autarke Home-Setups.
– مرحبا — Allgemeine Begrüßung, nicht relevant für technische Diskussionen.
– [[RFC] IOChain: request/response filters for OpenAI-compatible serving](https://github.com/sgl-project/sglang/discussions/