SGLang-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten

Kurzfassung:
Die SGLang-Community diskutiert aktuell hauptsächlich Themen rund um die Optimierung von Modellen für autarke, lokal betriebene Setup. Besonders relevant sind Diskussionen zur Unterstützung von Qwen3.5, der Optimierung von GLM-4.7 für langfristige Anwendungen, und der Verbesserung der Prefix-Caching-Strategien. Diese Themen sind entscheidend für Nutzer, die ein 4x 3090 oder 2x 5090 Setup aufbauen möchten, um Coding-Agenten wie Claude Sonnet auf einem hohen Niveau zu betreiben.

Frage zur Bereitstellung eines feinjustierten Qwen3.5-Modells (text-only SFT) (7/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Die Diskussion dreht sich um Probleme bei der Bereitstellung eines feinjustierten Qwen3.5-Modells mit SGLang. Der Nutzer hat das Modell mit `AutoModelForCausalLM` trainiert und gespeichert, aber SGLang erkennt die Architektur `Qwen3_5ForCausalLM` nicht, da sie nicht als Eingangsklasse registriert ist. Es wird diskutiert, ob die Architektur manuell registriert werden sollte oder ob die gespeicherte Konfiguration geändert werden sollte.

Was heißt das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist diese Diskussion relevant, da Qwen3.5 ein gängiges Modell für Coding-Agenten ist. Die Lösung könnte die manuelle Registrierung der Architektur in SGLang sein, was jedoch technisches Know-how erfordert. Consumer-GPUs sollten keine Einschränkungen aufweisen, aber die Modifikation der SGLang-Quellcode könnte erforderlich sein.

Konsequenz für OpenCode-Nutzer:
Die manuelle Registrierung der Architektur könnte die Bereitstellung des feinjustierten Modells ermöglichen, was zu besseren Tool-Calling-Fähigkeiten und einer verbesserten Agenten-Leistung führen kann. Es ist wichtig, die Änderungen sorgfältig durchzuführen, um Kompatibilitätsprobleme zu vermeiden.

Handlungsempfehlung:
„Manuelle Registrierung der Architektur in SGLang durchführen oder die gespeicherte Konfiguration auf `Qwen3_5ForConditionalGeneration` ändern.“

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen3.5
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Priorisierung von Decode-Batches über Prefill in SGLang (GLM-4.7 Deployment) (8/10) — OpenCode-Fit: JA

Worum geht es konkret?
Die Diskussion behandelt die Optimierung der Durchsatzleistung von GLM-4.7 bei langfristigen Anwendungen. Der Nutzer möchte, dass Decode-Batches priorisiert werden, um die Leistung für laufende Anfragen zu verbessern, insbesondere bei gleichzeitigen Anfragen. Aktuell blockiert der Prefill-Prozess die Decode-Leistung, was zu erheblichen Latenzen führt.

Was heißt das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist diese Diskussion sehr relevant, da GLM-4.7 ein gängiges Modell für Coding-Agenten ist. Die Priorisierung von Decode-Batches kann die Leistung bei langfristigen Anwendungen erheblich verbessern, was besonders für Coding-Agenten wichtig ist. Consumer-GPUs sollten diese Optimierung nutzen können, ohne zusätzliche Hardware zu benötigen.

Konsequenz für OpenCode-Nutzer:
Die Priorisierung von Decode-Batches kann zu einer signifikanten Verbesserung der Leistung führen, insbesondere bei langen Kontexten und gleichzeitigen Anfragen. Dies kann die Benutzererfahrung bei der Arbeit mit Coding-Agenten erheblich verbessern.

Handlungsempfehlung:
„Konfigurationsparameter anpassen, um Decode-Batches zu priorisieren, z.B. `–schedule-conservativeness 1.1` und `–enable-mixed-chunk`.“

Fakten-Tabelle:
– Hardware im Post: H20
– Modell: GLM-4.7
– Framework-Version: SGLang 0.5.12.post1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=8

Frage zur Unterstützung von Qwen3.5-397B-A17B für Ultra-Long Texts (1M) (6/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Die Diskussion dreht sich um Probleme bei der Verwendung von Qwen3.5-397B-A17B mit einem Kontext von 1 Million Tokens. Der Nutzer hat versucht, das Modell mit der angegebenen Konfiguration zu starten, aber es tritt ein Fehler auf, da die `text_config` nicht korrekt überschrieben wird.

Was heißt das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist diese Diskussion relevant, da Qwen3.5-397B-A17B ein leistungsstarkes Modell für Coding-Agenten ist. Die Verwendung von Ultra-Long Texts kann die Leistung und die Anwendbarkeit des Modells erheblich verbessern. Consumer-GPUs sollten in der Lage sein, das Modell zu laufen, aber die Konfiguration muss korrekt sein, um Fehler zu vermeiden.

Konsequenz für OpenCode-Nutzer:
Die korrekte Konfiguration des Modells kann die Verarbeitung von Ultra-Long Texts ermöglichen, was für Coding-Agenten sehr nützlich ist. Es ist wichtig, die Fehler zu beheben, um die Leistung zu gewährleisten.

Handlungsempfehlung:
„Konfigurationsparameter überprüfen und ggf. anpassen, z.B. `–json-model-override-args`.“

Fakten-Tabelle:
– Hardware im Post: H20 144GB
– Modell: Qwen3.5-397B-A17B
– Framework-Version: SGLang 0.5.12.post1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Frage zur Unterstützung von DeepSeek V4 Flash mit FP4 auf SM90 (5/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Die Diskussion behandelt Probleme bei der Verwendung von DeepSeek V4 Flash mit FP4-Quantisierung auf SM90-GPUs. Der Nutzer hat versucht, das Modell zu starten, aber es tritt ein Fehler auf, da FP4 und SM100 gleichzeitig erforderlich sind. Es wird gefragt, ob SGLang in der Zukunft FP4 auf SM90 unterstützen wird.

Was heißt das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist diese Diskussion bedingt relevant, da SM90-GPUs in der Regel in Enterprise-Umgebungen verwendet werden. Consumer-GPUs wie 3090 oder 5090 haben SM8-Architekturen, die FP4-Quantisierung nicht unterstützen. Es ist unwahrscheinlich, dass diese Hardware in der nahen Zukunft FP4-Unterstützung erhalten wird.

Konsequenz für OpenCode-Nutzer:
Die Unterstützung von FP4 auf SM90 könnte in der Zukunft die Leistung von Modellen verbessern, aber für aktuelle Consumer-GPUs ist dies irrelevant. OpenCode-Nutzer sollten sich auf andere Quantisierungsmethoden wie INT4 oder FP8 konzentrieren.

Handlungsempfehlung:
„Beobachten, ob SGLang FP4 auf SM90 unterstützt, aber für aktuelle Consumer-GPUs irrelevant.“

Fakten-Tabelle:
– Hardware im Post: H20
– Modell: DeepSeek V4 Flash
– Framework-Version: SGLang 0.5.12
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Frage zur Unterstützung von Ling 2.6 lightning/linear Attention Cache Size in SGLang Metriken/Logs (7/10) — OpenCode-Fit: JA

Worum geht es konkret?
Die Diskussion dreht sich um Probleme bei der Berichterstattung der lightning/linear Attention Cache Size in SGLang für das Modell Ling 2.6. Der Nutzer bemerkt, dass SGLang eine viel kleinere Cache-Größe als vLLM berichtet, was die Benchmarking-Ergebnisse verfälschen könnte.

Was heißt das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist diese Diskussion relevant, da Ling 2.6 ein gängiges Modell für Coding-Agenten ist. Die korrekte Berichterstattung der Cache-Größe ist wichtig, um die Leistung und den Speicherverbrauch zu verstehen und zu optimieren. Consumer-GPUs sollten in der Lage sein, das Modell zu laufen, aber die Metriken müssen korrekt sein, um die Leistung zu gewährleisten.

Konsequenz für OpenCode-Nutzer:
Die korrekte Berichterstattung der Cache-Größe kann die Leistungsoptimierung und den Speicherverbrauch verbessern. Es ist wichtig, die Metriken zu überprüfen und ggf. zu korrigieren, um die Leistung zu optimieren.

Handlungsempfehlung:
„Überprüfen, ob SGLang die lightning/linear Attention Cache Size korrekt berichtet, und ggf. eine separate Metrik hinzufügen.“

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Ling 2.6
– Framework-Version: SGLang 0.5.12.post1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Frage zur Unterstützung von CANN 9.0.0 (4/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Die Diskussion behandelt Probleme bei der Verwendung von SGLang mit CANN 9.0.0. Der Nutzer erhält Fehler, da SGLang mit CANN 9.0.0 nicht kompatibel ist. Es wird gefragt, ob und wann CANN 9.0.0 unterstützt werden wird.

Was heißt das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist diese Diskussion bedingt relevant, da CANN 9.0.0 hauptsächlich in Enterprise-Umgebungen verwendet wird. Consumer-GPUs wie 3090 oder 5090 verwenden in der Regel andere Frameworks, die mit SGLang kompatibel sind. Es ist unwahrscheinlich, dass CANN 9.0.0 in der nahen Zukunft für Consumer-GPUs relevant wird.

Konsequenz für OpenCode-Nutzer:
Die Unterstützung von CANN 9.0.0 könnte in der Zukunft die Kompatibilität mit bestimmten Modellen verbessern, aber für aktuelle Consumer-GPUs ist dies irrelevant. OpenCode-Nutzer sollten sich auf andere Frameworks konzentrieren, die bereits unterstützt werden.

Handlungsempfehlung:
„Beobachten, ob SGLang CANN 9.0.0 unterstützt, aber für aktuelle Consumer-GPUs irrelevant.“

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: nicht im Post belegt
– Framework-Version: SGLang 0.5.12.post1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Frage zur Unterstützung von DeepEP v2 (5/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Die Diskussion dreht sich um die Unterstützung von DeepEP v2 in SGLang. DeepEP v2 verwendet NCCL GIN für RDMA-Kommunikation und TMA für Datenbewegung. Es wird gefragt, ob SGLang in der Zukunft DeepEP v2 unterstützen wird.

Was heißt das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist diese Diskussion bedingt relevant, da DeepEP v2 hauptsächlich in Enterprise-Umgebungen verwendet wird. Consumer-GPUs wie 3090 oder 5090 verwenden in der Regel andere Frameworks, die mit SGLang kompatibel sind. Es ist unwahrscheinlich, dass DeepEP v2 in der nahen Zukunft für Consumer-GPUs relevant wird.

Konsequenz für OpenCode-Nutzer:
Die Unterstützung von DeepEP v2 könnte in der Zukunft die Leistung von Modellen verbessern, aber für aktuelle Consumer-GPUs ist dies irrelevant. OpenCode-Nutzer sollten sich auf andere Frameworks konzentrieren, die bereits unterstützt werden.

Handlungsempfehlung:
„Beobachten, ob SGLang DeepEP v2 unterstützt, aber für aktuelle Consumer-GPUs irrelevant.“

Frage zur Unterstützung von SGLang-native Diffusers-Module für Stable Diffusion 3.5 (6/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Die Diskussion behandelt die Unterstützung von SGLang-native Diffusers-Modulen für Stable Diffusion 3.5. Der Nutzer fragt, ob es in der Zukunft geplant ist, die Diffusers-basierten Module durch SGLang-native Implementierungen zu ersetzen.

Was heißt das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Für ein autarkes Home-Setup ist diese Diskussion bedingt relevant, da Stable Diffusion 3.5 ein gängiges Modell für Bildgenerierung ist. Die Verwendung von SGLang-native Modulen könnte die Leistung und die Kompatibilität verbessern. Consumer-GPUs sollten in der Lage sein, das Modell zu laufen, aber die Unterstützung von SGLang-native Modulen könnte die Leistung erheblich verbessern.

Konsequenz für OpenCode-Nutzer:
Die Unterstützung von SGLang-native Diffusers-Modulen könnte die Leistung und die Kompatibilität von Stable Diffusion 3.5 verbessern. Es ist wichtig, die Entwicklung zu verfolgen und ggf. die neuen Module zu testen.

Handlungsempfehlung:
„Beobachten, ob SGLang-native Diffusers-Module unterstützt werden, und ggf. die neuen Module testen.“

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Stable Diffusion 3.5
– Framework-Version: SGLang 0.5.12.post1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Weitere Diskussionen (kurz):

– PeerCache — ein dezentraler P2P RDMA L3-Backend für SGLang HiCache: Enterprise — nicht autark-relevant, da RDMA und zentralisierte Cache-Server erforderlich sind.
– [SGLang Public Community Events](https://github.com/sgl-project/sglang/discussions/16031

👁 4 Aufrufe 👤 4 Leser