vLLM-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten

Kurzfassung

Die vLLM-Community diskutiert aktuell vor allem Themen rund um die Optimierung der Performance und die Erweiterung der Funktionalität für lokal betriebene LLMs. Dominierende Themen sind die Verbesserung der Quantisierung, die Erweiterung der Kontextlänge und die Integration von Tool-Calling-Funktionen. Für jemanden, der mit 4x 3090 oder 2x 5090 zu Claude-Sonnet-Niveau kommen möchte, sind insbesondere die Entwicklungen zur Quantisierung und der Kontextlänge relevant. Diese bieten die Möglichkeit, große Modelle auf Consumer-GPUs effizient zu betreiben und die Agent-Funktionalität zu verbessern.

vLLM cannot connect to existing Ray cluster (2/10) — OpenCode-Fit: ENTERPRISE (für uns irrelevant)

Worum geht es konkret?
Der Nutzer versucht, eine vLLM-Engine (als Teil von KubeAI) mit einem Ray-Cluster (deployed by Kuberay) zu verbinden, was nicht erfolgreich ist. Das Problem liegt darin, dass die Datei `node_ip_address.json` nicht generiert wird, obwohl die Kommunikation mit Ray möglich ist. Die Logs zeigen, dass der Ray-Cluster gesund ist, aber die Datei fehlt.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Dieses Thema ist für ein autarkes Home-Setup nicht relevant, da es sich um eine Enterprise-Infrastruktur handelt, die Kubernetes, Ray und Kuberay verwendet. Diese Technologien sind für private Haushalte mit Consumer-GPUs nicht geeignet.

Konsequenz für OpenCode-Nutzer:
Dieses Problem betrifft OpenCode-Nutzer nicht, da es sich um eine Enterprise-Infrastruktur handelt. Es gibt keine direkten Auswirkungen auf die lokalen Agenten.

Handlungsempfehlung:
Enterprise — ignorieren.

Fakten-Tabelle:
– Hardware im Post: AKS (v1.30.9)
– Modell: nicht im Post belegt
– Framework-Version: vLLM – 0.8.5, 0.8.2, Ray – 2.43.0-py312
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: TP=2, PP=2

Structured Generation with Reasoning Parser in offline mode. (8/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Der Nutzer möchte, dass vLLM die Funktion zur strukturierten Generierung und dem Reasoning-Parser in offline-Modus unterstützt. Aktuell ist dies nicht möglich, da vLLM in offline-Modus keine strukturierten JSON-Antworten generieren kann. Der Nutzer möchte, dass Qwen 3 über den Request nachdenkt und dann eine strukturierte JSON-Antwort liefert.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Funktion wäre für ein autarkes Home-Setup sehr nützlich, da sie die Qualität der generierten Antworten verbessern und die Tool-Calling-Funktionen erweitern würde. Allerdings erfordert die Implementierung möglicherweise Backend-Modifikationen, die nicht trivial sind.

Konsequenz für OpenCode-Nutzer:
Die Implementierung dieser Funktion würde die Agent-Workloads verbessern, indem sie strukturierte und logische Antworten ermöglicht. Dies ist besonders nützlich für komplexe Aufgaben, bei denen eine klare Struktur der Ausgabe erforderlich ist.

Handlungsempfehlung:
Auf PR warten oder Workaround Y anwenden, wenn verfügbar.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen 3
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Running Llama4 quantized on 2xH100 80GB (7/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Der Nutzer versucht, Llama4 mit Quantisierungstypen wie `fp8` oder `experts_int8` auf 2x H100 GPUs (160GB VRAM) zu betreiben. Trotz der erwarteten Halbierung der Parametergröße läuft das Modell in CUDA out of memory.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist relevant, da sie sich mit der Quantisierung von großen Modellen auf Consumer-GPUs befasst. Obwohl H100 GPUs teuer sind, können die Erkenntnisse auch für 3090 oder 5090 GPUs hilfreich sein, da sie ähnliche VRAM-Beschränkungen haben. Die Quantisierung ist ein wichtiger Aspekt, um große Modelle auf Consumer-GPUs zu betreiben.

Konsequenz für OpenCode-Nutzer:
Die erfolgreiche Implementierung von Quantisierungstechniken wie `fp8` oder `experts_int8` würde den VRAM-Verbrauch reduzieren und die Betriebsfähigkeit von großen Modellen auf Consumer-GPUs verbessern. Dies ist besonders wichtig für OpenCode-Nutzer, die mit begrenzter VRAM arbeiten.

Handlungsempfehlung:
Jetzt auf vLLM 0.XX updaten und die neuesten Quantisierungstechniken testen. Bei Problemen Workaround Y anwenden.

Fakten-Tabelle:
– Hardware im Post: 2x H100 80GB
– Modell: Llama4
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Determining Overall Speed for One Long Prompt (7/10) — OpenCode-Fit: JA

Worum geht es konkret?
Der Nutzer möchte die Gesamtgeschwindigkeit für ein langes Prompt messen, aber vLLM gibt mehrere Geschwindigkeitsmessungen zurück, da es das Prompt in mehrere Batches aufteilt. Der Nutzer sucht nach einer Möglichkeit, die Gesamtgeschwindigkeit für das gesamte Request zu erhalten.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Funktion ist für ein autarkes Home-Setup relevant, da sie die Performance-Messung von LLMs verbessert. Die Fähigkeit, die Gesamtgeschwindigkeit für ein langes Prompt zu messen, hilft bei der Optimierung der Betriebsparameter und der Auswahl der besten Konfiguration für die Hardware.

Konsequenz für OpenCode-Nutzer:
Die Möglichkeit, die Gesamtgeschwindigkeit zu messen, hilft bei der Optimierung der Agent-Workloads. Es ermöglicht, die besten Betriebsparameter zu finden und die Performance zu verbessern.

Handlungsempfehlung:
Jetzt auf vLLM 0.XX updaten und die neuesten Benchmarking-Tools verwenden. Bei Problemen Workaround Y anwenden.

Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen/Qwen3-30B-A3B-FP8
– Framework-Version: vLLM 0.8.5
– tok/s / Benchmark: 0.0 – 77.6 tokens/s
– Multi-GPU-Konfiguration: TP=2

I just published a performance test result of vllm vs sglang but can someone help me explain it? (6/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Der Nutzer hat eine Performance-Test zwischen vLLM und SGLang durchgeführt, wobei SGLang deutlich bessere Ergebnisse erzielt hat. SGLang verwendet nur 7GB VRAM im Vergleich zu 21GB bei vLLM und liefert konsistente Antwortzeiten.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist relevant, da sie die Performance von vLLM im Vergleich zu anderen Frameworks auf Consumer-GPUs untersucht. Die Erkenntnisse können helfen, die beste Wahl für die lokale Betreibung von LLMs zu treffen. Allerdings ist es wichtig, die Ergebnisse kritisch zu bewerten, da sie von der spezifischen Konfiguration abhängen.

Konsequenz für OpenCode-Nutzer:
Die Performance-Tests helfen, die besten Betriebsparameter für vLLM zu finden und alternative Frameworks zu evaluieren. Dies ist besonders nützlich, um die VRAM-Verwendung und die Antwortzeiten zu optimieren.

Handlungsempfehlung:
Die Performance-Tests von vLLM und SGLang vergleichen und die besten Betriebsparameter für vLLM finden. Bei Problemen Workaround Y anwenden.

Fakten-Tabelle:
– Hardware im Post: A10 GPU
– Modell: Qwen 2.5-7B
– Framework-Version: vLLM 0.8.5
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

How to increase context length and make things work (8/10) — OpenCode-Fit: JA

Worum geht es konkret?
Der Nutzer hat Probleme mit der Verwaltung des KV-Caches und der Begrenzung der gleichzeitigen Anfragen. Er möchte die Kontextlänge erhöhen, aber erhält Fehler, wenn er die Parameter `max-model-len` und `max-num-seqs` anpasst.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist sehr relevant, da sie sich mit der Erweiterung der Kontextlänge auf Consumer-GPUs befasst. Die Kontextlänge ist ein wichtiger Faktor für die Qualität der generierten Antworten und die Betriebsfähigkeit von großen Modellen. Die Erkenntnisse helfen, die Parameter zu optimieren, um die Kontextlänge zu erhöhen.

Konsequenz für OpenCode-Nutzer:
Die erfolgreiche Erweiterung der Kontextlänge verbessert die Agent-Workloads, indem sie längere und kontextbezogene Antworten ermöglicht. Dies ist besonders nützlich für komplexe Aufgaben, bei denen ein großer Kontext erforderlich ist.

Handlungsempfehlung:
Jetzt auf vLLM 0.XX updaten und die neuesten Konfigurationsoptionen für den KV-Cache verwenden. Bei Problemen Workaround Y anwenden.

Fakten-Tabelle:
– Hardware im Post: H100 80GB
– Modell: Qwen/Qwen1.5-72B-Chat-GPTQ-Int4
– Framework-Version: vLLM 0.3.3, 0.4.0
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

How to benchmark vLLM a short tutorial (7/10) — OpenCode-Fit: BEDINGT

Worum geht es konkret?
Der Nutzer bietet ein Tutorial, wie man vLLM auf einem Kubernetes-Cluster benchmarkt. Das Tutorial beschreibt, wie man vLLM mit einem 24GB GPU-Modell deployt und die Benchmarking-Skripte ausführt.

Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Diskussion ist relevant, da sie die Performance-Optimierung von vLLM auf Consumer-GPUs behandelt. Obwohl das Tutorial auf Kubernetes basiert, können die Benchmarks auch auf lokalen Setups angewendet werden, um die Performance zu verbessern.

Konsequenz für OpenCode-Nutzer:
Die Benchmarks helfen, die besten Betriebsparameter für vLLM zu finden und die Performance zu optimieren. Dies ist besonders nützlich, um die VRAM-Verwendung und die Antwortzeiten zu verbessern.

Handlungsempfehlung:
Jetzt auf vLLM 0.XX updaten und die neuesten Benchmarking-Tools verwenden. Bei Problemen Workaround Y anwenden.

Fakten-Tabelle:
– Hardware im Post: 24GB GPU
– Modell: Llama 3.1 8B Instruct
– Framework-Version: vLLM 0.5.3.post1
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt

Weitere Diskussionen (kurz):

– vLLM cannot connect to existing Ray cluster: Enterprise — nicht autark-relevant.
– ……lib/python3.12/site-packages/vllm/_C.abi3.so: undefined symbol: _ZN5torch3jit17parseSchemaOrNameERKSsb: Technisches Problem, spezifisch für bestimmte Python-Versionen.
– Any known integration with n8n?: Frage nach Integration mit n8n, nicht spezifisch für autarkes Home-Setup.
– Why temperature=0,top_p=1,seed=42 is still not enough to fix the llm’s output!?: Diskussion über die Konsistenz der LLM-Ausgaben, relevant für die Qualität der Agent-Workloads.
– How does the profile_run work?: Technische Frage zur Speicher-Verwaltung, relevant für die Performance-Optimierung.
– How to: custom attention mask? Specifically, bidirectional attention for context.: Frage nach spezifischen Attention-Masken, relevant für die Erweiterung der Kontextlänge.
– How to only download model without serving it?: Frage nach der Möglichkeit, Modelle zu downloaden ohne sie zu servieren, relevant für die lokale Verwaltung von Modellen.
– Why do vllm set default keep-alive timeout to 5s?: Frage nach der Einstellung des Keep-Alive-Timeouts, relevant für die Stabilität der Verbindungen.

👁 5 Aufrufe 👤 3 Leser