vLLM-Community: Autarke Multi-GPU-Inference für lokale Coding-Agenten
Kurzfassung:
Die vLLM-Community diskutiert aktuell vor allem Themen wie die Verbesserung der Quantisierung, die Steigerung der Kontextlänge und die Optimierung der Performance auf Consumer-GPUs. Besonders relevant für Nutzer, die ein autarkes Home-Setup mit 4x 3090 oder 2x 5090 aufbauen wollen, sind Diskussionen zur Quantisierung (AWQ, GPTQ, FP8, INT4), zur 128k-Kontext-Machbarkeit und zur Prefix-Caching-Optimierung. Diese Themen können die Leistung und den Speicherbedarf erheblich verbessern, was für die lokale Ausführung von Coding-Agenten wie OpenCode entscheidend ist.
Structured Generation with Reasoning Parser in offline mode. (8/10) — OpenCode-Fit: JA
Worum geht es konkret?
In dieser Diskussion wird das Problem diskutiert, dass der Reasoning Parser und die strukturierte Generierung in offline-Modus in vLLM nicht funktionieren. Der Nutzer möchte, dass Qwen 3 synthetische Daten generiert, wobei der Modelloutput in strukturiertes JSON konvertiert wird. Der aktuelle Workaround ist nicht zufriedenstellend, da er weder das freie Denken noch die strukturierte Ausgabe unterstützt.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Diese Funktion ist besonders relevant für Nutzer, die ein autarkes Home-Setup betreiben, da sie es ermöglicht, komplexe Aufgaben wie die Generierung von strukturierten Daten lokal und ohne Cloud-Abhängigkeiten durchzuführen. Die Implementierung dieser Funktion würde die Nützlichkeit von vLLM für OpenCode und ähnliche Agenten erheblich steigern.
Konsequenz für OpenCode-Nutzer:
Die Implementierung des Reasoning Parsers und der strukturierten Generierung würde die Qualität der Tool-Calling-Funktionen verbessern und die Ausgabe strukturierter machen. Nutzer sollten die Diskussion verfolgen und eventuell an der Entwicklung mitarbeiten.
Handlungsempfehlung:
Auf die Entwicklung der Funktion warten und an der Diskussion teilnehmen, um den Fortschritt zu verfolgen.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen 3
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
Determining Overall Speed for One Long Prompt (7/10) — OpenCode-Fit: JA
Worum geht es konkret?
Der Nutzer möchte die Gesamtgeschwindigkeit für lange Prompts messen, da vLLM derzeit mehrere Geschwindigkeitsmessungen für lange Prompts liefert. Er verwendet vLLM mit Qwen 3 und hat die Prefix-Caching-Funktion deaktiviert, um sicherzustellen, dass jede Anfrage frisch verarbeitet wird.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Fähigkeit, die Gesamtgeschwindigkeit für lange Prompts zu messen, ist wichtig, um die Performance von vLLM auf Consumer-GPUs zu optimieren. Dies hilft, die besten Konfigurationen für die lokale Ausführung von Coding-Agenten zu identifizieren und die VRAM-Verwendung zu minimieren.
Konsequenz für OpenCode-Nutzer:
Die Optimierung der Geschwindigkeit für lange Prompts kann die Effizienz von OpenCode steigern, insbesondere bei der Verarbeitung komplexer Aufgaben. Nutzer sollten die Benchmarks und Konfigurationen in dieser Diskussion beachten.
Handlungsempfehlung:
Die Benchmarks und Konfigurationen in dieser Diskussion nachvollziehen und anwenden, um die Performance zu verbessern.
Fakten-Tabelle:
– Hardware im Post: nicht im Post belegt
– Modell: Qwen 3
– Framework-Version: v0.8.5, v0.8.2
– tok/s / Benchmark: 41.1 tokens/s, 19.8 tokens/s, 77.6 tokens/s
– Multi-GPU-Konfiguration: TP=2
How to increase context length and make things work (8/10) — OpenCode-Fit: JA
Worum geht es konkret?
Der Nutzer hat Schwierigkeiten, die Kontextlänge in vLLM zu erhöhen, insbesondere bei der Verwendung des Qwen 1.5-72B-Chat-GPTQ-Int4-Modells auf einer H100 80GB GPU. Er stellt fest, dass die KV-Cache-Verwendung bei 99% liegt und neue Anfragen nicht in die Warteschlange aufgenommen werden, bis der KV-Cache wieder freigegeben wird.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Erhöhung der Kontextlänge ist entscheidend für die lokale Ausführung von Coding-Agenten, die komplexe und langfristige Aufgaben verarbeiten müssen. Die Optimierung der KV-Cache-Verwendung und die Anpassung der Batch-Größe können die Effizienz und den Speicherbedarf reduzieren, was für Consumer-GPUs besonders wichtig ist.
Konsequenz für OpenCode-Nutzer:
Die Erhöhung der Kontextlänge und die Optimierung der KV-Cache-Verwendung können die Leistung von OpenCode verbessern, insbesondere bei der Verarbeitung langer und komplexer Prompts. Nutzer sollten die Konfigurationen in dieser Diskussion beachten.
Handlungsempfehlung:
Die Konfigurationen in dieser Diskussion anwenden und die KV-Cache-Verwendung und Batch-Größe optimieren.
Fakten-Tabelle:
– Hardware im Post: H100 80GB
– Modell: Qwen 1.5-72B-Chat-GPTQ-Int4
– Framework-Version: v0.3.3, v0.4.0
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
Running Llama4 quantized on 2xH100 80GB (6/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Der Nutzer versucht, Llama4 mit verschiedenen Quantisierungsmethoden (FP8, experts_int8) auf 2x H100 80GB GPUs zu betreiben, aber stößt auf CUDA-Out-of-Memory-Fehler. Er hat erwartet, dass INT8 die VRAM-Anforderungen halbieren würde, was jedoch nicht der Fall ist.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Quantisierung ist entscheidend, um große Modelle auf Consumer-GPUs mit begrenztem VRAM zu betreiben. Die Erfahrungen des Nutzers zeigen, dass die Quantisierung nicht immer so effektiv ist, wie erwartet. Für Nutzer mit 4x 3090 oder 2x 5090 ist es wichtig, die besten Quantisierungsmethoden zu identifizieren, um die VRAM-Verwendung zu minimieren.
Konsequenz für OpenCode-Nutzer:
Die Quantisierung kann die VRAM-Verwendung reduzieren und die Leistung von OpenCode verbessern. Nutzer sollten die verschiedenen Quantisierungsmethoden in dieser Diskussion testen und die besten Konfigurationen identifizieren.
Handlungsempfehlung:
Die Quantisierungsmethoden in dieser Diskussion testen und die besten Konfigurationen für die VRAM-Verwendung anwenden.
Fakten-Tabelle:
– Hardware im Post: 2x H100 80GB
– Modell: Llama4
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
I just published a performance test result of vllm vs sglang but can someone help me explain it? (7/10) — OpenCode-Fit: JA
Worum geht es konkret?
Der Nutzer hat eine Performance-Test der vLLM- und SGLang-Frameworks durchgeführt, wobei er festgestellt hat, dass SGLang bei der Verwendung von Qwen 2.5-7B auf einer A10 GPU weniger VRAM verbraucht und konsistente Antwortzeiten liefert. Er bittet um Erklärungen für die Unterschiede.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Performance-Tests zeigen, dass die VRAM-Verwendung und die Antwortzeiten bei der Verwendung von vLLM auf Consumer-GPUs optimiert werden können. Die Erkenntnisse können helfen, die besten Konfigurationen für die lokale Ausführung von Coding-Agenten zu identifizieren.
Konsequenz für OpenCode-Nutzer:
Die Optimierung der VRAM-Verwendung und der Verbesserung der Antwortzeiten können die Leistung von OpenCode erheblich verbessern. Nutzer sollten die Benchmarks und Konfigurationen in dieser Diskussion beachten.
Handlungsempfehlung:
Die Benchmarks und Konfigurationen in dieser Diskussion nachvollziehen und anwenden, um die Performance zu verbessern.
Fakten-Tabelle:
– Hardware im Post: A10
– Modell: Qwen 2.5-7B
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
Why temperature=0,top_p=1,seed=42 is still not enough to fix the llm’s output!? (6/10) — OpenCode-Fit: BEDINGT
Worum geht es konkret?
Der Nutzer verwendet Qwen 2.5-14B-Instruct mit vLLM und stellt fest, dass die Ausgabe trotz der Einstellungen `temperature=0`, `top_p=1` und `seed=42` variabel ist. Er hat festgestellt, dass verschiedene Umgebungen (vLLM serve, vLLM offline, verschiedene GPU-Modelle) zu unterschiedlichen Ausgaben führen.
Was heisst das für ein autarkes Home-Setup (4x 3090 / 2x 5090 / Mac Studio)?
Die Konsistenz der Ausgabe ist wichtig für die lokale Ausführung von Coding-Agenten, insbesondere bei der Verarbeitung wiederholter Aufgaben. Die Unterschiede in den Ausgaben können durch verschiedene Umgebungen und GPU-Modelle verursacht werden, was für Nutzer mit Consumer-GPUs relevant ist.
Konsequenz für OpenCode-Nutzer:
Die Konsistenz der Ausgabe kann die Zuverlässigkeit von OpenCode verbessern. Nutzer sollten die verschiedenen Umgebungen und GPU-Modelle in dieser Diskussion beachten, um die besten Konfigurationen zu identifizieren.
Handlungsempfehlung:
Die verschiedenen Umgebungen und GPU-Modelle in dieser Diskussion testen und die besten Konfigurationen für die Konsistenz der Ausgabe anwenden.
Fakten-Tabelle:
– Hardware im Post: H100, H200
– Modell: Qwen 2.5-14B-Instruct
– Framework-Version: nicht im Post belegt
– tok/s / Benchmark: nicht im Post belegt
– Multi-GPU-Konfiguration: nicht im Post belegt
Weitere Diskussionen (kurz):
– vLLM cannot connect to existing Ray cluster: Enterprise — nicht autark-relevant.
– ……lib/python3.12/site-packages/vllm/_C.abi3.so: undefined symbol: _ZN5torch3jit17parseSchemaOrNameERKSsb: Technisches Problem, spezifisch für bestimmte Umgebungen.
– Any known integration with n8n ?: Frage nach Integration, relevante für Workflows, aber nicht spezifisch für autarke Home-Setups.
– How to benchmark vLLM a short tutorial: Tutorial zur Benchmarking, relevant für die Performance-Optimierung.
– How does the profile_run work?: Technische Frage zur internen Funktionsweise, weniger relevant für autarke Home-Setups.
– How to: custom attention mask? Specifically, bidirectional attention for context.: Technische Frage zur Modellarchitektur, relevant für fortgeschrittene Anwendungen.
– How to only download model without serving it?: Frage zur Modellverwaltung, relevant für die lokale Ausführung.
– Why do vllm set default keep-alive timeout to 5s?: Technische Frage zur Konfiguration, relevant für die Performance-Optimierung.