Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Benchmarks und Build-Berichten geprägt. Besonders hervorzuheben sind die Tests von Qwen 3.6 27B auf verschiedenen GPU-Setups, die Optimierung von MTP-Modellen auf RTX 3090 und die Vergleiche verschiedener Inference-Engines auf heterogenen GPU-Clustern. Diese Woche können Leser konkrete Zahlen und Empfehlungen für ihre eigenen lokalen KI-Setups finden.

[Qwen 3.6 27B auf 24GB VRAM Setup: Backend-Vergleiche, Quantisierung und Einstellungen (llama.cpp, ik_llama.cpp, BeeLlama, vllm)] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat verschiedene Backends für das Qwen 3.6 27B-Modell auf einem RTX 3090 24GB getestet, um die besten Leistungs- und Effizienzergebnisse zu erzielen. Die Tests umfassten llama.cpp, ik_llama.cpp, BeeLlama und vLLM.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup mit ik_llama.cpp und dem Qwen3.6-27B-Modell erreicht ausgezeichnete Leistungs- und Effizienzwerte. Es ermöglicht eine kontextlänge von 156k und erreicht 1261 tok/s bei der Prefill-Phase und 72.9 tok/s bei der Decode-Phase. Dies macht es zu einem starken Kandidaten für OpenCode-Workloads.

Was NICHT funktioniert / Limits: llama.cpp und BeeLlama konnten die erwarteten Leistungen nicht erreichen. vLLM zeigte Probleme mit hohen Kontexten auf einem einzelnen RTX 3090, was zu OOM-Fehlern führte.

Nachbau-Empfehlung: Dieses Setup ist für Nutzer mit einem RTX 3090 24GB und einem Budget von ca. 1.000 EUR sehr empfehlenswert. Es bietet eine ausgezeichnete Balance zwischen Leistung und Effizienz und ist für OpenCode-Workloads gut geeignet.

[Benchmarking the new b9200 update: Optimizing Qwen 3.6 27B mtp for Hermes Agent on a single RTX 3090] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Benutzer hat das Qwen 3.6 27B mtp-Modell auf einem RTX 3090 24GB getestet, um es für den Hermes Agent zu optimieren. Er berichtet über die Leistungsverbesserungen durch verschiedene Einstellungen und die Auswirkungen auf die Token-Generierung.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Durch die Optimierung der Einstellungen konnte der Benutzer eine Token-Generierung von 39 tok/s erreichen, was für einen einzelnen RTX 3090 24GB sehr gut ist. Die Verwendung von q4_0 KV-Cache und die Reduzierung der Speicherleistung haben die Leistung erheblich verbessert.

Was NICHT funktioniert / Limits: Der Benutzer berichtet über eine defekte VRM-Thermal-Pads, was die Leistungseinschränkung auf 55% der Board-Leistung verursacht. Ohne diese Einschränkung könnten die Leistungsdaten noch besser sein.

Nachbau-Empfehlung: Dieses Setup ist für Nutzer mit einem RTX 3090 24GB und einem Budget von ca. 1.000 EUR empfehlenswert, vorausgesetzt, die Hardware ist in gutem Zustand. Die Optimierung der Einstellungen kann die Leistung erheblich verbessern.

[Benchmarking vLLM vs SGLang vs llama.cpp on a mixed Blackwell/Ada cluster] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat verschiedene Inference-Engines (vLLM, SGLang, llama.cpp) auf einem heterogenen 7-GPU-Cluster getestet, um ihre Leistung bei der Verarbeitung langer Kontexte zu vergleichen. Die Tests umfassten eine Mischung aus Blackwell und Ada-Karten.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? vLLM zeigte die besten Ergebnisse bei der Verarbeitung langer Kontexte auf einem heterogenen GPU-Cluster. Es konnte die Leistung von SGLang und llama.cpp deutlich übertrumpfen, insbesondere bei der Verwendung von NVFP4-Quantisierung.

Was NICHT funktioniert / Limits: SGLang krachte, wenn Ada-Karten im Pipeline eingeführt wurden, da es keine Software-Fallbacks für FP4-Quantisierung bietet. llama.cpp hatte Schwierigkeiten mit der Pipeline-Parallelisierung, was zu erheblichen Leistungsverlusten führte.

Nachbau-Empfehlung: Dieses Setup ist für Nutzer mit einem heterogenen GPU-Cluster und einem Budget von ca. 10.000 EUR sehr empfehlenswert. vLLM ist die beste Wahl für die Verarbeitung langer Kontexte und bietet eine ausgezeichnete Skalierbarkeit.

[Finding the 4x 3090 Sweet Spot] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat die Effizienzkurve eines 4x RTX 3090-Setups getestet, um den optimalen Leistungs- und Energieverbrauch zu ermitteln. Die Tests umfassten verschiedene Power-Limits und die Auswirkungen auf die Token-Generierung.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Der Benutzer konnte den optimalen Power-Limit von 220W ermitteln, bei dem die Effizienz (t/Joule) am höchsten ist. Dies ermöglicht eine ausgezeichnete Leistung bei niedrigem Energieverbrauch.

Was NICHT funktioniert / Limits: Die Erhöhung des Power-Limits über 250W bringt nur geringe Leistungsverbesserungen und erhöht den Energieverbrauch erheblich.

Nachbau-Empfehlung: Dieses Setup ist für Nutzer mit einem 4x RTX 3090-Setup und einem Budget von ca. 4.000 EUR sehr empfehlenswert. Die Optimierung des Power-Limits auf 220W bietet eine ausgezeichnete Balance zwischen Leistung und Energieeffizienz.

Weitere Beiträge:

– Benchmarked Kokoro 82M vs Supertonic 3 TTS on CPU — keine Hardware belegt, kein nachbaubares Setup
– The option i see online seem to make the model slower — keine Hardware belegt, reine Problem-Frage ohne Lösung
– Llama.cpp MTP with Qwen3.6 27B on Headless RTX 3090 — keine Hardware belegt, kein nachbaubares Setup
– Ran the same models across Strix Halo, RTX 3090, and RTX 5070 because I wanted my own numbers — keine Hardware belegt, kein nachbaubares Setup
– local llama.cpp parallel users – still so fast?! — keine Hardware belegt, kein nachbaubares Setup
– Can a 5090 with qwen3.6 achieve > 3,000 tok/s ? bring your pitchforks (open-dllm) — keine Hardware belegt, kein nachbaubares Setup
– Running Mimo 2.5 q4_k_m on single rtx5090 need recommendations — keine Hardware belegt, reine Problem-Frage ohne Lösung

👁 4 Aufrufe 👤 3 Leser