Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Benchmarks und Build-Berichten von Community-Usern geprägt. Besonders hervorzuheben sind die Einträge, die Qwen3.6-27B auf verschiedenen GPUs testen, sowie die Vergleiche zwischen lokalen und proprietären Modellen. Ein Leser kann heute Abend mit einem Setup beginnen, das Qwen3.6-27B auf einem RTX 3090 oder 5090 laufen lässt, mit stabilen Tool-Agent-Workloads und einer Kontextlänge von über 200K Tokens.

[Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag ist ein Follow-up zu einem früheren Post über das Laufen von Qwen3.6-27B auf einem RTX 3090. Es wurden Verbesserungen vorgenommen, um die Kontextlänge auf ~218K Tokens und die TPS auf ~50–66 zu steigern. Tool-Agent-Workloads sind nun stabil, insbesondere bei langen Tool-Ausgaben.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup läuft stabil mit einer Kontextlänge von über 200K Tokens und einer TPS von ~50–66. Tool-Agent-Workloads sind ohne OOM-Fehler möglich, was es für OpenCode-Workloads geeignet macht.

Was NICHT funktioniert / Limits: Es gibt immer noch ein zweites Speicherlimit um ~50–60K für single-prompt Workloads, das durch Tensor-Parallelismus (z.B. 2x 3090) vermieden werden kann. Die Performance hängt stark von der Quantisierung und der Konfiguration ab.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem Budget von ca. 1.000–2.000 EUR geeignet, die ein leistungsfähiges, aber kostengünstiges Setup für OpenCode-Workloads benötigen. Die Anpassung der Quantisierung und Konfiguration kann je nach spezifischen Anforderungen erfolgen.

[Long-context coding on RTX 5080 16GB: Qwen3.6-35B-A3B holds 30 t/s at 128K (89 t/s fresh), no quality drop] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag beschreibt, wie Qwen3.6-35B-A3B auf einem RTX 5080 16GB eingesetzt wird, um long-context coding-agent Workloads zu unterstützen. Es wird eine TPS von 30 bei 128K Kontext und 89 bei frischen Prompts erreicht, ohne Qualitätsverlust.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht eine TPS von 30 bei einer Kontextlänge von 128K Tokens und 89 bei frischen Prompts. Die Qualität der Generierung bleibt stabil, was es für long-context coding-agent Workloads geeignet macht.

Was NICHT funktioniert / Limits: CUDA 13.x produziert Fehler und 13.1 segfaults in MMQ-Kernen. Die Verwendung von CUDA 12.9.1 ist zwingend erforderlich. Die Performance kann durch Optimierungen der Quantisierung und des Kernels weiter verbessert werden.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem Budget von ca. 1.500–3.000 EUR geeignet, die ein leistungsfähiges Setup für long-context coding-agent Workloads benötigen. Die Verwendung von CUDA 12.9.1 und die Anpassung der Quantisierung sind entscheidend.

[Best RTX Pro 6000 vllm settings?] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Beitrag beschreibt die besten Einstellungen für das Laufen von Qwen3.6-27B auf einem RTX Pro 6000 Blackwell. Es werden TPS-Werte von 763.5 für Prompts und 1320.2 für die Generierung bei 28 parallelen Anfragen erreicht.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht hohe TPS-Werte von 763.5 für Prompts und 1320.2 für die Generierung bei 28 parallelen Anfragen. Es ist besonders geeignet für Agent-Workloads, die auf spezifische Aufgaben spezialisiert sind.

Was NICHT funktioniert / Limits: Die KV-Cache-Verwendung liegt bei 50.4%, und der Prefix-Cache-Hit-Rate ist sehr niedrig (1.3%). Die Effizienz kann durch Optimierung dieser Werte weiter verbessert werden. Die Anwendung von NVFP8 oder NVFP4 ist abhängig von der spezifischen Hardware und den Anforderungen.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem höheren Budget (ca. 5.000–10.000 EUR) geeignet, die eine hohe Durchsatzleistung bei parallelen Agent-Workloads benötigen. Die Optimierung der KV-Cache- und Prefix-Cache-Einstellungen kann die Effizienz weiter verbessern.

[Qwen 3.6-35B-A3B KV cache bench: f16 vs q8_0 vs turbo3 vs turbo4 from 0 to 1M context on M5 Max] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Beitrag beschreibt eine Benchmarks der KV-Cache-Methoden (f16, q8_0, turbo3, turbo4) für Qwen 3.6-35B-A3B auf einem MacBook Pro M5 Max. Es werden TPS-Werte für verschiedene Kontextlängen von 0 bis 1M Tokens gemessen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Die Benchmarks zeigen, dass die turbo3- und turbo4-Cache-Methoden bei längeren Kontexten (ab 128K Tokens) bessere Ergebnisse liefern. Turbo3 ist besonders effektiv bei schweren Prefill-Workloads, während turbo4 bessere Ergebnisse bei der Generierung liefert.

Was NICHT funktioniert / Limits: Die f16- und q8_0-Cache-Methoden haben bei längeren Kontexten (ab 256K Tokens) erhebliche Einschränkungen, insbesondere in Bezug auf die Speicherverwendung und die TPS. Die Wahl der Cache-Methode hängt stark von der spezifischen Workload ab.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem MacBook Pro M5 Max geeignet, die long-context Workloads mit Qwen 3.6-35B-A3B ausführen möchten. Die Wahl der Cache-Methode sollte anhand der spezifischen Anforderungen getroffen werden, wobei turbo3 für schwerere Prefill-Workloads und turbo4 für die Generierung empfohlen wird.

[love it – Qwen3.6-27B — UD-Q5_K_XL evaluation] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Beitrag ist eine Bewertung der UD-Q5_K_XL-Quantisierung von Qwen3.6-27B auf einem RTX 5090. Es werden 19 Runs durchgeführt, die agentic reasoning, production-grade front-end design und canvas/WebGL creative coding abdecken.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Die UD-Q5_K_XL-Quantisierung von Qwen3.6-27B liefert gute Ergebnisse in verschiedenen Aufgaben, einschließlich agentic reasoning, front-end design und creative coding. Die Performance ist stabil und die Qualität der Generierung ist hoch.

Was NICHT funktioniert / Limits: Der Beitrag enthält keine konkreten Zahlen zur TPS oder Speicherverwendung. Die Evaluierung basiert hauptsächlich auf qualitativen Beobachtungen, was die Nachbau-Fähigkeit einschränkt.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer geeignet, die eine qualitative Bewertung von Qwen3.6-27B mit UD-Q5_K_XL-Quantisierung durchführen möchten. Für eine genaue Nachbildung sind zusätzliche Benchmarks und spezifische Zahlen erforderlich.

Weitere Beitraege (automatisch gefiltert):
– nvidia/Gemma-4-26B-A4B-NVFP4 — keine konkreten Messwerte, keine nachbaubaren Daten

👁 1 Aufrufe 👤 1 Leser