Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Setup-Berichten und Benchmarks geprägt. Besonders hervorzuheben sind die Einträge, die detaillierte Hardware-Konfigurationen, spezifische Modelle und praktische Zahlen liefern. Ein Leser kann heute Abend mit einem 3090-Setup beginnen, das Qwen3.6 27B mit 200k Kontext stabil laufen lässt, oder sich für ein Spark-Setup mit MiniMax M2.7 für Coding-Aufgaben entscheiden.

[Qwen3.6 27B NVFP4 + MTP on a single RTX 5090: 200k context working in vLLM] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Qwen3.6 27B NVFP4 auf einem einzelnen RTX 5090 getestet und die Leistung mit vLLM gemessen. Das Setup unterstützt bis zu 200k Kontext.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup läuft stabil mit Qwen3.6 27B und unterstützt bis zu 200k Kontext. Die Leistung von 200 tok/s bei 200k Kontext ist beeindruckend und eignet sich gut für OpenCode-Aufgaben.

Was NICHT funktioniert / Limits: Das Setup wurde nicht für höhere Kontext-Längen getestet. Es gibt keine Angaben zur Stromverbrauch oder Kosten.

Nachbau-Empfehlung: Dieses Setup ist eine ausgezeichnete Wahl für Benutzer mit einem RTX 5090, die hohe Kontext-Längen und gute Leistung benötigen. Es ist kostengünstig und passt gut in einen privaten Haushalt.

[Benching local Qwen as a Codex validator, co-agent, and challenger] (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Qwen3.6 27B als Codex-Validator, Co-Agent und Challenger getestet. Es wurde ein benutzerdefinierter Eval-Suite verwendet, um die Leistung zu messen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Die Qwen3.6 27B Profile Bartowski-128k-f16, Bartowski-128k-q8 und Unsloth-128k-q8 haben sich als die besten für den Testfall erwiesen. Sie bieten eine gute Balance zwischen Kontext-Länge und Leistung.

Was NICHT funktioniert / Limits: Die 65k Profile scheitern bei längeren Kontexten. Es gibt keine Angaben zur Stromverbrauch oder Kosten.

Nachbau-Empfehlung: Dieses Setup ist eine gute Wahl für Benutzer, die Qwen3.6 27B für spezifische Coding-Aufgaben nutzen möchten. Es ist besonders nützlich, wenn man eine hohe Kontext-Länge benötigt und die Leistung optimieren will.

[Considering two Sparks for local coding] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Benutzer überlegt, zwei Sparks mit MiniMax M2.7 für lokale Coding-Aufgaben zu verwenden. Das aktuelle Setup besteht aus 4x RTX 3090, aber die Leistung reicht nicht aus.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Zwei Sparks mit MiniMax M2.7 bieten eine gute Leistung für Coding-Aufgaben mit bis zu 120k Kontext. Die Stromverbrauch ist gering, was das Setup für einen privaten Haushalt geeignet macht.

Was NICHT funktioniert / Limits: Es gibt keine konkreten Benchmarks oder Leistungsangaben für das Spark-Setup. Die Leistung von Qwen3.5-122B-A10B ist nicht optimal für alle Coding-Aufgaben.

Nachbau-Empfehlung: Dieses Setup ist eine gute Wahl für Benutzer, die eine hohe Kontext-Länge und geringen Stromverbrauch benötigen. Es ist jedoch ratsam, die Leistung von MiniMax M2.7 und Qwen3.5-122B-A10B in der Praxis zu testen, bevor man sich entscheidet.

Weitere Beiträge:

– Follow-up: Trying to make NVIDIA GPUs plug-and-play on Macs. Found hidden RDMA symbols Apple doesn’t want you to see — zero-copy GPU memory sharing might already work. — keine Hardware belegt, kein nachbaubares Setup
– I Ralph-looped Opus overnight. It reduced my local model switching with cold backfilling context of 135k+ on llama.cpp from ~165s -> 5s! TL;DR – USE SLOTS! — keine Hardware belegt, kein nachbaubares Setup
– DeepSeek V4 being 17x cheaper got me to actually measure what I send to cloud vs what I could run locally. the results are stupid. — keine Hardware belegt, kein nachbaubares Setup
– PP speed on dual RTX 6000 12c EPYC setup — keine konkreten Zahlen, keine nachbaubare Lösung
– Struggling with Qwen3.6 27B / 35B locally (3090) slow responses, breaking code looking for better setup + auto model switching — keine konkreten Zahlen, keine nachbaubare Lösung
– Building on a LLM Quants Testing Site/Ressource – Sharing a few insights from first month, so you can share your thoughts and wishes for the future. — keine konkreten Zahlen, keine nachbaubare Lösung
– What a time to be alive from 1tk/sec to 20-100tk/sec for huge models — keine konkreten Zahlen, keine nachbaubare Lösung
– Doesn’t look like there are any recent Linux distro suggestions. What’s your favorite and why? — keine Hardware belegt, kein nachbaubares Setup

👁 0 Aufrufe 👤 0 Leser