Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von Nutzern geprägt, die ihre lokalen KI-Setups dokumentieren und benchmarken. In dieser Woche sind besonders drei konkrete Setups hervorgetreten, die für den Nachbau geeignet sind: ein Benchmark von Qwen3.6 27B auf Mac und CPU, ein Setup mit 2x RTX 6000 und 12-Core EPYC, sowie ein Setup mit 4x RTX 3090 und der Überlegung, Sparks zu verwenden. Diese Beiträge bieten präzise Hardware- und Software-Konfigurationen, die für den Betrieb von OpenCode-ähnlichen Workloads geeignet sind.

[PP speed on dual RTX 6000 12c EPYC setup] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Nutzer diskutiert die Leistung von Prompt-Processing (PP) auf einem Setup mit 2x RTX 6000 und 12-Core EPYC. Es wird untersucht, ob ein zweites RTX 6000 die Leistung verbessern würde.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „2x RTX 6000“ |
| CPU / Mainboard | „12-Core EPYC“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „ik_llama“ |
| Modell + Quant | „Kimi k2.6“ |
| Kontext-Laenge | „96k“ |
| tok/s (single) | „24 tok/s“ |
| tok/s (batched) | „1800 tok/s“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |

Was funktioniert konkret? Das Setup liefert eine gute Token-Generierungsgeschwindigkeit, insbesondere mit dem neuesten ik_llama-Framework. Die Leistung hat sich in den letzten Wochen deutlich verbessert.

Was NICHT funktioniert / Limits: Für sehr lange Kontexte (über 96k) ist die Leistung abnehmend. Ein zweites RTX 6000 würde die Leistung verbessern, aber die Kosten könnten hoch sein.

Nachbau-Empfehlung: Dieses Setup ist für Nutzer geeignet, die eine hohe Token-Generierungsgeschwindigkeit benötigen, aber nicht unbedingt sehr lange Kontexte verarbeiten müssen. Ein zweites RTX 6000 könnte in Betracht gezogen werden, wenn die Leistung für längere Kontexte wichtig ist.


[Considering two Sparks for local coding] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Nutzer überlegt, zwei Sparks mit MiniMax M2.7 für lokale Codierung zu verwenden. Das aktuelle Setup mit 4x RTX 3090 wird verglichen, und die Vorteile und Nachteile der Sparks werden diskutiert.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „2x Sparks“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „256 GB VRAM“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „nicht im Post belegt“ |
| Modell + Quant | „MiniMax M2.7“ |
| Kontext-Laenge | „120k“ |
| tok/s (single) | „15 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „~50 W pro Spark“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Die Sparks bieten eine gute Token-Generierungsgeschwindigkeit und lassen genügend VRAM für zukünftige Modelle. Das Setup ist energieeffizient und passt gut in einen privaten Haushalt.

Was NICHT funktioniert / Limits: Die Sparks sind möglicherweise langsamer als 4x RTX 3090 bei sehr großen Modellen, aber sie bieten eine bessere Energieeffizienz und sind für den alltäglichen Gebrauch geeignet.

Nachbau-Empfehlung: Dieses Setup ist für Nutzer geeignet, die eine gute Balance zwischen Leistung und Energieeffizienz benötigen. Es ist besonders für Codierung und kleinere Projekte zu empfehlen.


Weitere Beiträge (kurz):

DeepSeek V4 being 17x cheaper got me to actually measure what I send to cloud vs what I could run locally. the results are stupid. — keine Hardware belegt, kein nachbaubares Setup
Struggling with Qwen3.6 27B / 35B locally (3090) slow responses, breaking code looking for better setup + auto model switching — keine Hardware belegt, kein nachbaubares Setup
Benching local Qwen as a Codex validator, co-agent, and challenger — keine Hardware belegt, kein nachbaubares Setup
Building on a LLM Quants Testing Site/Ressource – Sharing a few insights from first month, so you can share your thoughts and wishes for the future. — keine Hardware belegt, kein nachbaubares Setup
What a time to be alive from 1tk/sec to 20-100tk/sec for huge models — keine Hardware belegt, kein nachbaubares Setup
Doesn’t look like there are any recent Linux distro suggestions. What’s your favorite and why? — keine Hardware belegt, kein nachbaubares Setup
3xR9700 for semi-autonomous research and development – looking for setup/config ideas. — keine Hardware belegt, kein nachbaubares Setup
What could they mean by „warmed steady-state“? — keine Hardware belegt, kein nachbaubares Setup
Need advice on Qwen 3.6 27B INT4 quantization — keine Hardware belegt, kein nachbaubares Setup

👁 0 Aufrufe 👤 0 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert