Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build-Berichten und Benchmarks geprägt. Besonders hervorzuheben sind die Einträge, die funktionierende Setups mit konkreten tok/s-Zahlen und Modell-Variationen dokumentieren. Ein Leser kann heute Abend mit einem 27B-Modell auf einem 3090-Setup oder einem 122B-Modell auf einem V100-Cluster beginnen.

Added an old 2070 Super to my rig and I can’t go back…worse, now I need more (7/10) — OpenCode-Fit: JA

Vorschau

Worum es geht: Der Autor hat eine alte 2070 Super-GPU zu seinem bestehenden Setup mit einer 5090 hinzugefügt. Dies hat die VRAM von 16GB auf 24GB erhöht und ermöglicht das Laufen von Qwen3.6-27B mit 144k Kontext und 40-70 tok/s.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5090 24GB, 1x RTX 2070 Super 8GB |
| CPU / Mainboard | 9800X3D, Asrock Rack ROMED8-2T |
| RAM | 96 GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp (neueste Version) |
| Modell + Quant | Qwen3.6-27B Q8_0 GGUF |
| Kontext-Laenge | 144k (Q8_0) |
| tok/s (single) | 40-70 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Das Setup ermöglicht das Laufen von Qwen3.6-27B mit 144k Kontext und 40-70 tok/s. Die zusätzliche VRAM der 2070 Super bringt eine signifikante Leistungssteigerung.

Was NICHT funktioniert / Limits Die Leistung bei längeren Prompts könnte weiter verbessert werden. Das Setup ist für den privaten Einsatz gut geeignet, aber für professionelle Anwendungen könnte mehr VRAM und eine bessere Kühlung nötig sein.

Nachbau-Empfehlung Dieses Setup ist für den privaten Einsatz sehr empfehlenswert, insbesondere für Benutzer mit einem Budget von ca. 5.000 EUR. Die zusätzliche 2070 Super ist eine kostengünstige Option, um die VRAM zu erhöhen.


Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM) (8/10) — OpenCode-Fit: JA

Vorschau

Worum es geht: Der Autor hat Krasis, einen LLM-Runtime, aktualisiert, um 35B-Modelle auf einem Laptop mit 8GB VRAM und 32GB RAM laufen zu lassen. Die neuesten Ergebnisse zeigen, dass Qwen3.6-35B-A3B mit 12.48 tok/s auf einem 3070 Mobile läuft.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3070 Mobile 8GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 32 GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | Krasis v1.0 |
| Modell + Quant | Qwen3.6-35B-A3B HQQ4, k4v4 |
| Kontext-Laenge | 222 pp, 12.48 tg |
| tok/s (single) | 12.48 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Krasis ermöglicht das Laufen von 35B-Modellen auf einem Laptop mit begrenzter VRAM. Die Leistung bei 12.48 tok/s ist für den privaten Einsatz akzeptabel.

Was NICHT funktioniert / Limits Die Leistung bei längeren Prompts könnte weiter verbessert werden. Das Setup ist für den privaten Einsatz gut geeignet, aber für professionelle Anwendungen könnte mehr VRAM und eine bessere Kühlung nötig sein.

Nachbau-Empfehlung Dieses Setup ist für den privaten Einsatz sehr empfehlenswert, insbesondere für Benutzer mit einem Budget von ca. 1.500 EUR. Krasis ist eine gute Option, um große Modelle auf Geräten mit begrenzter VRAM laufen zu lassen.


DeepSeek V4 Flash at 8.4 tok/s on 3×3090: patching the GGUFs that won’t load on cchuter’s llama.cpp fork (7/10) — OpenCode-Fit: JA

Vorschau

Worum es geht: Der Autor hat DeepSeek V4 Flash auf 3×3090 mit 128GB RAM laufen lassen und eine Methode zur Patches von GGUFs beschrieben, die auf dem cchuter’s llama.cpp fork nicht laden. Die Leistung beträgt 8.4 tok/s.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 3x RTX 3090 24GB |
| CPU / Mainboard | 24-core Threadripper |
| RAM | 128 GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | cchuter/llama.cpp @ feat/v4-port-cuda |
| Modell + Quant | DeepSeek V4 Flash (284B-total / 13B-active MoE) |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | 8.4 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? DeepSeek V4 Flash läuft auf 3×3090 mit 8.4 tok/s. Die Patches ermöglichen das Laden von GGUFs, die auf dem cchuter’s llama.cpp fork nicht direkt laufen.

Was NICHT funktioniert / Limits Die Leistung bei längeren Prompts könnte weiter verbessert werden. Das Setup ist für den privaten Einsatz gut geeignet, aber für professionelle Anwendungen könnte mehr VRAM und eine bessere Kühlung nötig sein.

Nachbau-Empfehlung Dieses Setup ist für den privaten Einsatz sehr empfehlenswert, insbesondere für Benutzer mit einem Budget von ca. 3.000 EUR. Die Patches sind eine gute Option, um DeepSeek V4 Flash laufen zu lassen.


Update on 12x32gb sxm v100 cluster / local AI for legal drafting (9/10) — OpenCode-Fit: JA

Vorschau

Worum es geht: Der Autor hat ein 12x32GB SXM V100-Cluster für die lokale KI bei der rechtlichen Bearbeitung aufgesetzt. Die Leistung bei MoE-Modellen wie Qwen3.6-35B-A3B beträgt 82 tok/s.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 12x V100-SXM2 32GB |
| CPU / Mainboard | Threadripper Pro, EPYC 7302P |
| RAM | 512 GB DDR4, 512 GB DDR4 |
| PSU | 4x 3000W 80+ Titanium redundant |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp (mainline) |
| Modell + Quant | Qwen3.6-35B-A3B MoE Q8 GGUF, Q4 KV cache |
| Kontext-Laenge | 222 pp, 12.48 tg |
| tok/s (single) | 82 tok/s (Qwen3.6-35B-A3B) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Das Setup ermöglicht das Laufen von MoE-Modellen wie Qwen3.6-35B-A3B mit 82 tok/s. Die Leistung bei längeren Prompts ist gut, und das Setup ist für den professionellen Einsatz geeignet.

Was NICHT funktioniert / Limits Die Leistung bei dichten Modellen wie 128B-dense ist sehr niedrig. Das Setup ist für den professionellen Einsatz gut geeignet, aber für den privaten Einsatz könnte es zu teuer sein.

Nachbau-Empfehlung Dieses Setup ist für den professionellen Einsatz sehr empfehlenswert, insbesondere für Benutzer mit einem Budget von ca. 50.000 EUR. Die Verwendung von MoE-Modellen ist eine gute Wahl, um die Leistung zu steigern.


Cost Analysis of my $6.4k Local LLM Server (8/10) — OpenCode-Fit: JA

Vorschau

Worum es geht: Der Autor hat eine detaillierte Kostenanalyse seines 6.400 USD teuren LLM-Servers durchgeführt. Das Setup läuft mit 4x MI100 32GB und verarbeitet 20.4M Input-Tokens und 1.32M Output-Tokens pro Tag.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 4x MI100 32GB |
| CPU / Mainboard | Epyc 7k62 48 core CPU, ASRock EPYCD8-2T |
| RAM | 64 GB DDR4 ECC RDIMMs |
| PSU | 1600W 80+ Plat PSU |
| Chassis / Kuehlung | ATX Case, 4x 75x30mm Blowers |
| Framework + Version | llama.cpp (neueste Version) |
| Modell + Quant | Qwen3.6 27B |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | 20.4M Input-Tokens, 1.32M Output-Tokens per Tag |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | 6.406,45 USD |
| Autarkie-Fit | JA |

Was funktioniert konkret? Das Setup verarbeitet 20.4M Input-Tokens und 1.32M Output-Tokens pro Tag, was für den privaten Einsatz sehr effizient ist. Die Kostenanalyse zeigt, dass das Setup wirtschaftlich rentabel ist.

Was NICHT funktioniert / Limits Die Leistung bei längeren Prompts könnte weiter verbessert werden. Das Setup ist für den privaten Einsatz gut geeignet, aber für professionelle Anwendungen könnte mehr VRAM und eine bessere Kühlung nötig sein.

Nachbau-Empfehlung Dieses Setup ist für den privaten Einsatz sehr empfehlenswert, insbesondere für Benutzer mit einem Budget von ca. 6.400 USD. Die Kostenanalyse zeigt, dass das Setup wirtschaftlich rentabel ist.


Weitere Beitraege:

I built mlx-Chronos — a community benchmark leaderboard for local LLM engines on Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama) — keine Hardware belegt, kein nachbaubares Setup
13 abliterated Gemma 4 E2B variants, 44 GPU hours, Benchmark and Comparison – Abliterlitics — keine Hardware belegt, kein nachbaubares Setup
Fine tuning on DGX spark vs 4x 3090? — keine Hardware belegt, kein nachbaubares Setup
How do I make MTP work in llama-server? — keine Hardware belegt, kein nachbaubares Setup
two months local 30b, real speedup nowhere near benchmark — keine Hardware belegt, kein nachbaubares Setup
Custom 4x RTX PRO 6000 Blackwell server vs Dell GB300 for ~30 fine-tuned production pipelines — looking for honest input on direction — keine Hardware belegt, kein nachbaubares Setup

👁 9 Aufrufe 👤 8 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert