Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build-Berichten und Benchmarks geprägt. Besonders hervorzuheben sind die Einträge, die funktionierende Setups mit konkreten tok/s-Zahlen und Modell-Variationen dokumentieren. Ein Leser kann heute Abend mit einem 27B-Modell auf einem 3090-Setup oder einem 122B-Modell auf einem V100-Cluster beginnen.

Added an old 2070 Super to my rig and I can’t go back…worse, now I need more (7/10) — OpenCode-Fit: JA

Worum es geht: Der Autor hat eine alte 2070 Super-GPU zu seinem bestehenden Setup mit einer 5090 hinzugefügt. Dies hat die VRAM von 16GB auf 24GB erhöht und ermöglicht das Laufen von Qwen3.6-27B mit 144k Kontext und 40-70 tok/s.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup ermöglicht das Laufen von Qwen3.6-27B mit 144k Kontext und 40-70 tok/s. Die zusätzliche VRAM der 2070 Super bringt eine signifikante Leistungssteigerung.

Was NICHT funktioniert / Limits Die Leistung bei längeren Prompts könnte weiter verbessert werden. Das Setup ist für den privaten Einsatz gut geeignet, aber für professionelle Anwendungen könnte mehr VRAM und eine bessere Kühlung nötig sein.

Nachbau-Empfehlung Dieses Setup ist für den privaten Einsatz sehr empfehlenswert, insbesondere für Benutzer mit einem Budget von ca. 5.000 EUR. Die zusätzliche 2070 Super ist eine kostengünstige Option, um die VRAM zu erhöhen.

Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM) (8/10) — OpenCode-Fit: JA

Worum es geht: Der Autor hat Krasis, einen LLM-Runtime, aktualisiert, um 35B-Modelle auf einem Laptop mit 8GB VRAM und 32GB RAM laufen zu lassen. Die neuesten Ergebnisse zeigen, dass Qwen3.6-35B-A3B mit 12.48 tok/s auf einem 3070 Mobile läuft.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Krasis ermöglicht das Laufen von 35B-Modellen auf einem Laptop mit begrenzter VRAM. Die Leistung bei 12.48 tok/s ist für den privaten Einsatz akzeptabel.

Nachbau-Empfehlung Dieses Setup ist für den privaten Einsatz sehr empfehlenswert, insbesondere für Benutzer mit einem Budget von ca. 1.500 EUR. Krasis ist eine gute Option, um große Modelle auf Geräten mit begrenzter VRAM laufen zu lassen.

DeepSeek V4 Flash at 8.4 tok/s on 3×3090: patching the GGUFs that won’t load on cchuter’s llama.cpp fork (7/10) — OpenCode-Fit: JA

Worum es geht: Der Autor hat DeepSeek V4 Flash auf 3×3090 mit 128GB RAM laufen lassen und eine Methode zur Patches von GGUFs beschrieben, die auf dem cchuter’s llama.cpp fork nicht laden. Die Leistung beträgt 8.4 tok/s.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? DeepSeek V4 Flash läuft auf 3×3090 mit 8.4 tok/s. Die Patches ermöglichen das Laden von GGUFs, die auf dem cchuter’s llama.cpp fork nicht direkt laufen.

Nachbau-Empfehlung Dieses Setup ist für den privaten Einsatz sehr empfehlenswert, insbesondere für Benutzer mit einem Budget von ca. 3.000 EUR. Die Patches sind eine gute Option, um DeepSeek V4 Flash laufen zu lassen.

Update on 12x32gb sxm v100 cluster / local AI for legal drafting (9/10) — OpenCode-Fit: JA

Worum es geht: Der Autor hat ein 12x32GB SXM V100-Cluster für die lokale KI bei der rechtlichen Bearbeitung aufgesetzt. Die Leistung bei MoE-Modellen wie Qwen3.6-35B-A3B beträgt 82 tok/s.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup ermöglicht das Laufen von MoE-Modellen wie Qwen3.6-35B-A3B mit 82 tok/s. Die Leistung bei längeren Prompts ist gut, und das Setup ist für den professionellen Einsatz geeignet.

Was NICHT funktioniert / Limits Die Leistung bei dichten Modellen wie 128B-dense ist sehr niedrig. Das Setup ist für den professionellen Einsatz gut geeignet, aber für den privaten Einsatz könnte es zu teuer sein.

Nachbau-Empfehlung Dieses Setup ist für den professionellen Einsatz sehr empfehlenswert, insbesondere für Benutzer mit einem Budget von ca. 50.000 EUR. Die Verwendung von MoE-Modellen ist eine gute Wahl, um die Leistung zu steigern.

Cost Analysis of my $6.4k Local LLM Server (8/10) — OpenCode-Fit: JA

Worum es geht: Der Autor hat eine detaillierte Kostenanalyse seines 6.400 USD teuren LLM-Servers durchgeführt. Das Setup läuft mit 4x MI100 32GB und verarbeitet 20.4M Input-Tokens und 1.32M Output-Tokens pro Tag.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup verarbeitet 20.4M Input-Tokens und 1.32M Output-Tokens pro Tag, was für den privaten Einsatz sehr effizient ist. Die Kostenanalyse zeigt, dass das Setup wirtschaftlich rentabel ist.

Nachbau-Empfehlung Dieses Setup ist für den privaten Einsatz sehr empfehlenswert, insbesondere für Benutzer mit einem Budget von ca. 6.400 USD. Die Kostenanalyse zeigt, dass das Setup wirtschaftlich rentabel ist.

Weitere Beitraege:

– I built mlx-Chronos — a community benchmark leaderboard for local LLM engines on Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama) — keine Hardware belegt, kein nachbaubares Setup
– 13 abliterated Gemma 4 E2B variants, 44 GPU hours, Benchmark and Comparison – Abliterlitics — keine Hardware belegt, kein nachbaubares Setup
– Fine tuning on DGX spark vs 4x 3090? — keine Hardware belegt, kein nachbaubares Setup
– How do I make MTP work in llama-server? — keine Hardware belegt, kein nachbaubares Setup
– two months local 30b, real speedup nowhere near benchmark — keine Hardware belegt, kein nachbaubares Setup
– Custom 4x RTX PRO 6000 Blackwell server vs Dell GB300 for ~30 fine-tuned production pipelines — looking for honest input on direction — keine Hardware belegt, kein nachbaubares Setup

👁 9 Aufrufe 👤 8 Leser