Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist der Ort, an dem Community-User ihre lokalen KI-Setups dokumentieren und benchmarken. In dieser Woche sind besonders die Einträge zu GPU-Setups mit alten und neuen Karten sowie Apple Silicon im Fokus. Ein Leser kann heute Abend mit konkreten Beispielen anfangen, wie man ein funktionierendes Setup für OpenCode lokal aufbaut, ohne dabei ein Vermögen auszugeben.

Added an old 2070 Super to my rig and I can’t go back…worse, now I need more (8/10) — OpenCode-Fit: JA

Worum es geht: Der User hat eine alte 2070 Super zu seinem bestehenden Setup mit einer RTX 5090 hinzugefügt. Das zusätzliche VRAM ermöglicht es ihm, Qwen3.6-27B mit einer Kontextlänge von 144k zu laufen, was eine erhebliche Leistungssteigerung bringt.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup ermöglicht das Laufen von Qwen3.6-27B mit einer Kontextlänge von 144k und erzielt eine durchschnittliche Geschwindigkeit von 40-70 tok/s. Die zusätzliche VRAM der 2070 Super bringt eine erhebliche Leistungssteigerung.

Was NICHT funktioniert / Limits Die Stromversorgung und Kühlung müssen auf das zusätzliche GPU-Verbrauch angepasst werden. Das Setup ist ideal für kurze und mittlere Aufgaben, aber für längere Workloads könnte die Leistung abnehmen.

Nachbau-Empfehlung Dieses Setup ist eine gute Wahl für Benutzer, die bereits eine leistungsstarke GPU haben und eine zusätzliche Karte hinzufügen möchten, um die VRAM zu erhöhen. Es ist kosteneffektiv und bietet eine gute Leistung für OpenCode-Workloads.

Cost Analysis of my $6.4k Local LLM Server (7/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der User teilt eine detaillierte Kostenanalyse seines lokalen LLM-Servers, der aus vier MI100-GPUs besteht. Er vergleicht die Kosten des lokalen Setups mit den Kosten für API-Verwendung.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup verarbeitet täglich 20.4M Eingabetoken und 1.32M Ausgabetoken, was für den User für einen Geschäftszweck ausreicht. Die Gesamtkosten sind niedriger als die API-Kosten.

Was NICHT funktioniert / Limits Die Token-Ausgabe ist niedriger als erwartet. Das Setup ist eher für langfristige, kontinuierliche Workloads geeignet, weniger für kurze, schnelle Aufgaben.

Nachbau-Empfehlung Dieses Setup ist eine gute Wahl für Benutzer, die eine hohe Token-Verarbeitung benötigen und langfristig sparen möchten. Es ist jedoch eher für professionelle Anwendungen geeignet und erfordert eine gewisse technische Kompetenz.

Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM) (8/10) — OpenCode-Fit: JA

Worum es geht: Der User berichtet über die neuesten Ergebnisse des Krasis-LLM-Runtimes, der es ermöglicht, große Modelle auf Laptops mit begrenztem VRAM zu laufen. Er zeigt die Leistung von Qwen3.6-35B-A3B auf verschiedenen GPUs.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Krasis ermöglicht es, große Modelle wie Qwen3.6-35B-A3B auf Laptops mit begrenztem VRAM zu laufen. Die Leistung ist erstaunlich, insbesondere auf modernen GPUs.

Was NICHT funktioniert / Limits Die Leistung variiert stark je nach GPU. Auf Laptops mit begrenztem VRAM ist die Leistung begrenzt, aber immer noch nutzbar.

Nachbau-Empfehlung Dieses Setup ist eine gute Wahl für Benutzer, die große Modelle auf Laptops oder Desktops mit begrenztem VRAM laufen lassen möchten. Es ist besonders nützlich für OpenCode-Workloads, die eine hohe Kontextlänge erfordern.

DeepSeek V4 Flash at 8.4 tok/s on 3×3090: patching the GGUFs that won’t load on cchuter’s llama.cpp fork (7/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der User beschreibt, wie er DeepSeek V4 Flash auf 3x RTX 3090 laufen lässt, indem er GGUF-Dateien patcht, die auf der aktuellen llama.cpp-Fork nicht laden.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? DeepSeek V4 Flash läuft auf 3x RTX 3090 und erreicht eine Geschwindigkeit von 8.4 tok/s. Die GGUF-Dateien wurden erfolgreich gepatched, um mit der aktuellen llama.cpp-Fork kompatibel zu sein.

Was NICHT funktioniert / Limits Die Leistung ist moderat und hängt stark von der Patching-Methode ab. Das Setup ist eher für fortgeschrittene Benutzer geeignet, die technische Kenntnisse haben.

Nachbau-Empfehlung Dieses Setup ist eine gute Wahl für Benutzer, die DeepSeek V4 Flash laufen lassen möchten und technische Kenntnisse in der Patching von GGUF-Dateien haben. Es ist kosteneffektiv, aber erfordert eine gewisse technische Kompetenz.

Update on 12x32gb sxm v100 cluster / local AI for legal drafting (9/10) — OpenCode-Fit: JA

Worum es geht: Der User, ein Anwalt, berichtet über sein 12x32GB SXM V100-Cluster, das er für die lokale KI-Verarbeitung in der Rechtsabteilung verwendet. Er beschreibt die Leistung von verschiedenen Modellen und die Vorteile von MoE-Modellen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup ermöglicht das Laufen von MoE-Modellen wie Gemma-4-26B-A4B, Qwen3.6-35B-A3B und Qwen3.5-122B-A10B mit hohen Geschwindigkeiten und langen Kontextlängen. Die Leistung ist ausgezeichnet, insbesondere für komplexe Rechtsdokumente.

Was NICHT funktioniert / Limits Die Leistung von dichten Modellen ist begrenzt. Die Hardware ist teuer und erfordert eine spezialisierte Kühlung.

Nachbau-Empfehlung Dieses Setup ist eine ausgezeichnete Wahl für professionelle Anwendungen, insbesondere in der Rechtsabteilung. Es ist kostspielig, aber bietet eine hohe Leistung und Zuverlässigkeit. Es ist eher für fortgeschrittene Benutzer geeignet, die eine hohe Investition bereit sind.

Weitere Beiträge

– I built mlx-Chronos — a community benchmark leaderboard for local LLM engines on Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama) — keine Hardware belegt, kein nachbaubares Setup
– 13 abliterated Gemma 4 E2B variants, 44 GPU hours, Benchmark and Comparison – Abliterlitics — keine Hardware belegt, kein nachbaubares Setup
– Fine tuning on DGX spark vs 4x 3090? — reine Problem-Frage ohne Lösung
– How do I make MTP work in llama-server? — reine Problem-Frage ohne Lösung
– Custom 4x RTX PRO 6000 Blackwell server vs Dell GB300 for ~30 fine-tuned production pipelines — looking for honest input on direction — zu teuer für autarkes Setup
– two months local 30b, real speedup nowhere near benchmark — keine Hardware belegt, kein nachbaubares Setup

👁 2 Aufrufe 👤 2 Leser