Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks bietet aktuell eine Fülle von echten Setup-Berichten und Benchmarks. Die Community dokumentiert detailliert, wie verschiedene GPU-Konfigurationen und Modelle lokal betrieben werden. Besonders hervorzuheben sind die Erfahrungen mit der Integration alter GPUs, die Leistung von MoE-Modellen auf V100-Clustern und die Kostenanalyse eines lokalen LLM-Servers. Mit diesen Beiträgen kann ein Leser heute Abend konkrete Anhaltspunkte für sein eigenes Setup finden.

Added an old 2070 Super to my rig and I can’t go back…worse, now I need more (8/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Autor hat eine alte RTX 2070 Super in sein bestehendes Setup integriert, das bereits eine RTX 5090, einen 9800X3D und 96 GB RAM umfasst. Die zusätzlichen 8 GB VRAM ermöglichen es ihm, Qwen3.6-27B mit einer Kontextlänge von 144k zu betreiben und erzielt dabei 40-70 tok/s. Er ist nun auf der Suche nach weiteren GPUs, um die Leistung weiter zu steigern.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Die Integration der RTX 2070 Super hat die Leistung des Systems erheblich gesteigert. Qwen3.6-27B kann nun mit einer Kontextlänge von 144k und 40-70 tok/s betrieben werden. Dies ermöglicht eine effiziente Verarbeitung von komplexen Aufgaben, wie Code-Generierung und Textverarbeitung.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung ist zwar verbessert, aber die zusätzliche GPU erhöht auch den Stromverbrauch und die Wärmeentwicklung. Die Skalierung auf mehrere GPUs könnte technische Herausforderungen mit sich bringen, insbesondere bei der Kühlung und der Stromversorgung.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer mit einem budgetfreundlichen Ansatz geeignet, die bereits eine leistungsfähige GPU besitzen und durch die Hinzufügung einer älteren GPU die Leistung weiter steigern möchten. Es ist wichtig, die Kühllösung und die Stromversorgung entsprechend zu dimensionieren.

Cost Analysis of my $6.4k Local LLM Server (7/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Autor präsentiert eine detaillierte Kostenaufschlüsselung seines lokalen LLM-Servers, der aus vier MI100 GPUs, einem Epyc 7k62 CPU und 8 GB DDR4 ECC RAM besteht. Er vergleicht die Kosten des lokalen Betriebs mit den Kosten der Nutzung von Cloud-APIs und zeigt, dass der lokale Betrieb langfristig kosteneffizienter ist.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Das Setup ist in der Lage, täglich 20.4M Eingabetoken und 1.32M Ausgabetoken zu verarbeiten, was für den Betrieb eines lokalen LLM-Servers ausreicht. Die Kosteneffizienz des lokalen Betriebs im Vergleich zu Cloud-APIs ist bemerkenswert, insbesondere bei längerfristiger Nutzung.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Token-Ausgabe ist niedriger als erwartet, was möglicherweise an der Konfiguration oder der Workload liegt. Die Kühllösung und die Stromversorgung müssen sorgfältig dimensioniert werden, um die langfristige Stabilität zu gewährleisten.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer geeignet, die eine kosteneffiziente Lösung für den Betrieb von LLMs suchen. Es ist wichtig, die Kühllösung und die Stromversorgung entsprechend zu dimensionieren, um die langfristige Stabilität zu gewährleisten.

Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM) (7/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Autor präsentiert die neuesten Ergebnisse des Krasis-Runtimes, der es ermöglicht, große Modelle wie Qwen3.6-35B-A3B auf einem Laptop mit einer RTX 3070 Mobile 8GB GPU und 32 GB RAM zu betreiben. Die Leistung bei der Verarbeitung von 35B-Parametern und einer Kontextlänge von 222 pp und 12.48 tg wird detailliert beschrieben.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Krasis ermöglicht es, große Modelle wie Qwen3.6-35B-A3B auf einem Laptop mit begrenzter VRAM zu betreiben. Die Leistung bei der Verarbeitung von 35B-Parametern und einer Kontextlänge von 222 pp und 12.48 tg ist bemerkenswert und ermöglicht die Verarbeitung komplexer Aufgaben.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung ist begrenzt durch die verfügbare VRAM und RAM des Laptops. Die Verarbeitung von noch größeren Modellen oder längeren Kontexten könnte technische Herausforderungen mit sich bringen.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer geeignet, die große Modelle auf einem Laptop betreiben möchten. Es ist wichtig, die VRAM und RAM des Laptops entsprechend zu dimensionieren, um die Leistung zu gewährleisten.

Update on 12x32gb sxm v100 cluster / local AI for legal drafting (8/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Autor, ein Anwalt, präsentiert die neuesten Ergebnisse seines V100-Clusters, der aus zwölf V100-SXM2 32GB GPUs besteht. Er beschreibt, wie er die Hardware und Software konfiguriert hat, um MoE-Modelle lokal zu betreiben, und zeigt die Leistung bei der Verarbeitung von langen Kontexten.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Der V100-Cluster ermöglicht die effiziente Verarbeitung von MoE-Modellen wie Gemma-4-26B-A4B, Qwen3.6-35B-A3B und Qwen3.5-122B-A10B. Die Leistung bei der Verarbeitung von langen Kontexten ist bemerkenswert, insbesondere bei der Verwendung von MoE-Modellen.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Verarbeitung von dichten Modellen ist ineffizient und nicht empfehlenswert. Die Skalierung auf mehrere GPUs erfordert eine sorgfältige Konfiguration, insbesondere bei der Verwendung von NVLink.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer geeignet, die eine hohe Leistung bei der Verarbeitung von MoE-Modellen benötigen. Es ist wichtig, die Hardware und Software sorgfältig zu konfigurieren, um die Leistung zu maximieren.

DeepSeek V4 Flash at 8.4 tok/s on 3×3090: patching the GGUFs that won’t load on cchuter’s llama.cpp fork (7/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Autor beschreibt, wie er DeepSeek V4 Flash auf einem Setup mit 3x RTX 3090 und 128 GB RAM betreibt. Er zeigt, wie er GGUF-Dateien patchen muss, um sie auf der aktuellen llama.cpp-Fork zu laden, und erreicht eine Leistung von 8.4 tok/s.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): DeepSeek V4 Flash kann lokal auf einem Setup mit 3x RTX 3090 und 128 GB RAM betrieben werden. Die Leistung von 8.4 tok/s ist für viele Anwendungen ausreichend, insbesondere bei der Verarbeitung von komplexen Aufgaben.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Verwendung von GGUF-Dateien erfordert das Patchen der Dateien, um sie auf der aktuellen llama.cpp-Fork zu laden. Dies kann technische Herausforderungen mit sich bringen, insbesondere für Anfänger.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer geeignet, die DeepSeek V4 Flash lokal betreiben möchten. Es ist wichtig, die GGUF-Dateien entsprechend zu patchen und die Hardware sorgfältig zu dimensionieren, um die Leistung zu gewährleisten.

[two months local 30b, real speedup nowhere near benchmark](

👁 1 Aufrufe 👤 1 Leser