Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, funktionierende Setups zur lokalen Ausführung von KI-Modellen. Diese Woche sind insbesondere die Einträge zu Krasis, DeepSeek V4 Flash und einem 12x V100-Cluster besonders belegt. Mit diesen Setups kann ein Leser heute Abend anfangen, seine eigenen lokalen KI-Systeme aufzubauen.

[Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM)] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer präsentiert Krasis, einen LLM-Runtime, der Modelle ausführt, die nicht in die VRAM passen. Es werden Ergebnisse für verschiedene GPUs und Modelle gezeigt, darunter ein 3070 Mobile Laptop und RTX 5090.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Krasis ermöglicht das Ausführen von großen Modellen auf Geräten mit begrenztem VRAM. Die Benchmarks zeigen, dass selbst ein 3070 Mobile Laptop mit 8GB VRAM ein 35B-Modell ausführen kann, wenn es mit 32GB System-RAM verbunden ist. Die Leistung steigt signifikant mit stärkeren GPUs wie dem RTX 5090.

Was NICHT funktioniert / Limits Die Benchmarks repräsentieren die besten Durchsatzwerte, nicht den Durchschnitt. Die Leistung kann bei längeren Prompten abnehmen. Die Verwendung von Krasis erfordert eine gewisse technische Kompetenz.

Nachbau-Empfehlung Krasis ist eine ausgezeichnete Wahl für Benutzer, die große Modelle auf Geräten mit begrenztem VRAM ausführen möchten. Es eignet sich besonders für Budget-Setups und mobile Geräte. Für fortgeschrittene Benutzer, die hohe Leistung benötigen, sind stärkere GPUs wie der RTX 5090 zu empfehlen.

[DeepSeek V4 Flash at 8.4 tok/s on 3×3090: patching the GGUFs that won’t load on cchuter’s llama.cpp fork] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Benutzer beschreibt, wie er DeepSeek V4 Flash auf 3x RTX 3090 mit 128GB RAM ausführt. Er gibt Anweisungen, wie man GGUF-Dateien patchen kann, die aufgrund von Metadaten- und Tensor-Namen-Unterschieden nicht laden.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? DeepSeek V4 Flash läuft lokal auf 3x RTX 3090 und erreicht eine Geschwindigkeit von 8.4 tok/s. Die Anleitung zum Patchen von GGUF-Dateien ist hilfreich, um Kompatibilitätsschwierigkeiten zu umgehen.

Was NICHT funktioniert / Limits Die Benchmarks sind für kurze Prompts optimiert. Bei längeren Prompts kann die Leistung abnehmen. Die Verwendung von cchuter’s llama.cpp Fork erfordert technische Kenntnisse.

Nachbau-Empfehlung Dieses Setup eignet sich für Benutzer, die DeepSeek V4 Flash lokal ausführen möchten. Die Patch-Anleitung ist nützlich, um Kompatibilitätsschwierigkeiten zu lösen. Für fortgeschrittene Benutzer, die hohe Leistung benötigen, sind stärkere GPUs und mehr RAM zu empfehlen.

[Update on 12x32gb sxm v100 cluster / local AI for legal drafting] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer, ein Anwalt, berichtet über sein 12x V100-Cluster, das für die Erstellung von rechtlichen Dokumenten verwendet wird. Er beschreibt die Hardware, die er verwendet, und die Leistung von verschiedenen Modellen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht eine Geschwindigkeit von 113 tok/s bei der Verwendung von MoE-Modellen wie Gemma-4-26B-A4B. Die Leistung bleibt bei langen Kontexten stabil, was für rechtliche Dokumentationen wichtig ist.

Was NICHT funktioniert / Limits Die Verwendung von dichten Modellen ist ineffizient. Die Leistung von dichten Modellen fällt bei langen Kontexten ab. Die Verwendung von NVLink-Boards ist erforderlich, um die Leistung zu maximieren.

Nachbau-Empfehlung Dieses Setup ist ideal für Benutzer, die hohe Leistung und Stabilität bei langen Kontexten benötigen. Es eignet sich besonders für professionelle Anwendungen wie rechtliche Dokumentationen. Die Verwendung von MoE-Modellen ist zu empfehlen, um die Leistung zu maximieren.

Weitere Beitraege (automatisch gefiltert):
– If you’re missing Jeeves, you might want to check out my weekend project. — keine konkreten Messwerte, keine nachbaubaren Daten

👁 1 Aufrufe 👤 1 Leser