Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fav

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, funktionierende Setups zur lokalen Ausführung von KI-Modellen. Diese Woche sind insbesondere die Einträge zu Krasis, DeepSeek V4 Flash und einem 12x V100-Cluster besonders belegt. Mit diesen Setups kann ein Leser heute Abend anfangen, seine eigenen lokalen KI-Systeme aufzubauen.

[Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM)] (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Benutzer präsentiert Krasis, einen LLM-Runtime, der Modelle ausführt, die nicht in die VRAM passen. Es werden Ergebnisse für verschiedene GPUs und Modelle gezeigt, darunter ein 3070 Mobile Laptop und RTX 5090.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3070 Mobile 8GB, 1x RTX 5080 16GB, 1x RTX A4500 20GB, 1x RTX 5090 32GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 32GB (Laptop), 128GB (Server) |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | Krasis v1.0 |
| Modell + Quant | Qwen3.6-35B-A3B (Q4), Qwen3-Coder-Next (Q4) |
| Kontext-Laenge | 35B (Q4), 80B (Q4), 122B (Q4) |
| tok/s (single) | 222 pp, 12.48 tg (3070 Mobile), 10,030 pp, 124.9 tg (5090) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Krasis ermöglicht das Ausführen von großen Modellen auf Geräten mit begrenztem VRAM. Die Benchmarks zeigen, dass selbst ein 3070 Mobile Laptop mit 8GB VRAM ein 35B-Modell ausführen kann, wenn es mit 32GB System-RAM verbunden ist. Die Leistung steigt signifikant mit stärkeren GPUs wie dem RTX 5090.

Was NICHT funktioniert / Limits Die Benchmarks repräsentieren die besten Durchsatzwerte, nicht den Durchschnitt. Die Leistung kann bei längeren Prompten abnehmen. Die Verwendung von Krasis erfordert eine gewisse technische Kompetenz.

Nachbau-Empfehlung Krasis ist eine ausgezeichnete Wahl für Benutzer, die große Modelle auf Geräten mit begrenztem VRAM ausführen möchten. Es eignet sich besonders für Budget-Setups und mobile Geräte. Für fortgeschrittene Benutzer, die hohe Leistung benötigen, sind stärkere GPUs wie der RTX 5090 zu empfehlen.


[DeepSeek V4 Flash at 8.4 tok/s on 3×3090: patching the GGUFs that won’t load on cchuter’s llama.cpp fork] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht: Der Benutzer beschreibt, wie er DeepSeek V4 Flash auf 3x RTX 3090 mit 128GB RAM ausführt. Er gibt Anweisungen, wie man GGUF-Dateien patchen kann, die aufgrund von Metadaten- und Tensor-Namen-Unterschieden nicht laden.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 3x RTX 3090 (72GB VRAM total) |
| CPU / Mainboard | 24-core Threadripper |
| RAM | 128GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | cchuter/llama.cpp @ feat/v4-port-cuda |
| Modell + Quant | DeepSeek V4 Flash (MXFP4_MOE) |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | ~8.4 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? DeepSeek V4 Flash läuft lokal auf 3x RTX 3090 und erreicht eine Geschwindigkeit von 8.4 tok/s. Die Anleitung zum Patchen von GGUF-Dateien ist hilfreich, um Kompatibilitätsschwierigkeiten zu umgehen.

Was NICHT funktioniert / Limits Die Benchmarks sind für kurze Prompts optimiert. Bei längeren Prompts kann die Leistung abnehmen. Die Verwendung von cchuter’s llama.cpp Fork erfordert technische Kenntnisse.

Nachbau-Empfehlung Dieses Setup eignet sich für Benutzer, die DeepSeek V4 Flash lokal ausführen möchten. Die Patch-Anleitung ist nützlich, um Kompatibilitätsschwierigkeiten zu lösen. Für fortgeschrittene Benutzer, die hohe Leistung benötigen, sind stärkere GPUs und mehr RAM zu empfehlen.


[Update on 12x32gb sxm v100 cluster / local AI for legal drafting] (9/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Benutzer, ein Anwalt, berichtet über sein 12x V100-Cluster, das für die Erstellung von rechtlichen Dokumenten verwendet wird. Er beschreibt die Hardware, die er verwendet, und die Leistung von verschiedenen Modellen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 12x V100-SXM2 32GB, 4x RTX 3090, 2x V100-PCIe |
| CPU / Mainboard | Threadripper Pro, EPYC 7302P |
| RAM | 512GB (Threadripper), 512GB (EPYC) |
| PSU | 4x 3000W 80+ Titanium redundant |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp (mainline) |
| Modell + Quant | Gemma-4-26B-A4B MoE (Q8 GGUF, Q4 KV cache) |
| Kontext-Laenge | 25k+ tokens |
| tok/s (single) | ~113 tok/s (Gemma-4-26B-A4B) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Das Setup erreicht eine Geschwindigkeit von 113 tok/s bei der Verwendung von MoE-Modellen wie Gemma-4-26B-A4B. Die Leistung bleibt bei langen Kontexten stabil, was für rechtliche Dokumentationen wichtig ist.

Was NICHT funktioniert / Limits Die Verwendung von dichten Modellen ist ineffizient. Die Leistung von dichten Modellen fällt bei langen Kontexten ab. Die Verwendung von NVLink-Boards ist erforderlich, um die Leistung zu maximieren.

Nachbau-Empfehlung Dieses Setup ist ideal für Benutzer, die hohe Leistung und Stabilität bei langen Kontexten benötigen. Es eignet sich besonders für professionelle Anwendungen wie rechtliche Dokumentationen. Die Verwendung von MoE-Modellen ist zu empfehlen, um die Leistung zu maximieren.


Weitere Beitraege (automatisch gefiltert):
If you’re missing Jeeves, you might want to check out my weekend project. — keine konkreten Messwerte, keine nachbaubaren Daten

👁 1 Aufrufe 👤 1 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert