Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, nachbaubare Setups zur lokalen Ausführung von KI-Modellen. Diese Woche sind insbesondere die Einträge zu Krasis, DeepSeek V4 Flash und einem 12x V100-Cluster für rechtliche Aufgaben besonders belegt. Diese Setups bieten präzise Hardware- und Software-Konfigurationen sowie realistische Leistungsdaten, die für den Bau eines eigenen lokalen KI-Setups hilfreich sind.

[Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM)] (https://old.reddit.com/r/LocalLLaMA/comments/1tpyqng/krasis_update_qwen3635ba3b_q4_at_reading_speed_1x/) (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Krasis ist eine LLM-Runtime, die Modelle ausführt, die in die VRAM passen. Der Post beschreibt die Leistung von Qwen3.6-35B-A3B auf verschiedenen GPUs, darunter eine Laptop-GPU (RTX 3070 Mobile 8GB) und hochleistungsfähige Desktop-GPUs (RTX 5090 32GB).

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Krasis ermöglicht die Ausführung von großen Modellen auf Laptops und Desktops mit unterschiedlichem VRAM. Die Leistung variiert stark je nach GPU, aber selbst auf einer Laptop-GPU erreicht das Modell eine akzeptable Geschwindigkeit.

Was NICHT funktioniert / Limits: Die Leistung auf Laptops ist begrenzt, und die Ausführung von sehr großen Modellen (z.B. 122B) auf weniger leistungsfähigen GPUs ist weniger effizient.

Nachbau-Empfehlung: Dieses Setup ist besonders für Anwender geeignet, die flexibel zwischen Laptop und Desktop arbeiten möchten. Für den Einsatz in einem privaten Haushalt ist die Desktop-Variante zu empfehlen, da sie bessere Leistung und Skalierbarkeit bietet.

[DeepSeek V4 Flash at 8.4 tok/s on 3×3090: patching the GGUFs that won’t load on cchuter’s llama.cpp fork] (https://old.reddit.com/r/LocalLLaMA/comments/1tptuph/deepseek_v4_flash_at_84_toks_on_33090_patching/) (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Post beschreibt, wie man DeepSeek V4 Flash auf 3x RTX 3090 mit 128GB RAM lokal ausführt. Es wird erklärt, wie man inkompatible GGUF-Dateien patchen kann, um sie mit der aktuellen llama.cpp-Fork zu verwenden.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? DeepSeek V4 Flash läuft lokal auf 3x RTX 3090 und erreicht eine Geschwindigkeit von 8.4 tok/s. Das Patchen der GGUF-Dateien ermöglicht die Verwendung des Modells mit der aktuellen llama.cpp-Fork.

Was NICHT funktioniert / Limits: Die Leistung ist moderat und könnte für anspruchsvollere Aufgaben nicht ausreichend sein. Die Patching-Prozedur erfordert technisches Know-how.

Nachbau-Empfehlung: Dieses Setup ist für fortgeschrittene Anwender geeignet, die spezifische Modelle wie DeepSeek V4 Flash lokal ausführen möchten. Für Anfänger oder weniger technisch versierte Benutzer könnte ein einfacheres Setup empfehlenswerter sein.

[Update on 12x32gb sxm v100 cluster / local AI for legal drafting] (https://old.reddit.com/r/LocalLLaMA/comments/1tnn29i/update_on_12x32gb_sxm_v100_cluster_local_ai_for/) (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Post beschreibt ein Update zu einem 12x V100-SXM2-Cluster, der für rechtliche Aufgaben verwendet wird. Es wird erklärt, welche Modelle und Frameworks verwendet werden und welche Leistungsdaten erzielt werden.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup ermöglicht die Ausführung von MoE-Modellen wie Gemma-4-26B-A4B und Qwen3.6-35B-A3B mit hohen Geschwindigkeiten und langen Kontexten. Die Leistung ist besonders gut für rechtliche Aufgaben geeignet.

Was NICHT funktioniert / Limits: Die Ausführung von dichten Modellen ist ineffizient und nicht empfehlenswert. Die Verwendung von MoE-Modellen ist erforderlich, um die gewünschte Leistung zu erzielen.

Nachbau-Empfehlung: Dieses Setup ist für Anwender geeignet, die hohe Leistung und langen Kontexte für spezifische Aufgaben benötigen. Es erfordert jedoch einen höheren Budget und technisches Know-how.

Weitere Beiträge

👁 4 Aufrufe 👤 4 Leser