Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, nachbaubare Setups von lokalen KI-Modellen. In dieser Woche sind insbesondere die Einträge zu GPU-Optimierungen, TTS-Modellen und spezifischen Hardware-Konfigurationen besonders belegt. Ein Leser kann heute Abend mit konkreten Zahlen und Setup-Vorschlägen für Qwen3.6 27B, 35B und TTS-Modelle starten.

[Qwen 3.6 27B on 24GB VRAM setup: backend comparisons, quant choice and settings (llama.cpp, ik_llama.cpp, BeeLlama, vllm)] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer vergleicht verschiedene Backends (llama.cpp, ik_llama.cpp, BeeLlama, vLLM) für das Qwen 3.6 27B-Modell auf einem RTX 3090 24 GB. Es werden verschiedene Quantisierungen und Einstellungen getestet, um die besten Leistungs- und Speicherwerte zu ermitteln.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup mit ik_llama.cpp und dem Qwen3.6-27B-Modell erreicht eine ausgezeichnete Leistung von 72.9 tok/s bei einer Kontext-Länge von 156k. Die Quantisierung q8_0 für K/V-Cache und die Verwendung von MTP (Multi-Token Prediction) sind besonders effektiv.

Was NICHT funktioniert / Limits: vLLM zeigte instabile Leistungen bei hohen Kontext-Längen, was zu OOM-Fehlern führte. llama.cpp und BeeLlama erreichten zwar gute Ergebnisse, aber nicht so gut wie ik_llama.cpp.

Nachbau-Empfehlung: Dieses Setup ist besonders für Benutzer mit einem RTX 3090 24 GB geeignet, die eine hohe Kontext-Länge und stabile Leistung benötigen. Die Verwendung von ik_llama.cpp und der spezifischen Quantisierung wird empfohlen.

[BeeLlama v0.2.0 – major DFlash update. Single RTX 3090: Qwen 3.6 27B up to 164 tps (4.40x), Gemma 4 31B up to 177.8 tps (4.93x). Prompt processing speed near baseline.] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Die Version 0.2.0 von BeeLlama bringt erhebliche Leistungsverbesserungen für das Qwen 3.6 27B- und Gemma 4 31B-Modell auf einem RTX 3090. Es werden DFlash-Implementierungen und Optimierungen eingeführt, die die Token-Generierung und das Prompt-Processing erheblich beschleunigen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Die neuen DFlash-Implementierungen in BeeLlama v0.2.0 führen zu erheblichen Leistungssteigerungen. Das Qwen 3.6 27B-Modell erreicht bis zu 164 tps, während das Gemma 4 31B-Modell bis zu 177.8 tps erreicht. Das Prompt-Processing bleibt nahe am Baseline-Level.

Was NICHT funktioniert / Limits: Die CPU-Last und der Speicherverbrauch werden nicht spezifisch erwähnt, aber die Leistungssteigerungen sind signifikant.

Nachbau-Empfehlung: Dieses Setup ist ideal für Benutzer mit einem RTX 3090, die hohe Token-Generierungsraten und schnelles Prompt-Processing benötigen. Die Verwendung von BeeLlama v0.2.0 wird empfohlen, insbesondere für Qwen 3.6 27B und Gemma 4 31B.

[Meet the Fleet of BlackBeard] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: BlackBeard präsentiert seine vollständige AI-Homelab-Setup, bestehend aus fünf verschiedenen Rechnern mit unterschiedlichen Konfigurationen. Jeder Rechner hat spezifische Aufgaben, wie das Archivieren von Modellen, das Ausführen von großen Modellen und die Erweiterung der GPU-Kapazität.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup bietet eine breite Palette von Rechnern für verschiedene Aufgaben, von der Archivierung von Modellen bis hin zur Ausführung von großen Modellen. Die Verwendung von mehreren GPUs ermöglicht die parallele Verarbeitung und die Skalierung von Workloads.

Was NICHT funktioniert / Limits: Die spezifischen Leistungsdaten und die Verwendung von speziellen Frameworks oder Modellen werden nicht im Detail beschrieben. Die Autarkie-Fit ist bedingt, da das Setup sehr spezialisiert und für den privaten Haushalt möglicherweise zu aufwendig ist.

Nachbau-Empfehlung: Dieses Setup ist ideal für Benutzer, die eine breite Palette von AI-Aufgaben abdecken möchten und über mehrere Rechner verfügen. Für den privaten Haushalt könnte eine reduzierte Version mit weniger Rechnern und GPUs sinnvoll sein.

Weitere Beitraege:

– TTS Benchmark Comparison (all known TTS up until May 2026) — keine Hardware belegt, kein nachbaubares Setup
– If you’re missing Jeeves, you might want to check out my weekend project. — keine Hardware belegt, kein nachbaubares Setup
– Any reason to run dense over MOE for RAGs? — keine Hardware belegt, kein nachbaubares Setup
– 21 GPU’s benchmarked running a small TTS model (vram peak: 5GB) — keine Hardware belegt, kein nachbaubares Setup
– llama.cpp MTP support landed – Qwen3.6 27B at 2.44× on a Strix Halo, 2.17× on a RTX 3090 rig — keine Hardware belegt, kein nachbaubares Setup
– Benchmarked Kokoro 82M vs Supertonic 3 TTS on CPU — keine Hardware belegt, kein nachbaubares Setup

👁 0 Aufrufe 👤 0 Leser