Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fav

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, funktionierende KI-Setups, die von Community-Usern dokumentiert werden. In dieser Woche sind insbesondere die Builds mit Qwen3.6-35B, die TTS-Benchmarking und die Optimierung von MTP-Unterstützung in llama.cpp hervorgehoben. Diese Einträge bieten präzise Hardware- und Software-Konfigurationen, tok/s-Zahlen und praktische Einsichten, die für den Aufbau eines eigenen lokalen KI-Setups wertvoll sind.

[Qwen 3.6 35B GGUF: NTP vs MTP Quantisierungsergebnisse auf GPUs und CPUs] (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht (2-4 Sätze): Der Beitrag vergleicht die Quantisierungsergebnisse des Qwen 3.6 35B Modells in NTP (Next Token Prediction) und MTP (Multi-Token Prediction) auf verschiedenen GPUs und CPUs. Es werden spezifische Benchmarks und Empfehlungen für die beste Konfiguration gegeben.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 4090, 5090, Pro 6000, 4080, 5060 Ti, Intel i7, Intel Ultra 7, Ryzen 9, Raspberry Pi 5 |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | ByteShape Qwen 3.6 35B GGUF |
| Modell + Quant | Qwen 3.6 35B Q4_K_M, Qwen 3.6 35B MTP Q4_K_M |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | 163.9 tok/s (Qwen 3.6 27B DFlash) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): Die NTP-Quantisierung von Qwen 3.6 35B zeigte überraschend gute Ergebnisse, insbesondere bei der Geschwindigkeit und der Qualität. MTP bot einen signifikanten Geschwindigkeitsvorteil von 20-40% auf GPUs, aber der Speicherbedarf stieg. CPU-MTP war weniger effektiv.

Was NICHT funktioniert / Limits (2-4 Sätze): CPU-MTP war in den Tests nicht attraktiv und zeigte keine signifikanten Vorteile. Die Kontext-Länge und der Speicherbedarf bei MTP können Einschränkungen darstellen, insbesondere auf Geräten mit begrenztem VRAM.

Nachbau-Empfehlung (2-4 Sätze): Für ein optimales Setup auf GPUs empfiehlt sich die Verwendung von MTP, insbesondere bei Modellen mit 27B und mehr. CPU-Nutzer sollten sich auf NTP konzentrieren, da MTP hier weniger Vorteile bietet.


[Meet the Fleet of BlackBeard] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht (2-4 Sätze): BlackBeard präsentiert seine vollständige AI-Homelab-Setup, bestehend aus fünf verschiedenen Rechnern mit unterschiedlichen GPUs und CPUs. Jeder Rechner hat spezifische Aufgaben und kann für verschiedene KI-Anwendungen genutzt werden.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 2x GTX 1070, 1x RTX 5060 Ti, 1x RTX 5090, 4x RTX 3090 |
| CPU / Mainboard | i3 7100, Ryzen 5600, Ryzen 5950X, Ryzen 9950X3D, Threadripper 1950X |
| RAM | 32 GB, 64 GB, 128 GB, 256 GB |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | nicht im Post belegt |
| Modell + Quant | nicht im Post belegt |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? (3-5 Sätze): Das Setup bietet eine breite Palette von Rechnern, die für verschiedene KI-Aufgaben optimiert sind. Der „Kraken“ mit 4x RTX 3090 ist besonders stark für ressourcenintensive Aufgaben wie das Training von großen Modellen geeignet.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Verteilung der Rechner auf verschiedene Aufgaben kann die Skalierbarkeit beeinträchtigen. Die Stromversorgung und Kühlung müssen sorgfältig geplant werden, um Overheating zu vermeiden.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup eignet sich für fortgeschrittene Nutzer, die eine flexible und leistungsstarke AI-Infrastruktur benötigen. Für Anfänger könnte ein einfacheres Setup mit weniger Rechnern ausreichen.


[BeeLlama v0.2.0 – major DFlash update. Single RTX 3090: Qwen 3.6 27B up to 164 tps (4.40x), Gemma 4 31B up to 177.8 tps (4.93x). Prompt processing speed near baseline.] (9/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht (2-4 Sätze): Die Version 0.2.0 von BeeLlama bringt erhebliche Leistungsverbesserungen für Qwen 3.6 27B und Gemma 4 31B auf einer einzelnen RTX 3090. Die DFlash-Implementierung und optimierte CUDA-Handhabung führen zu signifikanten Geschwindigkeitssteigerungen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 3090 24 GB |
| CPU / Mainboard | AMD Ryzen 7 5700X3D |
| RAM | 32 GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | BeeLlama v0.2.0 |
| Modell + Quant | Qwen 3.6 27B Q5_K_S, Gemma 4 31B Q4_K_M |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | 163.9 tok/s (Qwen 3.6 27B DFlash) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): Die DFlash-Implementierung in BeeLlama v0.2.0 führt zu erheblichen Geschwindigkeitssteigerungen, insbesondere bei der Token-Generierung. Qwen 3.6 27B erreicht bis zu 164 tps, während Gemma 4 31B bis zu 177.8 tps erreicht. Die Prompt-Verarbeitung bleibt nahe am Baseline-Level.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistungssteigerungen sind stark workloadabhängig. Bei längeren Kontexten und komplexeren Aufgaben kann die Geschwindigkeit abnehmen. Die Speicherbedarf von MTP kann bei einigen Modellen ein Limit darstellen.

Nachbau-Empfehlung (2-4 Sätze): BeeLlama v0.2.0 ist eine ausgezeichnete Wahl für Nutzer, die hohe Leistung bei moderaten Kosten benötigen. Es eignet sich besonders für die Verarbeitung von großen Modellen auf einer einzelnen RTX 3090.


Weitere Beiträge (kurz):

Qwen Plays ̶p̶̶o̶̶k̶̶e̶̶m̶̶o̶̶n̶ ? / QWEN PLAYS DCSS! – qwen3.6-35b-a3b@q4_k_xl plays open source roguelike adventure DCSS (and does a decent job) — keine Hardware belegt, kein nachbaubares Setup
TTS Benchmark Comparison (all known TTS up until May 2026) — keine Hardware belegt, kein nachbaubares Setup
If you’re missing Jeeves, you might want to check out my weekend project. — keine Hardware belegt, kein nachbaubares Setup
Any reason to run dense over MOE for RAGs? — keine Hardware belegt, kein nachbaubares Setup
I added native MTP to exo for Qwen3.6 MLX models; here are the exactness and speed results — keine Hardware belegt, kein nachbaubares Setup
Scrambling to max StrixHalo (+NVLink dual eGPU 3090 mod) — keine Hardware belegt, kein nachbaubares Setup
21 GPU’s benchmarked running a small TTS model (vram peak: 5GB) — keine Hardware belegt, kein nachbaubares Setup
llama.cpp MTP support landed – Qwen3.6 27B at 2.44× on a Strix Halo, 2.17× on a RTX 3090 rig — keine Hardware belegt, kein nachbaubares Setup
Benchmarked Kokoro 82M vs Supertonic 3 TTS on CPU — keine Hardware belegt, kein nachbaubares Setup

👁 0 Aufrufe 👤 0 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert