Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, nachbaubare Setups zur lokalen KI-Betrieb. Diese Woche sind insbesondere die Einträge zu den Themen 30B-Modelle auf 4090-GPUs, MoE-Modelle auf V100-Clustern und die BeeLlama-Updates besonders belegt. Leser, die ein funktionierendes Setup für OpenCode-Aufgaben suchen, finden hier praktische Beispiele und Benchmarks.

[Update on 12x32gb sxm v100 cluster / local AI for legal drafting] (8/10) — OpenCode-Fit: JA

Zum Original | img:https://preview.redd.it/4h07vk82uc3h1.jpeg?width=640&crop=smart&auto=webp&s=0a61bada217c28df3aa24d849046b9b254c05c7b

Worum es geht: Ein Rechtsanwalt berichtet über sein aktualisiertes Setup mit 12 V100-SXM2-32GB-GPUs auf einem Threadripper Pro. Er hat auch einen zweiten Server mit EPYC 7302P, 512GB RAM und 4x RTX 3090 + 2x V100-PCIe hinzugefügt. Er verwendet llama.cpp für die Ausführung von MoE-Modellen, die bei langen Kontexten besser performen als dichte Modelle.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „12x V100-SXM2 32GB, 4x RTX 3090, 2x V100-PCIe“ |
| CPU / Mainboard | „Threadripper Pro, EPYC 7302P“ |
| RAM | „512 GB DDR4, 256 GB DDR5“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp (mainline)“ |
| Modell + Quant | „Gemma-4-26B-A4B MoE Q8 GGUF, Qwen3.6-35B-A3B MoE Q8 GGUF, Qwen3.5-122B-A10B MoE Q8 GGUF“ |
| Kontext-Laenge | „25k Tokens“ |
| tok/s (single) | „113 tok/s (Gemma-4-26B-A4B), 82 tok/s (Qwen3.6-35B-A3B), 50 tok/s (Qwen3.5-122B-A10B)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? MoE-Modelle performen deutlich besser als dichte Modelle, insbesondere bei langen Kontexten. Das Setup ist für komplexe Rechtsdokumente und lange Texte optimiert.

Was NICHT funktioniert / Limits Dichte Modelle sind bei längeren Kontexten ineffizient. NVLink-Paare müssen innerhalb der gleichen Board-Instanz bleiben, um optimale Durchsatz zu erzielen.

Nachbau-Empfehlung Dieses Setup ist ideal für professionelle Anwendungen mit langen Texten und komplexen Aufgaben. Es erfordert jedoch ein höheres Budget und technisches Know-how.


[BeeLlama v0.2.0 – major DFlash update. Single RTX 3090: Qwen 3.6 27B up to 164 tps (4.40x), Gemma 4 31B up to 177.8 tps (4.93x). Prompt processing speed near baseline.] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Die neue Version von BeeLlama (v0.2.0) bringt erhebliche Leistungsverbesserungen für Qwen 3.6 27B und Gemma 4 31B auf einer einzelnen RTX 3090. Die DFlash-Implementierung reduziert die Verarbeitungszeit erheblich, insbesondere bei längeren Prompts.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „AMD Ryzen 7 5700X3D“ |
| RAM | „32 GB DDR4“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „BeeLlama v0.2.0“ |
| Modell + Quant | „Qwen 3.6 27B Q5_K_S, Gemma 4 31B Q4_K_M“ |
| Kontext-Laenge | „20K Tokens“ |
| tok/s (single) | „164 tok/s (Qwen 3.6 27B), 177.8 tok/s (Gemma 4 31B)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? BeeLlama v0.2.0 erreicht bei Qwen 3.6 27B eine Geschwindigkeit von 164 tok/s und bei Gemma 4 31B eine Geschwindigkeit von 177.8 tok/s. Die Verarbeitung von längeren Prompts ist nahezu so schnell wie bei kürzeren Prompts.

Was NICHT funktioniert / Limits Die Benchmarks wurden auf einem spezifischen Setup durchgeführt. Die Leistung kann auf anderen Hardware-Konfigurationen variieren.

Nachbau-Empfehlung Dieses Setup ist ideal für Benutzer, die hohe Leistung bei der Verarbeitung von längeren Texten benötigen. Es ist kostengünstig und leicht nachzubauen.


[Qwen 3.6 35B GGUF: NTP vs MTP quantization results across GPUs and CPUs] (8/10) — OpenCode-Fit: JA

Zum Original | img:https://preview.redd.it/xjctv0okab2h1.png?width=640&crop=smart&auto=webp&s=33f97c27bc0228be1b7faa159a96feb7c83476e6

Worum es geht: Die Veröffentlichung von Qwen 3.6 35B GGUF-Quantisierungen in NTP- und MTP-Varianten. Die Benchmarks zeigen, dass MTP eine erhebliche Geschwindigkeitssteigerung auf GPUs bringt, während NTP auf CPUs besser performt. Die Leistung variiert je nach Hardware.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „RTX 4090, 5090, Pro 6000, 4080, 5060 Ti“ |
| CPU / Mainboard | „Intel i7, Intel Ultra 7, Ryzen 9, Raspberry Pi 5“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „nicht im Post belegt“ |
| Modell + Quant | „Qwen 3.6 35B GGUF (NTP und MTP)“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „20-40% Geschwindigkeitssteigerung mit MTP auf GPUs“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? MTP bringt eine erhebliche Geschwindigkeitssteigerung auf GPUs, während NTP auf CPUs besser performt. Die Leistung variiert je nach Hardware und Modellgröße.

Was NICHT funktioniert / Limits MTP ist auf CPUs weniger effektiv. Die Benchmarks zeigen, dass die Geschwindigkeitssteigerung von MTP stark workload-abhängig ist.

Nachbau-Empfehlung Dieses Setup ist ideal für Benutzer, die hohe Leistung auf GPUs benötigen. Für CPU-basierte Anwendungen ist NTP die bessere Wahl.


Weitere Beiträge:

The reason small-model agent stacks aren’t the default has nothing to do with whether they work — keine Hardware belegt, kein nachbaubares Setup
Qwen Plays ̶p̶̶o̶̶k̶̶e̶̶m̶̶o̶̶n̶ ? / QWEN PLAYS DCSS! – qwen3.6-35b-a3b@q4_k_xl plays open source roguelike adventure DCSS (and does a decent job) — keine Hardware belegt, kein nachbaubares Setup
TTS Benchmark Comparison (all known TTS up until May 2026) — keine Hardware belegt, kein nachbaubares Setup
If you’re missing Jeeves, you might want to check out my weekend project. — keine Hardware belegt, kein nachbaubares Setup
Any reason to run dense over MOE for RAGs? — keine Hardware belegt, kein nachbaubares Setup
Scrambling to max StrixHalo (+NVLink dual eGPU 3090 mod) — keine Hardware belegt, kein nachbaubares Setup
Meet the Fleet of BlackBeard — keine Hardware belegt, kein nachbaubares Setup

Weitere Beitraege (automatisch gefiltert):
two months local 30b, real speedup nowhere near benchmark — keine konkreten Messwerte, keine nachbaubaren Daten

👁 6 Aufrufe 👤 5 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert