Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist der Ort, an dem Community-User ihre lokalen KI-Setups dokumentieren und benchmarken. In dieser Woche gibt es besonders interessante Beiträge zu Setups mit 4x RTX PRO 6000 Blackwell, einem 12x V100-SXM2 Cluster für rechtliche Aufgaben und einem Vergleich von NTP- und MTP-Quantisierungen für Qwen 3.6 35B. Diese Einträge bieten wertvolle Einblicke in die praktische Anwendung und Performance von lokalen KI-Setups.

[Custom 4x RTX PRO 6000 Blackwell server vs Dell GB300 for ~30 fine-tuned production pipelines — looking for honest input on direction] (6/10) — OpenCode-Fit: NEIN

Zum Original

Worum es geht (2-4 Sätze): Der Autor vergleicht zwei Optionen für einen Server mit 4x RTX PRO 6000 Blackwell und einem Dell GB300, um etwa 30 feinjustierte AI-Pipelines für internes Geschäftsaufkommen zu betreiben. Die Hauptfragen betreffen die Geräteverwaltung, die reifere Betriebsumgebung und die Zukunftssicherheit.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 4x NVIDIA RTX PRO 6000 Blackwell, 96 GB GDDR7 each = 384 GB total VRAM |
| CPU / Mainboard | Dual AMD EPYC 9354 (32-core each) or 9554 (64-core each), 160 PCIe Gen 5 lanes total |
| RAM | 512 GB DDR5-4800 ECC RDIMM at start, expandable to 1.5 TB |
| PSU | 4x 3000W 80+ Titanium redundant |
| Chassis / Kuehlung | 4U server with 8 PCIe Gen 5 x16 GPU slots (Supermicro AS-4125GS-TNRT, GIGABYTE G493-ZB3-AAP1, or ASUS ESC8000A-E13 class) |
| Framework + Version | vLLM, TensorRT-LLM |
| Modell + Quant | Nicht spezifiziert |
| Kontext-Laenge | Nicht spezifiziert |
| tok/s (single) | Nicht spezifiziert |
| tok/s (batched) | Nicht spezifiziert |
| Strom (full load) | ~8-10 kW full load at 8 GPUs |
| Rohkosten | Phase A cost (4 GPUs installed): ~$64K-$84K, Phase B cost (add 4 more GPUs + RAM): ~$44K-$54K, Fully built out: ~$108K-$138K |
| Autarkie-Fit | NEIN |

Was funktioniert konkret? (3-5 Sätze): Das Setup bietet eine hohe VRAM-Kapazität und ausreichende Rechenleistung für die Betriebslast von etwa 30 feinjustierten AI-Pipelines. Die redundante Stromversorgung und die erweiterbare Architektur sorgen für Zuverlässigkeit und Zukunftssicherheit.

Was NICHT funktioniert / Limits (2-4 Sätze): Das Setup ist sehr teuer und nicht für den privaten Haushalt geeignet. Es ist eher für Unternehmen gedacht, die eine hohe Anzahl an parallelen Benutzern und eine hohe Durchsatzleistung benötigen.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist eher für Unternehmen geeignet, die eine hohe Anzahl an parallelen Benutzern und eine hohe Durchsatzleistung benötigen. Für Privatanwender ist es zu teuer und komplex.


[Update on 12x32gb sxm v100 cluster / local AI for legal drafting] (8/10) — OpenCode-Fit: BEDINGT

Zum Original |

Vorschau

Worum es geht (2-4 Sätze): Der Autor aktualisiert seinen Beitrag zu einem 12x V100-SXM2 Cluster, der für rechtliche Aufgaben verwendet wird. Er beschreibt die Hardware-Konfiguration, die er gewählt hat, und die Leistungsunterschiede zwischen dichten und MoE-Modellen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 12x V100-SXM2 32GB, 4x RTX 3090 + 2x V100-PCIe in einem zweiten System |
| CPU / Mainboard | Threadripper Pro, EPYC 7302P |
| RAM | 512 GB DDR4 ECC, 512 GB DDR4 ECC im zweiten System |
| PSU | Nicht spezifiziert |
| Chassis / Kuehlung | Nicht spezifiziert |
| Framework + Version | llama.cpp (mainline) |
| Modell + Quant | Gemma-4-26B-A4B MoE Q8 GGUF, Qwen3.6-35B-A3B MoE Q8 GGUF, Qwen3.5-122B-A10B MoE Q8 GGUF |
| Kontext-Laenge | 25k tokens (Gemma-4-26B-A4B) |
| tok/s (single) | ~113 tok/s (Gemma-4-26B-A4B), ~82 tok/s (Qwen3.6-35B-A3B), ~50 tok/s (Qwen3.5-122B-A10B) |
| tok/s (batched) | Nicht spezifiziert |
| Strom (full load) | Nicht spezifiziert |
| Rohkosten | Nicht spezifiziert |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? (3-5 Sätze): Das Setup ermöglicht die effiziente Ausführung von MoE-Modellen, die bei langen Kontexten und komplexen Aufgaben besser performen als dichte Modelle. Die Verwendung von llama.cpp hat zu einer stabilen und zuverlässigen Ausführung geführt.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Ausführung von dichten Modellen ist ineffizient und langsam. Die Verwendung von MoE-Modellen erfordert eine sorgfältige Verteilung der Modelle auf die GPU-Boards, um optimale Leistung zu erzielen.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Anwender geeignet, die komplexe rechtliche Arbeit mit langen Kontexten durchführen müssen. Für kleinere Aufgaben oder weniger spezialisierte Anwendungen könnte ein weniger aufwändiges Setup ausreichen.


[BeeLlama v0.2.0 – major DFlash update. Single RTX 3090: Qwen 3.6 27B up to 164 tps (4.40x), Gemma 4 31B up to 177.8 tps (4.93x). Prompt processing speed near baseline.] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Die neue Version von BeeLlama v0.2.0 bringt erhebliche Leistungsverbesserungen für Qwen 3.6 27B und Gemma 4 31B auf einem einzelnen RTX 3090. Die Benchmarks zeigen erhebliche Geschwindigkeitssteigerungen im Vergleich zur Baseline.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3090 24 GB |
| CPU / Mainboard | AMD Ryzen 7 5700X3D |
| RAM | 32 GB DDR4 |
| PSU | Nicht spezifiziert |
| Chassis / Kuehlung | Nicht spezifiziert |
| Framework + Version | BeeLlama v0.2.0, llama.cpp b9275 CUDA 13.1 Windows prebuilt |
| Modell + Quant | Qwen 3.6 27B Q5_K_S, Gemma 4 31B Q5_K_S |
| Kontext-Laenge | ~20K tokens (Prompt processing) |
| tok/s (single) | 163.9 tok/s (Qwen 3.6 27B), 157.7 tok/s (Gemma 4 31B) |
| tok/s (batched) | Nicht spezifiziert |
| Strom (full load) | Nicht spezifiziert |
| Rohkosten | Nicht spezifiziert |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): Die neuen DFlash-Implementierungen in BeeLlama v0.2.0 führen zu erheblichen Geschwindigkeitssteigerungen bei der Token-Generierung und -Verarbeitung. Die Benchmarks zeigen, dass Qwen 3.6 27B und Gemma 4 31B auf einem einzelnen RTX 3090 bis zu 4.40x und 4.93x schneller als die Baseline sind.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistungssteigerungen sind stark workload-abhängig. Bei längeren Kontexten kann die Geschwindigkeit etwas abfallen, aber die Verbesserungen sind dennoch bemerkenswert.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Anwender geeignet, die eine hohe Leistung bei der Token-Generierung und -Verarbeitung benötigen. Es ist kosteneffektiv und gut geeignet für den privaten Haushalt.


[Qwen 3.6 35B GGUF: NTP vs MTP quantization results across GPUs and CPUs] (8/10) — OpenCode-Fit: JA

Zum Original |

Vorschau

Worum es geht (2-4 Sätze): Der Beitrag vergleicht die Leistung von NTP- und MTP-Quantisierungen des Qwen 3.6 35B-Modells auf verschiedenen GPUs und CPUs. Die Benchmarks zeigen, dass MTP in der Regel eine Geschwindigkeitssteigerung von 20-40% bietet, aber auch eine höhere Speicherauslastung verursacht.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 4090, 5090, Pro 6000, 4080, 5060 Ti |
| CPU / Mainboard | Intel i7, Intel Ultra 7, Ryzen 9, Raspberry Pi 5 |
| RAM | Nicht spezifiziert |
| PSU | Nicht spezifiziert |
| Chassis / Kuehlung | Nicht spezifiziert |
| Framework + Version | llama.cpp, BeeLlama v0.2.0 |
| Modell + Quant | Qwen 3.6 35B GGUF (NTP und MTP) |
| Kontext-Laenge | Nicht spezifiziert |
| tok/s (single) | 163.9 tok/s (Qwen 3.6 27B), 157.7 tok/s (Gemma 4 31B) |
| tok/s (batched) | Nicht spezifiziert |
| Strom (full load) | Nicht spezifiziert |
| Rohkosten | Nicht spezifiziert |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): Die MTP-Quantisierung führt zu erheblichen Geschwindigkeitssteigerungen, insbesondere auf GPUs. Die Benchmarks zeigen, dass MTP-Modelle bei der Token-Generierung und -Verarbeitung deutlich schneller sind als NTP-Modelle.

Was NICHT funktioniert / Limits (2-4 Sätze): Die MTP-Quantisierung verursacht eine höhere Speicherauslastung, was die Auswahl des passenden Modells und der Hardware erschwert. Auf CPUs ist die MTP-Quantisierung weniger effektiv.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Anwender geeignet, die eine hohe Leistung bei der Token-Generierung und -Verarbeitung benötigen. Es ist kosteneffektiv und gut geeignet für den privaten Haushalt, insbesondere auf GPUs.


Weitere Beiträge (kurz):

two months local 30b, real speedup nowhere near benchmark — keine Hardware belegt, kein nachbaubares Setup
The reason small-model agent stacks aren’t the default has nothing to do with whether they work — keine Hardware belegt, kein nachbaubares Setup
Qwen Plays ̶p̶̶o̶̶k̶̶e̶̶m̶̶o̶̶n̶ ? / QWEN PLAYS DCSS! – qwen3.6-35b-a3b@q4_k_xl plays open source roguelike adventure DCSS (and does a decent job) — keine Hardware belegt, kein nachbaubares Setup
TTS Benchmark Comparison (all known TTS up until May 2026) — keine Hardware belegt, kein nachbaubares Setup
If you’re missing Jeeves, you might want to check out my weekend project. — keine Hardware belegt, kein nachbaubares Setup
Any reason to run dense over MOE for RAGs? — keine Hardware belegt, kein nachbaubares Setup
I added native MTP to exo for Qwen3.6 MLX models; here are the exactness and speed results — keine Hardware belegt, kein nachbaubares Setup
Scrambling to max StrixHalo (+NVLink dual eGPU 3090 mod) — keine Hardware belegt, kein nachbaubares Setup

👁 4 Aufrufe 👤 4 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert