Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, nachbaubare Setups von lokalen KI-Systemen. Diese Woche sind insbesondere die Einträge zu Multi-GPU-Servern, der Performance von Qwen-3.6-35B auf V100-Clustern und die Effizienz von MTP-Quantisierung bei verschiedenen Hardware-Konfigurationen besonders belegt. Ein Leser kann heute Abend mit diesen Beispielen anfangen, um ein eigenes lokales KI-Setup aufzubauen.

[Custom 4x RTX PRO 6000 Blackwell server vs Dell GB300 for ~30 fine-tuned production pipelines — looking for honest input on direction] (4/10) — OpenCode-Fit: NEIN

Zum Original

Vorschau

Worum es geht: Der Autor vergleicht zwei Optionen für einen Multi-GPU-Server zur lokalen KI-Inferenz in einem Unternehmen. Option A ist ein benutzerdefinierter 4U-Server mit 4x RTX PRO 6000 Blackwell, während Option B ein Dell GB300-Server ist. Der Fokus liegt auf der Zuverlässigkeit und Durchsatzleistung bei vielen gleichzeitigen Benutzern.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 4x RTX PRO 6000 Blackwell 96 GB GDDR7 |
| CPU / Mainboard | Dual AMD EPYC 9354 (32-core each) oder 9554 (64-core each) |
| RAM | 512 GB DDR5-4800 ECC RDIMM, erweiterbar auf 1.5 TB |
| PSU | 4x 3000W 80+ Titanium redundant |
| Chassis / Kuehlung | 4U Server (Supermicro AS-4125GS-TNRT, GIGABYTE G493-ZB3-AAP1, oder ASUS ESC8000A-E13) |
| Framework + Version | vLLM, TensorRT-LLM |
| Modell + Quant | Nicht spezifiziert |
| Kontext-Laenge | Nicht spezifiziert |
| tok/s (single) | Nicht spezifiziert |
| tok/s (batched) | Nicht spezifiziert |
| Strom (full load) | ~8-10 kW bei 8 GPUs |
| Rohkosten | Phase A: ~$64K-$84K, Phase B: ~$44K-$54K, voll ausgebaut: ~$108K-$138K |
| Autarkie-Fit | NEIN |

Was funktioniert konkret? Der benutzerdefinierte Server bietet eine hohe Anpassbarkeit und erweiterbare VRAM-Kapazität, was für die langfristige Skalierbarkeit vorteilhaft ist. Die redundante Stromversorgung und die hohe RAM-Kapazität sorgen für eine hohe Zuverlässigkeit.

Was NICHT funktioniert / Limits: Der hohe Preis von über 100.000 USD macht dieses Setup für einen privaten Haushalt ungeeignet. Die Komplexität der Hardware-Management-Software und die Notwendigkeit, spezialisiertes Wissen zu haben, sind weitere Hürden.

Nachbau-Empfehlung: Dieses Setup ist eher für Unternehmen geeignet, die hohe Anforderungen an Zuverlässigkeit und Skalierbarkeit haben. Für Privatanwender ist es zu teuer und komplex.


[Update on 12x32gb sxm v100 cluster / local AI for legal drafting] (8/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht: Ein Anwalt berichtet über sein aktualisiertes V100-Cluster-Setup für die lokale KI-Inferenz. Das Setup umfasst 12 V100-SXM2 32GB-GPUs auf einem Threadripper Pro und einem zweiten Box mit 4x RTX 3090 und 2x V100-PCIe. Der Fokus liegt auf der Verwendung von MoE-Modellen, die auf V100-GPUs besser performen als dichte Modelle.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 12x V100-SXM2 32GB, 4x RTX 3090, 2x V100-PCIe 16GB |
| CPU / Mainboard | Threadripper Pro, EPYC 7302P |
| RAM | 512 GB DDR4 ECC, 512 GB DDR4 ECC |
| PSU | Nicht spezifiziert |
| Chassis / Kuehlung | Nicht spezifiziert |
| Framework + Version | llama.cpp (mainline) |
| Modell + Quant | Gemma-4-26B-A4B MoE Q8 GGUF, Qwen3.6-35B-A3B MoE Q8 GGUF, Qwen3.5-122B-A10B MoE Q8 GGUF |
| Kontext-Laenge | 25k+ Tokens |
| tok/s (single) | 113 tok/s (Gemma-4-26B-A4B), 82 tok/s (Qwen3.6-35B-A3B), 50 tok/s (Qwen3.5-122B-A10B) |
| tok/s (batched) | Nicht spezifiziert |
| Strom (full load) | Nicht spezifiziert |
| Rohkosten | Nicht spezifiziert |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? Die Verwendung von MoE-Modellen auf V100-GPUs erzielt signifikant höhere Token-Raten und bessere Performance bei langen Kontexten. Das Setup ist besonders effizient für juristische Aufgaben, die lange Textabschnitte erfordern.

Was NICHT funktioniert / Limits: Die Verwendung von dichten Modellen auf V100-GPUs ist ineffizient. Die Notwendigkeit, Modelle innerhalb einer NVLink-Gruppe zu halten, um die Performance zu maximieren, kann die Flexibilität einschränken.

Nachbau-Empfehlung: Dieses Setup ist für Anwender geeignet, die hohe Anforderungen an die Performance bei langen Kontexten haben. Für Privatanwender mit beschränktem Budget ist es zu teuer, aber die Verwendung von MoE-Modellen auf V100-GPUs kann als Referenz dienen.


[BeeLlama v0.2.0 – major DFlash update. Single RTX 3090: Qwen 3.6 27B up to 164 tps (4.40x), Gemma 4 31B up to 177.8 tps (4.93x). Prompt processing speed near baseline.] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Die Version 0.2.0 von BeeLlama bringt erhebliche Verbesserungen in der DFlash-Implementierung, insbesondere für die Modelle Qwen 3.6 27B und Gemma 4 31B. Die Performance-Steigerungen sind signifikant, insbesondere bei der Token-Generierung.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 3090 24 GB |
| CPU / Mainboard | AMD Ryzen 7 5700X3D |
| RAM | 32 GB DDR4 |
| PSU | Nicht spezifiziert |
| Chassis / Kuehlung | Nicht spezifiziert |
| Framework + Version | BeeLlama v0.2.0 |
| Modell + Quant | Qwen 3.6 27B Q5_K_S, Gemma 4 31B Q4_K_M |
| Kontext-Laenge | Bis zu 20k Tokens |
| tok/s (single) | 164 tok/s (Qwen 3.6 27B), 177.8 tok/s (Gemma 4 31B) |
| tok/s (batched) | Nicht spezifiziert |
| Strom (full load) | Nicht spezifiziert |
| Rohkosten | Nicht spezifiziert |
| Autarkie-Fit | JA |

Was funktioniert konkret? Die DFlash-Implementierung in BeeLlama v0.2.0 führt zu erheblichen Performance-Steigerungen bei der Token-Generierung. Qwen 3.6 27B erreicht bis zu 164 tok/s, während Gemma 4 31B bis zu 177.8 tok/s erreicht. Die Prompt-Verarbeitung ist nahe am Baseline-Level.

Was NICHT funktioniert / Limits: Die Verifier-Pfade sind strenger geworden, was zu einer besseren Sicherheit führt, aber auch zu einer geringeren Akzeptanzrate bei der Token-Generierung. Dies kann die Performance in bestimmten Szenarien beeinträchtigen.

Nachbau-Empfehlung: Dieses Setup ist für Anwender geeignet, die hohe Token-Raten und eine schnelle Prompt-Verarbeitung benötigen. Die Verwendung von BeeLlama v0.2.0 auf einem RTX 3090 ist eine ausgezeichnete Wahl, insbesondere für die Verarbeitung von großen Modellen wie Qwen 3.6 27B und Gemma 4 31B.


[Qwen 3.6 35B GGUF: NTP vs MTP quantization results across GPUs and CPUs] (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Autor vergleicht die Performance von Qwen 3.6 35B in NTP- und MTP-Quantisierung auf verschiedenen GPUs und CPUs. Die Ergebnisse zeigen, dass MTP-Quantisierung bei GPUs eine erhebliche Performance-Steigerung bringt, während NTP-Quantisierung bei CPUs besser geeignet ist.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 4090, 5090, Pro 6000, 4080, 5060 Ti |
| CPU / Mainboard | Intel i7, Intel Ultra 7, Ryzen 9, Raspberry Pi 5 |
| RAM | Nicht spezifiziert |
| PSU | Nicht spezifiziert |
| Chassis / Kuehlung | Nicht spezifiziert |
| Framework + Version | llama.cpp |
| Modell + Quant | Qwen 3.6 35B GGUF (NTP und MTP) |
| Kontext-Laenge | Bis zu 20k Tokens |
| tok/s (single) | 163.9 tok/s (Qwen 3.6 27B MTP), 157.7 tok/s (KV report module MTP) |
| tok/s (batched) | Nicht spezifiziert |
| Strom (full load) | Nicht spezifiziert |
| Rohkosten | Nicht spezifiziert |
| Autarkie-Fit | JA |

Was funktioniert konkret? MTP-Quantisierung führt bei GPUs zu erheblichen Performance-Steigerungen, insbesondere bei der Token-Generierung. NTP-Quantisierung ist bei CPUs besser geeignet und bietet eine gute Balance zwischen Quality und Speed.

Was NICHT funktioniert / Limits: Die MTP-Quantisierung bei CPUs ist weniger effektiv und kann zu einer geringeren Akzeptanzrate führen. Die Performance-Steigerungen sind stark workloadabhängig, insbesondere bei längeren Kontexten.

Nachbau-Empfehlung: Dieses Setup ist für Anwender geeignet, die hohe Token-Raten und eine gute Balance zwischen Quality und Speed benötigen. Die Verwendung von MTP-Quantisierung auf GPUs und NTP-Quantisierung auf CPUs ist eine gute Wahl, insbesondere für die Verarbeitung von großen Modellen wie Qwen 3.6 35B.


[Scrambling to max StrixHalo (+NVLink dual eGPU 3090 mod)] (6/10) — OpenCode-Fit: BEDINGT

Zum

Weitere Beitraege (automatisch gefiltert):
– [Qwen Plays ̶p̶̶o̶̶k̶̶e̶̶m̶̶o̶̶n̶ ? / QWEN PLAYS DCSS! – qwen3.6-35b-a3b@q4_k_xl plays open source roguelike adventure DCSS (and does a decent job)
— keine konkreten Messwerte, keine nachbaubaren Daten

👁 3 Aufrufe 👤 2 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert