Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, funktionierende lokale KI-Setups. Diese Woche sind insbesondere die Einträge zu V100-Clustern, Qwen-Modelle auf 3090-GPUs und TTS-Benchmarks besonders belegt. Ein Leser kann heute Abend mit einem 12-V100-Cluster oder einem 3090-Setup beginnen, um Qwen-Modelle lokal zu betreiben. Die Benchmarks zeigen, dass MoE-Modelle oft bessere Leistungen bieten als dichte Modelle, und TTS-Tests helfen, die besten Modelle für Audio-Generierung zu finden.

[Update on 12x32gb sxm v100 cluster / local AI for legal drafting] (8/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht (2-4 Sätze): Ein Rechtsanwalt berichtet über seinen 12-V100-Cluster, der auf einem Threadripper Pro läuft. Er hat auch eine zweite Box mit EPYC 7302P, 512 GB RAM und 4x RTX 3090 + 2x V100-PCIe hinzugefügt. Das Setup ist optimiert für MoE-Modelle, die bessere Leistungen als dichte Modelle bieten.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 12x V100-SXM2 32GB, 4x RTX 3090, 2x V100-PCIe 16GB |
| CPU / Mainboard | Threadripper Pro, EPYC 7302P + Asrock Rack ROMED8-2T |
| RAM | 512 GB DDR4 ECC, 256 GB DDR4 ECC |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp (mainline) |
| Modell + Quant | Qwen3.6-35B-A3B MoE Q4_K_XL, Gemma-4-26B-A4B MoE Q8 GGUF |
| Kontext-Laenge | 25k+ tokens |
| tok/s (single) | ~113 tok/s (Gemma-4-26B-A4B), ~82 tok/s (Qwen3.6-35B-A3B) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | NEIN |

Was funktioniert konkret? (3-5 Sätze): Das Setup läuft stabil mit MoE-Modellen, die deutlich bessere Leistungen als dichte Modelle bieten. Qwen3.6-35B-A3B und Gemma-4-26B-A4B erreichen tok/s-Raten von 82 und 113, was für lange Kontexte (25k+ tokens) ausreicht. Die Verwendung von llama.cpp hat Probleme mit langen Prompts gelöst.

Was NICHT funktioniert / Limits (2-4 Sätze): Dichte Modelle sind auf diesem Setup zu langsam und ineffizient. Die Hardware ist sehr teuer und nicht für einen privaten Haushalt geeignet. NVLink-Verbindungen zwischen verschiedenen Boards führen zu Leistungsabfällen.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für professionelle Anwendungen geeignet, insbesondere in juristischen Kontexten. Für Privatanwender ist es zu teuer und komplex. Ein kleineres Setup mit 2-4 RTX 3090 und MoE-Modellen wäre eine bessere Wahl.


[BeeLlama v0.2.0 – major DFlash update. Single RTX 3090: Qwen 3.6 27B up to 164 tps (4.40x), Gemma 4 31B up to 177.8 tps (4.93x). Prompt processing speed near baseline.] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): BeeLlama v0.2.0 bringt erhebliche Leistungsverbesserungen für Qwen 3.6 27B und Gemma 4 31B auf einem einzelnen RTX 3090. Die DFlash-Implementierung optimiert die Token-Generierung und Prompt-Verarbeitung.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 3090 24GB |
| CPU / Mainboard | AMD Ryzen 7 5700X3D |
| RAM | 32 GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | BeeLlama v0.2.0, llama.cpp b9275, CUDA 13.1 |
| Modell + Quant | Qwen 3.6 27B Q5_K_S, Gemma 4 31B Q4_K_M |
| Kontext-Laenge | ~20K tokens |
| tok/s (single) | 164 tok/s (Qwen 3.6 27B), 177.8 tok/s (Gemma 4 31B) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): BeeLlama v0.2.0 optimiert die Token-Generierung und Prompt-Verarbeitung erheblich. Qwen 3.6 27B erreicht bis zu 164 tok/s, Gemma 4 31B bis zu 177.8 tok/s. Die Prompt-Verarbeitung ist nahe am Baseline-Level, was für komplexe Aufgaben wie die Verarbeitung von 20K Tokens hilfreich ist.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistungsverbesserungen sind stark workload-abhängig. Bei längeren Kontexten kann die Leistung abfallen. Die Verwendung von MTP (Multi-Token Prediction) kann die Leistung weiter steigern, aber es erhöht den Speicherverbrauch.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist ideal für Entwickler und KI-Enthusiasten, die hohe Leistung bei moderaten Kosten benötigen. Ein einzelner RTX 3090 reicht aus, um Qwen 3.6 27B und Gemma 4 31B effizient zu betreiben. BeeLlama v0.2.0 ist eine empfehlenswerte Wahl für lokale KI-Anwendungen.


[Qwen 3.6 35B GGUF: NTP vs MTP quantization results across GPUs and CPUs] (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht (2-4 Sätze): Die Benchmarks vergleichen NTP- und MTP-Quantisierungen von Qwen 3.6 35B auf verschiedenen GPUs und CPUs. MTP bietet eine signifikante Leistungssteigerung auf GPUs, während NTP auf CPUs besser abschneidet.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 4090, 5090, Pro 6000, 4080, 5060 Ti |
| CPU / Mainboard | Intel i7, Intel Ultra 7, Ryzen 9, Raspberry Pi 5 |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp, BeeLlama |
| Modell + Quant | Qwen 3.6 35B GGUF (NTP und MTP) |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | 164 tok/s (NTP), 200+ tok/s (MTP) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): MTP-Quantisierungen von Qwen 3.6 35B bieten auf GPUs eine signifikante Leistungssteigerung von 20-40% im Vergleich zu NTP. NTP ist auf CPUs besser geeignet und bleibt die empfohlene Wahl. Die Benchmarks zeigen, dass die Wahl der Quantisierung stark von der Hardware abhängt.

Was NICHT funktioniert / Limits (2-4 Sätze): MTP-Quantisierungen können den Speicherverbrauch erhöhen, was bei 16GB-GPUs und Raspberry Pi 5 zu Einschränkungen führen kann. Die Leistungssteigerung durch MTP ist stark workload-abhängig und kann bei längeren Kontexten abnehmen.

Nachbau-Empfehlung (2-4 Sätze): Für GPU-basierte Setups ist MTP die bessere Wahl, insbesondere für RTX 4090 und 5090. CPU-basierte Setups sollten NTP verwenden. Die Benchmarks helfen, die beste Quantisierung für die spezifische Hardware auszuwählen.


[Meet the Fleet of BlackBeard] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht (2-4 Sätze): BlackBeard präsentiert seine KI-Homelab-Setup mit fünf verschiedenen Systemen, die von einem i3 7100 bis hin zu einem Threadripper 1950X mit 4x 3090 reichen. Die Systeme sind für verschiedene Aufgaben wie Modell-Archivierung, Training und Inferenz optimiert.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 4x RTX 3090, 2x RTX 5060 Ti, 1x RTX 5090, 1x GTX 1070 |
| CPU / Mainboard | i3 7100, Ryzen 5600, Ryzen 5950X, Ryzen 9 950X3D, Threadripper 1950X |
| RAM | 32 GB DDR4, 64 GB DDR4, 128 GB DDR4, 256 GB DDR5 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | nicht im Post belegt |
| Modell + Quant | nicht im Post belegt |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? (3-5 Sätze): Die verschiedenen Systeme sind für spezifische Aufgaben optimiert. Das Threadripper-System mit 4x 3090 ist ideal für intensive Inferenz-Aufgaben, während das System mit Ryzen 5600 und GTX 1070 für leichtere Aufgaben reicht. Die Archivierung von Modellen auf dem i3-System ist effizient und spart Kosten.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Systeme sind nicht für alle Aufgaben gleich gut geeignet. Das Threadripper-System kann bei der Verwendung von 2x 3090 überhitzen. Die Leistung der GTX 1070 ist begrenzt und eignet sich nicht für moderne KI-Modelle.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für fortgeschrittene KI-Enthusiasten geeignet, die verschiedene Aufgaben abdecken möchten. Für Anfänger ist ein einfacheres Setup mit einem einzelnen GPU und CPU zu empfehlen. Die Wahl der Hardware sollte anhand der spezifischen Anforderungen getroffen werden.


Weitere Beitraege (kurz):

The reason small-model agent stacks aren’t the default has nothing to do with whether they work — keine Hardware belegt, kein nachbaubares Setup
Qwen Plays ̶p̶̶o̶̶k̶̶e̶̶m̶̶o̶̶n̶ ? / QWEN PLAYS DCSS! – qwen3.6-35b-a3b@q4_k_xl plays open source roguelike adventure DCSS (and does a decent job) — keine Hardware belegt, kein nachbaubares Setup
TTS Benchmark Comparison (all known TTS up until May 2026) — keine Hardware belegt, kein nachbaubares Setup
If you’re missing Jeeves, you might want to check out my weekend project. — keine Hardware belegt, kein nachbaubares Setup
Any reason to run dense over MOE for RAGs? — keine Hardware belegt, kein nachbaubares Setup
I added native MTP to exo for Qwen3.6 MLX models; here are the exactness and speed results — keine Hardware belegt, kein nachbaubares Setup
Scrambling to max StrixHalo (+NVLink dual eGPU 3090 mod) — keine Hardware belegt, kein nachbaubares Setup
21 GPU’s benchmarked running a small TTS model (vram peak: 5GB) — keine Hardware belegt, kein nachbaubares Setup

👁 0 Aufrufe 👤 0 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert