Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, funktionierende Setups von lokalen KI-Modellen. Diese Woche gibt es einige bemerkenswerte Beiträge, die detaillierte Hardware- und Software-Konfigurationen sowie Leistungsdaten liefern. Besonders hervorzuheben sind die Benchmarks von Qwen-3.6-35B auf verschiedenen GPUs und ein umfangreiches TTS-Benchmark, das 21 GPUs vergleicht. Ein Leser kann heute Abend mit diesen Informationen ein nachbaufähiges Setup für OpenCode starten.
[Update on 12x32gb sxm v100 cluster / local AI for legal drafting] (8/10) — OpenCode-Fit: BEDINGT

Worum es geht (2-4 Sätze): Ein Rechtsanwalt berichtet über sein 12x V100-SXM2 32GB Cluster auf einem Threadripper Pro. Er beschreibt, wie er das Setup für die lokale Ausführung von KI-Modellen optimiert hat, insbesondere für die Verwendung von MoE-Modellen wie Qwen3.6-35B-A3B.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 12x V100-SXM2 32GB + 4x RTX 3090 + 2x V100-PCIe |
| CPU / Mainboard | Threadripper Pro, EPYC 7302P |
| RAM | 512 GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp (mainline) |
| Modell + Quant | Qwen3.6-35B-A3B Q4_K GGUF |
| Kontext-Laenge | 25k+ tokens |
| tok/s (single) | ~113 tok/s (MoE) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | NEIN (Cluster zu groß für privaten Haushalt) |
Was funktioniert konkret? (3-5 Sätze): Das Setup läuft stabil mit MoE-Modellen wie Qwen3.6-35B-A3B, die bei 122B/10B-aktiven Parametern ~50 tok/s erreichen. Die Kontext-Länge von 25k+ Tokens ist sehr gut, und das Modell hält diese Leistung bei langen Kontexten. Es ist besonders gut für komplexe Aufgaben wie rechtliche Texterstellung geeignet.
Was NICHT funktioniert / Limits (2-4 Sätze): Dense-Modelle sind auf V100-GPUs zu langsam und ineffizient. Das Setup ist zu groß und teuer für einen privaten Haushalt. Es erfordert spezialisierte Hardware und ist nicht leicht nachbaubar.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist eher für professionelle Anwendungen geeignet. Für Privatanwender empfehlen wir eine kleinere Konfiguration mit 2-4 RTX 3090/4090/5090-GPUs, die ebenfalls MoE-Modelle effizient ausführen kann.
[BeeLlama v0.2.0 – major DFlash update. Single RTX 3090: Qwen 3.6 27B up to 164 tps (4.40x), Gemma 4 31B up to 177.8 tps (4.93x). Prompt processing speed near baseline.] (9/10) — OpenCode-Fit: JA
Worum es geht (2-4 Sätze): BeeLlama v0.2.0 bringt erhebliche Leistungsverbesserungen für Qwen 3.6 27B und Gemma 4 31B auf einer einzelnen RTX 3090. Die Updates umfassen eine effizientere DFlash-Implementierung, verbesserte CUDA-Optimierungen und eine saubere Prefill-Handhabung.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3090 24GB |
| CPU / Mainboard | AMD Ryzen 7 5700X3D |
| RAM | 32 GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | BeeLlama v0.2.0 |
| Modell + Quant | Qwen 3.6 27B Q5_K_S, Gemma 4 31B Q4_K_M |
| Kontext-Laenge | ~20K tokens |
| tok/s (single) | 163.9 tok/s (Qwen 3.6 27B), 177.8 tok/s (Gemma 4 31B) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA (einfaches Setup für privaten Haushalt) |
Was funktioniert konkret? (3-5 Sätze): BeeLlama v0.2.0 erzielt erhebliche Leistungssteigerungen bei der Token-Generierung, insbesondere bei Qwen 3.6 27B und Gemma 4 31B. Die Prompt-Verarbeitung ist nahe am Baseline-Level, was die Gesamtleistung weiter verbessert. Das Setup ist ideal für OpenCode-Aufgaben und bietet eine ausgezeichnete Kosteneffizienz.
Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung kann abhängig von der spezifischen Aufgabe und dem Kontext variieren. Die Verarbeitung von sehr langen Kontexten kann langsamer sein, aber die meisten typischen OpenCode-Aufgaben werden gut unterstützt.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Privatanwender sehr empfehlenswert, insbesondere für die Ausführung von Qwen 3.6 27B und Gemma 4 31B. Es bietet eine ausgezeichnete Leistung bei moderaten Kosten und ist leicht nachbaubar.
[Qwen 3.6 35B GGUF: NTP vs MTP quantization results across GPUs and CPUs] (8/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Die Autoren haben Qwen 3.6 35B in NTP- und MTP-Varianten quantisiert und auf verschiedenen GPUs und CPUs getestet. Die Ergebnisse zeigen, dass MTP eine erhebliche Leistungssteigerung auf GPUs bringt, während NTP auf CPUs besser abschneidet.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 4090, 5090, Pro 6000, 4080, 5060 Ti |
| CPU / Mainboard | Intel i7, Intel Ultra 7, Ryzen 9, Raspberry Pi 5 |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp |
| Modell + Quant | Qwen 3.6 35B GGUF (NTP und MTP) |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | 163.9 tok/s (NTP), 181.9 tok/s (MTP) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA (leicht nachbaubare Konfigurationen) |
Was funktioniert konkret? (3-5 Sätze): MTP-Quantisierung bringt auf GPUs eine erhebliche Leistungssteigerung, oft um 20-40%, während NTP auf CPUs besser abschneidet. Die größeren Quantisierungen (z.B. 8-bit) sind oft genauso effizient wie kleinere, was die Wahl der Quantisierung erleichtert. Die Prompt-Verarbeitung und Token-Generierung sind bei beiden Varianten sehr gut.
Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung von MTP kann stark von der spezifischen Workload abhängen. Auf 16GB-GPUs und Raspberry Pi 5 kann die Leistung von MTP eingeschränkt sein. Es ist wichtig, die spezifischen Anforderungen zu berücksichtigen.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Privatanwender sehr empfehlenswert, insbesondere für die Ausführung von Qwen 3.6 35B auf GPUs. Die Wahl zwischen NTP und MTP hängt von der spezifischen Hardware und den Anforderungen ab. Für CPUs ist NTP die bessere Wahl.
[21 GPU’s benchmarked running a small TTS model (vram peak: 5GB)] (7/10) — OpenCode-Fit: BEDINGT

Worum es geht (2-4 Sätze): Der Autor hat 21 verschiedene GPUs auf vast.ai getestet, um ein kleines TTS-Modell (OmniVoice) zu benchmarken. Die Ergebnisse zeigen, wie sich die GPUs im Vergleich zueinander verhalten, insbesondere in Bezug auf die Audio-Generierungsgeschwindigkeit.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 21 verschiedene GPUs (z.B. RTX 3090, 2080 Ti, 1080 Ti, etc.) |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | nicht im Post belegt |
| Modell + Quant | OmniVoice (TTS-Modell) |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT (Benchmarking, kein vollständiges Setup) |
Was funktioniert konkret? (3-5 Sätze): Die Benchmarks zeigen, dass moderne GPUs wie die RTX 3090 und 2080 Ti sehr gute Leistungen bei der Audio-Generierung erzielen. Die RTX 3090 ist etwa 3x schneller als die 1080 Ti, was sie zu einer excellenten Wahl für TTS-Aufgaben macht.
Was NICHT funktioniert / Limits (2-4 Sätze): Ältere GPUs wie die 1080 Ti und 980 Ti sind deutlich langsamer und bieten eine geringere Kosteneffizienz. Die Leistung kann auch von der spezifischen Workload abhängen, insbesondere bei komplexeren Modellen.
Nachbau-Empfehlung (2-4 Sätze): Für TTS-Aufgaben sind moderne GPUs wie die RTX 3090 und 2080 Ti sehr empfehlenswert. Ältere GPUs sind weniger effizient und bieten eine geringere Leistung. Die Wahl der GPU hängt von den spezifischen Anforderungen und dem Budget ab.
Weitere Beiträge (kurz):
– The reason small-model agent stacks aren’t the default has nothing to do with whether they work — keine Hardware belegt, kein nachbaubares Setup
– Qwen Plays ̶p̶̶o̶̶k̶̶e̶̶m̶̶o̶̶n̶ ? / QWEN PLAYS DCSS! – qwen3.6-35b-a3b@q4_k_xl plays open source roguelike adventure DCSS (and does a decent job) — keine Hardware belegt, kein nachbaubares Setup
– TTS Benchmark Comparison (all known TTS up until May 2026) — keine Hardware belegt, kein nachbaubares Setup
– If you’re missing Jeeves, you might want to check out my weekend project. — keine Hardware belegt, kein nachbaubares Setup
– Any reason to run dense over MOE for RAGs? — keine Hardware belegt, kein nachbaubares Setup
– I added native MTP to exo for Qwen3.6 MLX models; here are the exactness and speed results — keine Hardware belegt, kein nachbaubares Setup
– Scrambling to max StrixHalo (+NVLink dual eGPU 3090 mod) — keine Hardware belegt, kein nachbaubares Setup
– Meet the Fleet of BlackBeard — keine Hardware belegt, kein nachbaubares Setup