Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine wertvolle Quelle für Community-User, die ihre lokalen KI-Setups dokumentieren. In dieser Woche sind besonders die Einträge zu Qwen3.6-35B auf verschiedenen GPUs und die Benchmarking-Ergebnisse für Text-to-Speech-Modelle hervorzuheben. Ein Leser kann heute Abend mit konkreten Benchmarks und Setup-Vorschlägen für Qwen3.6-35B und TTS-Modelle beginnen.
[Qwen 3.6 35B GGUF: NTP vs MTP Quantisierungsergebnisse auf GPUs und CPUs] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Beitrag vergleicht die Quantisierungsergebnisse des Qwen3.6-35B-Modells in NTP (Next Token Prediction) und MTP (Multi-Token Prediction) auf verschiedenen GPUs und CPUs. Es werden detaillierte Benchmarks und Empfehlungen für die beste Quantisierung gegeben.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 4090, 5090, Pro 6000, 4080, 5060 Ti, Intel i7, Intel Ultra 7, Ryzen 9, Raspberry Pi 5 |
| CPU / Mainboard | N/A |
| RAM | 32 GB DDR4, 64 GB DDR4, 128 GB DDR4, 256 GB DDR5, 16 GB RAM |
| PSU | N/A |
| Chassis / Kuehlung | N/A |
| Framework + Version | llama.cpp b9275, CUDA 13.1 Windows prebuilt |
| Modell + Quant | Qwen3.6-35B Q4_K_M, Qwen3.6-35B Q5_K_S, Qwen3.6-35B MTP Q4_K_M, Qwen3.6-35B MTP Q5_K_S |
| Kontext-Laenge | 2048, 4096, 8192 |
| tok/s (single) | 37.2 – 181.9 tok/s |
| tok/s (batched) | N/A |
| Strom (full load) | N/A |
| Rohkosten | N/A |
| Autarkie-Fit | JA |
Was funktioniert konkret? Die NTP-Quantisierung von Qwen3.6-35B zeigte überraschend gute Ergebnisse, insbesondere in der Qualität und Geschwindigkeit. MTP brachte auf GPUs eine Geschwindigkeitssteigerung von 20-40%, aber der zusätzliche Speicherverbrauch muss berücksichtigt werden. CPU-MTP war weniger attraktiv.
Was NICHT funktioniert / Limits: CPU-MTP war in den Tests weniger effektiv. Die MTP-Geschwindigkeitssteigerung ist stark workloadabhängig und kann bei kleineren Modellen weniger auffällig sein.
Nachbau-Empfehlung: Für ein nachbaubares Setup empfehle ich die NTP-Quantisierung von Qwen3.6-35B auf GPUs wie RTX 4090 oder 5090. CPU-Nutzer sollten eher auf NTP setzen. Die Benchmarks und Empfehlungen im Blog-Artikel sind sehr hilfreich.
[BeeLlama v0.2.0 – major DFlash Update. Single RTX 3090: Qwen 3.6 27B up to 164 tps (4.40x), Gemma 4 31B up to 177.8 tps (4.93x). Prompt processing speed near baseline.] (9/10) — OpenCode-Fit: JA
Worum es geht: Die neue Version von BeeLlama v0.2.0 bringt erhebliche Leistungsverbesserungen für Qwen 3.6 27B und Gemma 4 31B durch eine optimierte DFlash-Implementierung. Es werden detaillierte Benchmarks und Verbesserungen in der CUDA-Exekution sowie in der Verarbeitung von Prompten vorgestellt.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 3090 24 GB |
| CPU / Mainboard | AMD Ryzen 7 5700X3D |
| RAM | 32 GB DDR4 |
| PSU | N/A |
| Chassis / Kuehlung | N/A |
| Framework + Version | BeeLlama v0.2.0, llama.cpp b9275, CUDA 13.1 Windows prebuilt |
| Modell + Quant | Qwen 3.6 27B Q5_K_S, Gemma 4 31B Q5_K_S |
| Kontext-Laenge | 2048, 4096, 8192 |
| tok/s (single) | 37.2 – 181.9 tok/s |
| tok/s (batched) | N/A |
| Strom (full load) | N/A |
| Rohkosten | N/A |
| Autarkie-Fit | JA |
Was funktioniert konkret? Die neue DFlash-Implementierung in BeeLlama v0.2.0 führt zu erheblichen Geschwindigkeitssteigerungen, insbesondere bei Qwen 3.6 27B und Gemma 4 31B. Die Prompt-Verarbeitung bleibt nahe am Baseline-Level, was die Gesamtleistung verbessert.
Was NICHT funktioniert / Limits: Die Geschwindigkeitssteigerung ist workloadabhängig und kann bei kleineren Modellen weniger auffällig sein. Die MTP-Geschwindigkeitssteigerung ist bei MoE-Modellen geringer.
Nachbau-Empfehlung: Für ein nachbaubares Setup empfehle ich BeeLlama v0.2.0 auf einem RTX 3090. Die Benchmarks und die detaillierte Dokumentation im GitHub-Repository sind sehr hilfreich.
[Scrambling to max StrixHalo (+NVLink dual eGPU 3090 mod)] (7/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Beitrag beschreibt, wie der Autor sein Strix Halo-Setup mit NVLink und dualen eGPU 3090-Modifikationen verbessert hat, um die Leistung bei der Ausführung von dichten Modellen wie Qwen 3.6 27B und 31B zu steigern.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | Strix Halo (124GB UMA VRAM), 2x RTX 3090 24 GB (eGPU) |
| CPU / Mainboard | N/A |
| RAM | 32 GB DDR4 |
| PSU | N/A |
| Chassis / Kuehlung | N/A |
| Framework + Version | vLLM, llama.cpp |
| Modell + Quant | Qwen 3.6 27B, Qwen 3.6 31B |
| Kontext-Laenge | 2048, 4096, 8192 |
| tok/s (single) | 36.8 – 154.1 tok/s |
| tok/s (batched) | N/A |
| Strom (full load) | N/A |
| Rohkosten | N/A |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? Die Modifikation mit NVLink und dualen eGPU 3090-Modifikationen führt zu erheblichen Leistungssteigerungen bei der Ausführung von dichten Modellen. Die Geschwindigkeit kann sich je nach Situation um ein Vielfaches verbessern.
Was NICHT funktioniert / Limits: Die NVLink-Modifikation ist nicht ohne Weiteres auf allen Systemen möglich. Die Leistung kann bei längeren Kontexten abnehmen, und die Stromeffizienz ist bei kleineren Modellen besser.
Nachbau-Empfehlung: Für ein nachbaubares Setup empfehle ich die Modifikation des Strix Halo mit NVLink und dualen eGPU 3090. Die Benchmarks und die detaillierten Anleitungen im Beitrag sind sehr hilfreich, aber die Komplexität der Modifikation sollte berücksichtigt werden.
[Meet the Fleet of BlackBeard] (6/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Autor stellt sein vollständiges AI-Home-Lab-Setup vor, das aus mehreren Rechnern mit verschiedenen GPUs und CPUs besteht. Es wird beschrieben, wie die Rechner für verschiedene Aufgaben genutzt werden.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | GTX 1070, RTX 5060 Ti, RTX 5090, 4x RTX 3090 |
| CPU / Mainboard | i3 7100, Ryzen 5600, Ryzen 5950X, Ryzen 9950X3D, Threadripper 1950X |
| RAM | 32 GB DDR4, 64 GB DDR4, 128 GB DDR4, 256 GB DDR5 |
| PSU | N/A |
| Chassis / Kuehlung | N/A |
| Framework + Version | N/A |
| Modell + Quant | Qwen 3.6 35B A3B, andere Modelle |
| Kontext-Laenge | N/A |
| tok/s (single) | N/A |
| tok/s (batched) | N/A |
| Strom (full load) | N/A |
| Rohkosten | N/A |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? Das Setup ist vielseitig und kann für verschiedene AI-Aufgaben genutzt werden, von Modellarchivierung bis hin zur Ausführung von großen Modellen wie Qwen 3.6 35B A3B.
Was NICHT funktioniert / Limits: Die Komplexität des Setups kann für Anfänger schwierig sein. Die Stromeffizienz und der Autarkie-Fit variieren je nach Rechner.
Nachbau-Empfehlung: Für ein nachbaubares Setup empfehle ich die Auswahl von Rechnern basierend auf den spezifischen Anforderungen. Das Setup von BlackBeard ist ein guter Ausgangspunkt, aber die Komplexität sollte berücksichtigt werden.
[21 GPUs benchmarked running a small TTS model (vram peak: 5GB)] (7/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Autor hat 21 verschiedene GPUs auf vast.ai gemietet, um ein kleines TTS-Modell (OmniVoice) zu benchmarken. Die Benchmarks zeigen, wie die GPUs sich gegenseitig gegenüberstellen.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 3090, RTX 4090, RTX 5090, Pro 6000, 4080, 5060 Ti, andere GPUs |
| CPU / Mainboard | N/A |
| RAM | 16 GB RAM |
| PSU | N/A |
| Chassis / Kuehlung | N/A |
| Framework + Version | N/A |
| Modell + Quant | OmniVoice (TTS) |
| Kontext-Laenge | N/A |
| tok/s (single) | 0.165 – 0.509 RTF |
| tok/s (batched) | N/A |
| Strom (full load) | N/A |
| Rohkosten | N/A |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? Die Benchmarks zeigen, dass RTX 3090 und neuerere GPUs wie RTX 4090 und 5090 die besten Ergebnisse bei der Ausführung des TTS-Modells liefern. Die Geschwindigkeit variiert je nach GPU.
Was NICHT funktioniert / Limits: Die Benchmarks sind nicht wissenschaftlich durchgeführt, aber sie geben einen guten Überblick über die Leistung der verschiedenen GPUs. Die Stromeffizienz und der Autarkie-Fit variieren je nach GPU.
Nachbau-Empfehlung: Für ein nachbaubares Setup empfehle ich die Auswahl von GPUs wie RTX 3090 oder neuer. Die Benchmarks im Beitrag sind hilfreich, um die beste GPU für das jeweilige Budget zu wählen.
Weitere Beitraege (automatisch gefiltert):
– Benchmarked Kokoro 82M vs Supertonic 3 TTS on CPU — keine Hardware belegt, kein nachbaubares Setup