Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für echte, nachbaubare KI-Setups, die von Community-Usern dokumentiert werden. Diese Woche sind insbesondere die Einträge zu Qwen 3.6 27B auf einem RTX 3090 und das Setup von BlackBeard mit mehreren GPUs besonders belegt. Mit diesen Setups kann ein Leser heute Abend direkt loslegen, um ein funktionierendes, lokales KI-Setup aufzubauen.
[BeeLlama v0.2.0 – major DFlash update. Single RTX 3090: Qwen 3.6 27B up to 164 tps (4.40x), Gemma 4 31B up to 177.8 tps (4.93x). Prompt processing speed near baseline.] (8/10) — OpenCode-Fit: JA
Worum es geht (2-4 Sätze): Der Beitrag stellt die neue Version von BeeLlama vor, die erhebliche Leistungsverbesserungen bei der Ausführung von Qwen 3.6 27B und Gemma 4 31B auf einem RTX 3090 bietet. Die DFlash-Implementierung ermöglicht eine erhebliche Steigerung der Tokens pro Sekunde (tps) und verbessert die Verarbeitungsgeschwindigkeit von Prompts.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „AMD Ryzen 7 5700X3D“ |
| RAM | „32 GB DDR4“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „BeeLlama v0.2.0“ |
| Modell + Quant | „Qwen 3.6 27B Q5_K_S, Gemma 4 31B Q5_K_S“ |
| Kontext-Laenge | „bis 28K tokens“ |
| tok/s (single) | „164 tps (Qwen 3.6 27B), 177.8 tps (Gemma 4 31B)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? (3-5 Sätze): BeeLlama v0.2.0 ermöglicht eine erhebliche Steigerung der Tokens pro Sekunde (tps) bei der Ausführung von Qwen 3.6 27B und Gemma 4 31B auf einem RTX 3090. Die DFlash-Implementierung verbessert die Verarbeitungsgeschwindigkeit von Prompts und die Generierung von Tokens, was das Setup für OpenCode-Workloads tauglich macht.
Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung von BeeLlama hängt stark von der spezifischen Workload ab. Bei sehr langen Kontexten kann die Leistung abnehmen, und die Energieeffizienz ist nicht explizit getestet worden.
Nachbau-Empfehlung (2-4 Sätze): Das Setup ist für Benutzer mit einem Budget von ca. 1.000-1.500 EUR empfehlenswert, die ein leistungsstarkes, aber kostengünstiges Setup für die Ausführung von Qwen 3.6 27B und Gemma 4 31B suchen. Die Verwendung von BeeLlama v0.2.0 ist besonders für Single-GPU-Setups geeignet.
[Meet the Fleet of BlackBeard] (7/10) — OpenCode-Fit: BEDINGT

Worum es geht (2-4 Sätze): BlackBeard präsentiert seine vollständige AI-Home-Lab-Setup, das aus fünf verschiedenen Rechnern besteht, die jeweils für unterschiedliche Aufgaben konfiguriert sind. Das Setup reicht von einem i3-Rechner für das Archivieren von Modellen bis hin zu einem Threadripper-System mit vier 3090 GPUs.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „4x RTX 3090, 1x RTX 5060 Ti, 1x RTX 5090“ |
| CPU / Mainboard | „i3 7100, Ryzen 5600, Ryzen 5950X, Ryzen 9950X3D, Threadripper 1950X“ |
| RAM | „32 GB DDR4, 64 GB DDR4, 128 GB DDR4, 256 GB DDR5“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „nicht im Post belegt“ |
| Modell + Quant | „nicht im Post belegt“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |
Was funktioniert konkret? (3-5 Sätze): Das Setup von BlackBeard bietet eine Vielzahl von Rechnern, die jeweils für spezifische Aufgaben optimiert sind. Der Threadripper mit vier 3090 GPUs ist besonders leistungsfähig für komplexe KI-Aufgaben, während die anderen Rechner für kleinere Aufgaben oder das Archivieren von Modellen geeignet sind.
Was NICHT funktioniert / Limits (2-4 Sätze): Das Setup ist sehr umfangreich und erfordert erhebliche finanzielle Investitionen. Die Energieeffizienz und der Autarkie-Fit sind nicht explizit getestet worden, und die Verwaltung eines solchen großen Setups kann komplex sein.
Nachbau-Empfehlung (2-4 Sätze): Das Setup ist für Benutzer mit einem höheren Budget und spezifischen Anforderungen empfehlenswert. Für den Durchschnittsnutzer, der ein kostengünstigeres und einfacheres Setup sucht, könnte eine reduzierte Version mit weniger GPUs und einem weniger leistungsstarken CPU genügen.
[Qwen 3.6 27B on 24GB VRAM setup: backend comparisons, quant choice and settings (llama.cpp, ik_llama.cpp, BeeLlama, vllm)] (7/10) — OpenCode-Fit: JA
Worum es geht (2-4 Sätze): Der Beitrag vergleicht verschiedene Backends und Quantisierungen für die Ausführung von Qwen 3.6 27B auf einem RTX 3090 mit 24 GB VRAM. Die Tests zeigen, dass ik_llama.cpp die beste Leistung bietet, insbesondere bei der Verarbeitung von langen Kontexten.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „ik_llama.cpp (4507)“ |
| Modell + Quant | „Qwen3.6-27B-MTP-IQ4_KS.gguf“ |
| Kontext-Laenge | „156k tokens“ |
| tok/s (single) | „72.9 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? (3-5 Sätze): ik_llama.cpp bietet die beste Leistung bei der Ausführung von Qwen 3.6 27B auf einem RTX 3090 mit 24 GB VRAM. Die Verwendung von MTP (Multi-Token Prediction) und der q8_0 KV-Cache ermöglicht eine hohe Tokens-per-Sekunde-Rate und eine effiziente Verarbeitung von langen Kontexten.
Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung von vLLM und BeeLlama war in den Tests nicht so gut wie bei ik_llama.cpp. Bei sehr langen Kontexten kann es zu OOM-Fehlern kommen, und die Energieeffizienz ist nicht explizit getestet worden.
Nachbau-Empfehlung (2-4 Sätze): Das Setup ist für Benutzer mit einem RTX 3090 und einem Budget von ca. 1.000-1.500 EUR empfehlenswert. Die Verwendung von ik_llama.cpp und der Qwen 3.6 27B-MTP-IQ4_KS.gguf-Quantisierung ist besonders für die Ausführung von OpenCode-Workloads geeignet.
[Benchmarking vLLM vs SGLang vs llama.cpp on a mixed Blackwell/Ada cluster] (6/10) — OpenCode-Fit: BEDINGT
Worum es geht (2-4 Sätze): Der Beitrag vergleicht die Leistung von vLLM, SGLang und llama.cpp auf einem heterogenen 7-GPU-Cluster, der aus einer Mischung von Blackwell- und Ada-Karten besteht. Die Tests zeigen, dass vLLM die beste Leistung bei der Verarbeitung von langen Kontexten bietet, während SGLang auf reinen Blackwell-Setups gut abschneidet.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX PRO 6000 96GB, 1x PRO 5000 48GB, 2x 5090 32GB, 3x modded 4090 48GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM, SGLang, llama.cpp“ |
| Modell + Quant | „Qwen3.6-35B-A3B, MiniMax-M2.7, Qwen3.5-122B-A10B“ |
| Kontext-Laenge | „bis 184k tokens“ |
| tok/s (single) | „18060 t/s (vLLM), 7405 t/s (llama.cpp)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |
Was funktioniert konkret? (3-5 Sätze): vLLM bietet die beste Leistung bei der Verarbeitung von langen Kontexten auf einem heterogenen GPU-Cluster. Die manuelle Anpassung der Layer-Verteilung ermöglicht eine optimale Auslastung der GPUs und führt zu erheblichen Geschwindigkeitssteigerungen.
Was NICHT funktioniert / Limits (2-4 Sätze): llama.cpp hat Schwierigkeiten mit Pipeline-Parallelismus und fällt bei der Leistung hinter vLLM zurück. SGLang funktioniert nur auf reinen Blackwell-Setups und kracht bei der Einführung von Ada-Karten.
Nachbau-Empfehlung (2-4 Sätze): Das Setup ist für Benutzer mit einem heterogenen GPU-Cluster und einem höheren Budget empfehlenswert. Die Verwendung von vLLM ist besonders für die Ausführung von langen Kontexten geeignet, während SGLang auf reinen Blackwell-Setups eine gute Alternative darstellt.
Weitere Beiträge (kurz):
– Scrambling to max StrixHalo (+NVLink dual eGPU 3090 mod) — keine Hardware belegt, kein nachbaubares Setup
– 21 GPU’s benchmarked running a small TTS model (vram peak: 5GB) — keine Hardware belegt, kein nachbaubares Setup
– llama.cpp MTP support landed – Qwen3.6 27B at 2.44× on a Strix Halo, 2.17× on a RTX 3090 rig — keine Hardware belegt, kein nachbaubares Setup
– Benchmarked Kokoro 82M vs Supertonic 3 TTS on CPU — keine Hardware belegt, kein nachbaubares Setup
– Benchmarking the new b9200 update: Optimizing Qwen 3.6 27B mtp for Hermes Agent on a single RTX 3090 — keine Hardware belegt, kein nachbaubares Setup
– 85 GPU-hours comparing 5 abliteration methods on Qwen3.6-27B: benchmarks, safety, weight forensics – Abliterlitics — keine Hardware belegt, kein nachbaubares Setup
– The option i see online seem to make the model slower — keine Hardware belegt, kein nachbaubares Setup