Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für echte, nachbaubare KI-Setups, die von Community-Usern dokumentiert werden. Diese Woche sind insbesondere die Einträge zu Qwen 3.6 27B auf einem RTX 3090 und das Setup von BlackBeard mit mehreren GPUs besonders belegt. Mit diesen Setups kann ein Leser heute Abend direkt loslegen, um ein funktionierendes, lokales KI-Setup aufzubauen.

[BeeLlama v0.2.0 – major DFlash update. Single RTX 3090: Qwen 3.6 27B up to 164 tps (4.40x), Gemma 4 31B up to 177.8 tps (4.93x). Prompt processing speed near baseline.] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Beitrag stellt die neue Version von BeeLlama vor, die erhebliche Leistungsverbesserungen bei der Ausführung von Qwen 3.6 27B und Gemma 4 31B auf einem RTX 3090 bietet. Die DFlash-Implementierung ermöglicht eine erhebliche Steigerung der Tokens pro Sekunde (tps) und verbessert die Verarbeitungsgeschwindigkeit von Prompts.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): BeeLlama v0.2.0 ermöglicht eine erhebliche Steigerung der Tokens pro Sekunde (tps) bei der Ausführung von Qwen 3.6 27B und Gemma 4 31B auf einem RTX 3090. Die DFlash-Implementierung verbessert die Verarbeitungsgeschwindigkeit von Prompts und die Generierung von Tokens, was das Setup für OpenCode-Workloads tauglich macht.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung von BeeLlama hängt stark von der spezifischen Workload ab. Bei sehr langen Kontexten kann die Leistung abnehmen, und die Energieeffizienz ist nicht explizit getestet worden.

Nachbau-Empfehlung (2-4 Sätze): Das Setup ist für Benutzer mit einem Budget von ca. 1.000-1.500 EUR empfehlenswert, die ein leistungsstarkes, aber kostengünstiges Setup für die Ausführung von Qwen 3.6 27B und Gemma 4 31B suchen. Die Verwendung von BeeLlama v0.2.0 ist besonders für Single-GPU-Setups geeignet.

[Meet the Fleet of BlackBeard] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): BlackBeard präsentiert seine vollständige AI-Home-Lab-Setup, das aus fünf verschiedenen Rechnern besteht, die jeweils für unterschiedliche Aufgaben konfiguriert sind. Das Setup reicht von einem i3-Rechner für das Archivieren von Modellen bis hin zu einem Threadripper-System mit vier 3090 GPUs.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Das Setup von BlackBeard bietet eine Vielzahl von Rechnern, die jeweils für spezifische Aufgaben optimiert sind. Der Threadripper mit vier 3090 GPUs ist besonders leistungsfähig für komplexe KI-Aufgaben, während die anderen Rechner für kleinere Aufgaben oder das Archivieren von Modellen geeignet sind.

Was NICHT funktioniert / Limits (2-4 Sätze): Das Setup ist sehr umfangreich und erfordert erhebliche finanzielle Investitionen. Die Energieeffizienz und der Autarkie-Fit sind nicht explizit getestet worden, und die Verwaltung eines solchen großen Setups kann komplex sein.

Nachbau-Empfehlung (2-4 Sätze): Das Setup ist für Benutzer mit einem höheren Budget und spezifischen Anforderungen empfehlenswert. Für den Durchschnittsnutzer, der ein kostengünstigeres und einfacheres Setup sucht, könnte eine reduzierte Version mit weniger GPUs und einem weniger leistungsstarken CPU genügen.

[Qwen 3.6 27B on 24GB VRAM setup: backend comparisons, quant choice and settings (llama.cpp, ik_llama.cpp, BeeLlama, vllm)] (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Beitrag vergleicht verschiedene Backends und Quantisierungen für die Ausführung von Qwen 3.6 27B auf einem RTX 3090 mit 24 GB VRAM. Die Tests zeigen, dass ik_llama.cpp die beste Leistung bietet, insbesondere bei der Verarbeitung von langen Kontexten.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): ik_llama.cpp bietet die beste Leistung bei der Ausführung von Qwen 3.6 27B auf einem RTX 3090 mit 24 GB VRAM. Die Verwendung von MTP (Multi-Token Prediction) und der q8_0 KV-Cache ermöglicht eine hohe Tokens-per-Sekunde-Rate und eine effiziente Verarbeitung von langen Kontexten.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung von vLLM und BeeLlama war in den Tests nicht so gut wie bei ik_llama.cpp. Bei sehr langen Kontexten kann es zu OOM-Fehlern kommen, und die Energieeffizienz ist nicht explizit getestet worden.

Nachbau-Empfehlung (2-4 Sätze): Das Setup ist für Benutzer mit einem RTX 3090 und einem Budget von ca. 1.000-1.500 EUR empfehlenswert. Die Verwendung von ik_llama.cpp und der Qwen 3.6 27B-MTP-IQ4_KS.gguf-Quantisierung ist besonders für die Ausführung von OpenCode-Workloads geeignet.

[Benchmarking vLLM vs SGLang vs llama.cpp on a mixed Blackwell/Ada cluster] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Beitrag vergleicht die Leistung von vLLM, SGLang und llama.cpp auf einem heterogenen 7-GPU-Cluster, der aus einer Mischung von Blackwell- und Ada-Karten besteht. Die Tests zeigen, dass vLLM die beste Leistung bei der Verarbeitung von langen Kontexten bietet, während SGLang auf reinen Blackwell-Setups gut abschneidet.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): vLLM bietet die beste Leistung bei der Verarbeitung von langen Kontexten auf einem heterogenen GPU-Cluster. Die manuelle Anpassung der Layer-Verteilung ermöglicht eine optimale Auslastung der GPUs und führt zu erheblichen Geschwindigkeitssteigerungen.

Was NICHT funktioniert / Limits (2-4 Sätze): llama.cpp hat Schwierigkeiten mit Pipeline-Parallelismus und fällt bei der Leistung hinter vLLM zurück. SGLang funktioniert nur auf reinen Blackwell-Setups und kracht bei der Einführung von Ada-Karten.

Nachbau-Empfehlung (2-4 Sätze): Das Setup ist für Benutzer mit einem heterogenen GPU-Cluster und einem höheren Budget empfehlenswert. Die Verwendung von vLLM ist besonders für die Ausführung von langen Kontexten geeignet, während SGLang auf reinen Blackwell-Setups eine gute Alternative darstellt.

Weitere Beiträge (kurz):

– Scrambling to max StrixHalo (+NVLink dual eGPU 3090 mod) — keine Hardware belegt, kein nachbaubares Setup
– 21 GPU’s benchmarked running a small TTS model (vram peak: 5GB) — keine Hardware belegt, kein nachbaubares Setup
– llama.cpp MTP support landed – Qwen3.6 27B at 2.44× on a Strix Halo, 2.17× on a RTX 3090 rig — keine Hardware belegt, kein nachbaubares Setup
– Benchmarked Kokoro 82M vs Supertonic 3 TTS on CPU — keine Hardware belegt, kein nachbaubares Setup
– Benchmarking the new b9200 update: Optimizing Qwen 3.6 27B mtp for Hermes Agent on a single RTX 3090 — keine Hardware belegt, kein nachbaubares Setup
– 85 GPU-hours comparing 5 abliteration methods on Qwen3.6-27B: benchmarks, safety, weight forensics – Abliterlitics — keine Hardware belegt, kein nachbaubares Setup
– The option i see online seem to make the model slower — keine Hardware belegt, kein nachbaubares Setup

👁 2 Aufrufe 👤 2 Leser