Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks bietet aktuell eine Fülle von konkreten Setup-Berichten und Benchmarks für lokale KI-Modelle. Die Community dokumentiert detailliert, welche Hardware-Konfigurationen für die Ausführung von Modellen wie Qwen3.6 27B oder Supertonic 3 TTS geeignet sind. Besonders hervorzuheben sind die Benchmarks von verschiedenen GPUs, die MTP-Unterstützung in llama.cpp und die Vergleiche zwischen verschiedenen Frameworks. Leser, die ein nachbaubares Setup zuhause aufbauen möchten, finden hier wertvolle Anleitungen und Zahlen.

[Meet the Fleet of BlackBeard] (4/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht (2-4 Sätze): BlackBeard präsentiert seine KI-HomeLab-Setup, bestehend aus fünf verschiedenen Rechnern mit unterschiedlichen GPUs, darunter RTX 3090, RTX 5060 Ti und RTX 5090. Die Systeme laufen unter Linux Mint 22 und sind für verschiedene Aufgaben wie Modell-Archivierung, Text-to-Speech und Coding konfiguriert.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 2x RTX 3090, 1x RTX 5060 Ti, 1x RTX 5090, 4x RTX 3090 (in Bau) |
| CPU / Mainboard | i3 7100, Ryzen 5600, Ryzen 5950X, Ryzen 9950X3D, Threadripper 1950X |
| RAM | 32 GB DDR4, 64 GB DDR4, 128 GB DDR4, 256 GB DDR5, 128 GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | nicht im Post belegt |
| Modell + Quant | nicht im Post belegt |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? (3-5 Sätze): Die verschiedenen Rechner sind für spezifische Aufgaben optimiert, wie Modell-Archivierung, Text-to-Speech und Coding. Das Setup mit der RTX 5090 und dem Ryzen 9950X3D ist besonders leistungsfähig und kann erweitert werden. Die Systeme laufen stabil und sind für verschiedene Anwendungen geeignet.

Was NICHT funktioniert / Limits (2-4 Sätze): Das Setup ist noch in Bau, insbesondere das System mit den 4x RTX 3090. Die Kosteneffizienz und der Stromverbrauch sind noch nicht vollständig evaluiert. Die Autarkie-Fähigkeit hängt von der vollständigen Konfiguration ab.

Nachbau-Empfehlung (2-4 Sätze): Das Setup bietet eine gute Grundlage für verschiedene KI-Aufgaben, aber es ist noch in Entwicklung. Für einen privaten Haushalt könnte es zu teuer sein, insbesondere wenn alle geplanten Erweiterungen realisiert werden. Es ist ratsam, die Kosten und den Stromverbrauch genauer zu überprüfen.


[21 GPU’s benchmarked running a small TTS model (vram peak: 5GB)] (7/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht (2-4 Sätze): Der Autor hat 21 verschiedene GPUs auf vast.ai getestet, um ein kleines Text-to-Speech-Modell (OmniVoice) zu benchmarken. Die Benchmarks zeigen, wie die GPUs in Bezug auf ihre Leistungsfähigkeit und Effizienz miteinander vergleichbar sind.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 21 verschiedene GPUs, darunter RTX 3090, RTX 4090, RTX 5090, RTX 6000, RTX 5000 Pro, RTX 6000 Max-Q |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | nicht im Post belegt |
| Modell + Quant | OmniVoice, 5 GB VRAM |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): Die Benchmarks zeigen, dass moderne GPUs wie die RTX 5090 und RTX 6000 Max-Q besonders effizient sind. Die RTX 5090 erzielt die besten Ergebnisse in Bezug auf Leistung und Effizienz. Die Benchmarks sind nützlich, um die Leistung von verschiedenen GPUs zu vergleichen und die beste Wahl für ein spezifisches Setup zu treffen.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Benchmarks sind auf ein spezifisches Modell (OmniVoice) und eine VRAM-Verwendung von 5 GB beschränkt. Die Ergebnisse können sich bei anderen Modellen oder größeren VRAM-Anforderungen unterscheiden. Es fehlen detaillierte Informationen über die Hardware-Konfiguration und den Stromverbrauch.

Nachbau-Empfehlung (2-4 Sätze): Die Benchmarks bieten wertvolle Einblicke in die Leistungsfähigkeit verschiedener GPUs. Für ein privates Setup ist die RTX 5090 eine gute Wahl, da sie eine ausgezeichnete Kosteneffizienz bietet. Es ist ratsam, die Benchmarks als Referenz zu verwenden und die spezifischen Anforderungen des eigenen Projekts zu berücksichtigen.


[llama.cpp MTP support landed – Qwen3.6 27B at 2.44× on a Strix Halo, 2.17× on a RTX 3090 rig] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Autor hat die MTP (Multi-Token Prediction) Unterstützung in llama.cpp getestet und zeigt, wie sie die Leistung von Qwen3.6 27B auf verschiedenen GPUs verbessert. Die Tests wurden auf einem Strix Halo (AMD) und einem RTX 3090 (NVIDIA) durchgeführt.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | Strix Halo (AMD), RTX 3090 (NVIDIA) |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp (commit 4f13cb7) |
| Modell + Quant | Qwen3.6 27B, Q4_K_M, Q8_0 |
| Kontext-Laenge | 156k (KV-Cache OK) / 128k OOM |
| tok/s (single) | Strix Halo: 21.2 tok/s (Q4_K_M), 18.1 tok/s (Q8_0) | RTX 3090: 59.5 tok/s (Q4_K_M), 55.9 tok/s (Q8_0) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): Die MTP-Unterstützung in llama.cpp führt zu signifikanten Leistungssteigerungen, insbesondere bei der Verarbeitung von großen Kontexten. Die Tests zeigen, dass die Leistung auf dem Strix Halo und dem RTX 3090 deutlich verbessert wird, wobei der RTX 3090 die besten Ergebnisse erzielt.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung von MTP hängt von der spezifischen GPU und der Quantisierung ab. Bei kleineren Kontexten oder anderen Modellen können die Leistungssteigerungen geringer sein. Es gibt auch Unterschiede in der Leistung zwischen verschiedenen Quantisierungsvarianten.

Nachbau-Empfehlung (2-4 Sätze): Die MTP-Unterstützung in llama.cpp ist eine wertvolle Ergänzung für die Ausführung von großen Modellen wie Qwen3.6 27B. Für ein privates Setup ist der RTX 3090 eine gute Wahl, da er eine ausgezeichnete Kosteneffizienz und Leistung bietet. Es ist ratsam, die spezifischen Anforderungen des eigenen Projekts zu berücksichtigen und die MTP-Parameter entsprechend zu optimieren.


[Qwen 3.6 27B on 24GB VRAM setup: backend comparisons, quant choice and settings (llama.cpp, ik_llama.cpp, BeeLlama, vllm)] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Autor vergleicht verschiedene Backends (llama.cpp, ik_llama.cpp, BeeLlama, vLLM) für die Ausführung von Qwen3.6 27B auf einer RTX 3090 mit 24 GB VRAM. Die Tests zeigen, welche Backend-Konfiguration die beste Leistung und Kontext-Länge bietet.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 3090 24 GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | ik_llama.cpp (c35189d8) |
| Modell + Quant | Qwen3.6-27B-MTP-IQ4_KS.gguf, q8_0/q8_0 KV |
| Kontext-Laenge | 156k (KV-Cache OK) / 128k OOM |
| tok/s (single) | 1261 tok/s prefill, 72.9 tok/s decode |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): Die beste Konfiguration für Qwen3.6 27B auf einer RTX 3090 24 GB ist ik_llama.cpp mit der Quantisierung Qwen3.6-27B-MTP-IQ4_KS.gguf. Diese Setup erzielt eine ausgezeichnete Leistung bei der Prefill- und Decode-Geschwindigkeit und unterstützt Kontext-Längen von bis zu 156k.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung von vLLM war weniger stabil und hatte OOM-Probleme bei langen Kontexten. BeeLlama und llama.cpp zeigten ebenfalls gute Ergebnisse, aber nicht so überzeugend wie ik_llama.cpp. Die spezifischen Anforderungen des eigenen Projekts sollten berücksichtigt werden, um die beste Backend-Wahl zu treffen.

Nachbau-Empfehlung (2-4 Sätze): Die Konfiguration mit ik_llama.cpp und der Qwen3.6-27B-MTP-IQ4_KS.gguf ist eine ausgezeichnete Wahl für ein privates Setup. Es bietet eine ausgezeichnete Leistung und Kontext-Länge, die für die meisten Anwendungen ausreicht. Es ist ratsam, die spezifischen Anforderungen des eigenen Projekts zu berücksichtigen und die Parameter entsprechend zu optimieren.


[Benchmarking vLLM vs SGLang vs llama.cpp on a mixed Blackwell/Ada cluster] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Autor vergleicht die Leistung von vLLM, SGLang und llama.cpp auf einem heterogenen 7-GPU-Cluster, bestehend aus Blackwell und Ada GPUs. Die Benchmarks zeigen, wie die verschiedenen Frameworks bei der Ausführung von langen Kontexten und großen Modellen performen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX PRO 6000 96GB, 1x RTX PRO 5000 48GB, 2x RTX 5090 32GB, 3x modded RTX 4090 48GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM, SGLang, llama.cpp |
| Modell + Quant | Qwen3.6-35B-A3B, MiniMax-M2.7, Qwen3.5-122B-A10B, Qwen3.5-397B-A17B, 4-bit (NVFP4, MXFP4) |
| Kontext-Laenge | 184k, 82k, 75k, 397k |
| tok/s (single) | vLLM: 18060 t/s (Qwen3.6-35B-A3B), 6212 t/s (MiniMax-M2.7), 15084 t/s (Qwen3.5-122B-A10B) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): vLLM zeigt die besten Ergebnisse bei der Ausführung von langen Kontexten und großen Modellen auf einem heterogenen GPU-Cluster. Es übertrifft SGLang und llama.cpp in der Leistung und Stabilität, insbesondere bei der Pipeline-Parallelisierung. Die manuelle Anpassung der Layer-Verteilung ermöglicht eine optimale Auslastung der GPUs und führt zu erheblichen Leistungssteigerungen.

Was NICHT funktioniert / Limits (2-4 Sätze): SGLang funktioniert gut auf reinen Blackwell-Setups, aber es kracht, sobald Ada-GPUs in die Pipeline eingeführt werden. llama.cpp hat Schwierigkeiten mit der Pipeline-Parallelisierung und fällt bei langen Kontexten zurück. Die spezifischen Anforderungen des eigenen Projekts sollten berücksichtigt werden, um das beste Framework zu wählen.

**Nachbau-E

👁 4 Aufrufe 👤 3 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert