Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fav

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für echte, funktionierende Setups zur lokalen Ausführung von KI-Modellen. Diese Woche gibt es besonders interessante Beiträge zu Setup-Beschreibungen, Benchmarks und Optimierungen. Ein Leser kann heute Abend mit konkreten Vorschlägen für ein nachbaubares Setup starten, das OpenCode-ähnliche Workloads unterstützt.

[Blackwell LLM Toolkit – NVFP4 Config + Wheels + Benchmarks for Blackwell GPUs via TensorRT-LLM – 270 tk/s Nemotron 3 Omni] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag beschreibt ein Setup mit dem Blackwell LLM Toolkit, das es ermöglicht, verschiedene Modelle auf Blackwell-GPUs (wie der RTX Pro 6000) zu laufen. Es enthält Konfigurationen, Wheels und Benchmarks.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX Pro 6000 96GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „TensorRT-LLM v1.3.0rc13“ |
| Modell + Quant | „Nemotron-3-Nano-Omni V3 (multimodal) NVFP4“ |
| Kontext-Laenge | „8k“ |
| tok/s (single) | „270 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Das Setup ermöglicht das Laufen von multimodalen Modellen wie Nemotron-3-Nano-Omni V3 mit NVFP4-Quantisierung auf Blackwell-GPUs. Es erreicht eine Geschwindigkeit von 270 tok/s bei 8k Kontext.

Was NICHT funktioniert / Limits: Das Setup ist spezifisch für Blackwell-GPUs und erfordert spezielle Konfigurationen und Wheels. Es ist nicht direkt auf andere GPUs übertragbar.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit Blackwell-GPUs ideal. Es bietet eine hohe Leistung bei multimodalitätsfähigen Modellen und ist für autarke Setups geeignet.


[Drastically improve prompt processing speed for –n-cpu-moe partially offloaded models] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht: Der Beitrag beschreibt, wie man die Prompt-Verarbeitungsgeschwindigkeit bei teilweise auf die CPU ausgelagerten Modellen durch das Erhöhen der physikalischen Mikrobatch-Größe (ubatch) verbessern kann.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp“ |
| Modell + Quant | „gpt-oss-120b-F16.gguf“ |
| Kontext-Laenge | „64k“ |
| tok/s (single) | „2090.68 tok/s (ubatch 8192)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |

Was funktioniert konkret? Durch das Erhöhen der ubatch-Größe von 512 auf 8192 konnte die Prompt-Verarbeitungsgeschwindigkeit von 380 tok/s auf 2090 tok/s gesteigert werden. Dies führt zu einer erheblichen Leistungssteigerung bei prompt-heavier Workloads.

Was NICHT funktioniert / Limits: Die Erhöhung der ubatch-Größe erfordert mehr GPU-Rechenkapazität und kann die Token-Generierungsgeschwindigkeit leicht verlangsamen. Es ist wichtig, die Anzahl der CPU-MoE-Layers entsprechend anzupassen, um die VRAM-Beschränkungen zu berücksichtigen.

Nachbau-Empfehlung: Dieses Setup ist besonders für Benutzer mit RTX 3090 und prompt-heavier Workloads geeignet. Es erfordert jedoch eine sorgfältige Anpassung der ubatch-Größe und der CPU-MoE-Layers.


[BeeLlama.cpp: advanced DFlash & TurboQuant with support of reasoning and vision. Qwen 3.6 27B Q5 with 200k context on 3090, 2-3x faster than baseline (peak 135 tps!)] (9/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Beitrag stellt BeeLlama.cpp vor, eine leistungsstarke llama.cpp-Fork, die DFlash spekulative Decodierung, TurboQuant KV-Cache-Kompression und reasoning- und vision-unterstützung bietet. Es ermöglicht das Laufen von Qwen 3.6 27B Q5 mit 200k Kontext auf einem RTX 3090.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „BeeLlama.cpp“ |
| Modell + Quant | „Qwen 3.6 27B Q5“ |
| Kontext-Laenge | „200k“ |
| tok/s (single) | „135 tps (peak)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? BeeLlama.cpp ermöglicht das Laufen von Qwen 3.6 27B Q5 mit 200k Kontext auf einem RTX 3090. Es erreicht eine Spitzenleistung von 135 tps und bietet spekulative Decodierung, KV-Cache-Kompression und reasoning- und vision-unterstützung.

Was NICHT funktioniert / Limits: Die Implementierung erfordert spezifische Konfigurationen und kann komplex sein. Es ist wichtig, die Einstellungen sorgfältig zu justieren, um die besten Ergebnisse zu erzielen.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit RTX 3090 und der Notwendigkeit, große Kontexte und multimodale Modelle zu laufen, ideal. Es bietet eine hohe Leistung und ist für autarke Setups geeignet.


[Got MTP + TurboQuant running — Qwen3.6-27B — 80+ t/s at 262K context on a single RTX 4090] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag beschreibt, wie der Autor MTP (Multi-Token Prediction) und TurboQuant auf Qwen3.6-27B auf einem RTX 4090 laufen lassen konnte. Es erreicht eine Geschwindigkeit von 80-87 t/s bei 262K Kontext.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 4090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp-mtp“ |
| Modell + Quant | „Qwen3.6-27B-Heretic-v2 Q4_K_M“ |
| Kontext-Laenge | „262K“ |
| tok/s (single) | „80-87 t/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Das Setup ermöglicht das Laufen von Qwen3.6-27B mit MTP und TurboQuant auf einem RTX 4090. Es erreicht eine Geschwindigkeit von 80-87 t/s bei 262K Kontext und bietet eine hohe Ausgabequalität.

Was NICHT funktioniert / Limits: Die Implementierung erfordert spezifische Konfigurationen und kann komplex sein. Es ist wichtig, die Einstellungen sorgfältig zu justieren, um die besten Ergebnisse zu erzielen.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit RTX 4090 und der Notwendigkeit, große Kontexte und leistungsstarke Modelle zu laufen, ideal. Es bietet eine hohe Leistung und ist für autarke Setups geeignet.


[Gemma 4 26B Hits 600 Tok/s on One RTX 5090] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag beschreibt, wie der Autor Gemma 4 26B auf einem RTX 5090 mit DFlash spekulativer Decodierung laufen lassen konnte. Es erreicht eine Geschwindigkeit von 600 tok/s bei 256 Eingabetoken und 1024 Ausgabetoken.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 5090 32GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM 0.19.2rc1“ |
| Modell + Quant | „cyankiwi/gemma-4-26B-A4B-it-AWQ-4bit“ |
| Kontext-Laenge | „256 input / 1024 output tokens“ |
| tok/s (single) | „600 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Das Setup ermöglicht das Laufen von Gemma 4 26B mit DFlash spekulativer Decodierung auf einem RTX 5090. Es erreicht eine Geschwindigkeit von 600 tok/s und bietet eine erhebliche Leistungssteigerung.

Was NICHT funktioniert / Limits: Die Implementierung erfordert spezifische Konfigurationen und kann komplex sein. Es ist wichtig, die Anzahl der spekulativen Tokens sorgfältig zu justieren, um die besten Ergebnisse zu erzielen.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit RTX 5090 und der Notwendigkeit, leistungsstarke Modelle zu laufen, ideal. Es bietet eine hohe Leistung und ist für autarke Setups geeignet.


[Benchmark Qwen 3.6 27B MTP on 2×3090 NVLINK] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag beschreibt Benchmarks für Qwen 3.6 27B MTP auf 2x RTX 3090 mit NVLink. Es zeigt, wie die Leistung durch die Verwendung von NVLink verbessert werden kann.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „2x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM 0.20.1“ |
| Modell + Quant | „cyankiwi/Qwen3.6-27B-AWQ-BF16-INT4“ |
| Kontext-Laenge | „131072“ |
| tok/s (single) | „228 tok/s (baseline), 578 tok/s (DFlash)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Das Setup ermöglicht das Laufen von Qwen 3.6 27B MTP auf 2x RTX 3090 mit NVLink. Es zeigt, dass die Verwendung von NVLink die Leistung um bis zu 53% verbessern kann.

Was NICHT funktioniert / Limits: Die Implementierung erfordert spezifische Konfigurationen und kann komplex sein. Es ist wichtig, die Anzahl der spekulativen Tokens sorgfältig zu justieren, um die besten Ergebnisse zu erzielen.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit 2x RTX 3090 und der Notwendigkeit, leistungsstarke Modelle zu laufen, ideal. Es bietet eine hohe Leistung und ist für autarke Setups geeignet.


Weitere Beitraege (kurz):
Which inference engines are 5090 owners using? — keine Hardware belegt, kein funktionierendes Setup
PSA: Watch out for extra spaces in chat-template-kwargs when using Qwen3.6 with llama-server — keine

👁 2 Aufrufe 👤 1 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert