Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, funktionierende lokale KI-Setups. Diese Woche sind insbesondere die Einträge zu GPU-Optimierungen, agenterischem Coding und hochperformanten Modellen wie Qwen3.6-27B und Gemma 4-31B hervorzuheben. Ein Leser kann heute Abend mit konkreten Benchmarks und Setup-Vorschlägen für 2-6 Consumer-GPUs oder Mac Studio M3/M4 Ultra anfangen.

[Luce DFlash + PFlash on AMD Strix Halo: Qwen3.6-27B at 2.23x decode and 3.05x prefill vs llama.cpp HIP] (9/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht (2-4 Sätze): Der Benutzer hat DFlash und PFlash für die AMD Ryzen AI MAX+ 395 (gfx1151) implementiert, um die Leistung des Qwen3.6-27B-Modells zu verbessern. Die Benchmarks zeigen eine deutliche Steigerung der Token-Generierung und des Prefill-Vorgangs im Vergleich zu llama.cpp HIP.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „Ryzen AI MAX+ 395, Radeon 8060S iGPU (gfx1151)“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „128 GB LPDDR5X-8000“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „Luce DFlash“ |
| Modell + Quant | „Qwen3.6-27B Q4_K_M“ |
| Kontext-Länge | „16K“ |
| tok/s (single) | „26.85 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? (3-5 Sätze): Das Setup erreicht eine Token-Generierung von 26.85 tok/s bei einer Kontext-Länge von 16K. Die Verwendung von DFlash und PFlash führt zu einer 2.23-fachen Steigerung der Token-Generierung und einer 3.05-fachen Steigerung des Prefill-Vorgangs im Vergleich zu llama.cpp HIP.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung bei sehr hohen Kontext-Längen kann durch die GPU-Speicherkapazität begrenzt sein. Die Bandbreite von LPDDR5X kann die Leistung bei höheren Budgets einschränken.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist ideal für Benutzer mit AMD Ryzen AI MAX+ 395 und einer hohen Kontext-Länge. Es bietet eine hervorragende Leistung für komplexe Aufgaben und ist autarkie-tauglich. Die Verwendung von DFlash und PFlash kann die Leistung weiter verbessern.


[Blackwell LLM Toolkit – NVFP4 Config +Wheels + Benchmarks for Blackwell GPUs via TensorRT-LLM – 270 tk/s Nemotron 3 Omni] (9/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht (2-4 Sätze): Der Benutzer hat ein Toolkit für Blackwell-GPUs entwickelt, um die Leistung von verschiedenen Modellen zu verbessern. Die Benchmarks zeigen, dass das Nemotron-3-Nano-Omni-Modell bei 8K Kontext eine Token-Generierung von 270 tok/s erreicht.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „RTX Pro 6000 96GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „TensorRT-LLM v1.3.0rc13“ |
| Modell + Quant | „Nemotron-3-Nano-Omni-30B-A3B NVFP4“ |
| Kontext-Länge | „8K“ |
| tok/s (single) | „270 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? (3-5 Sätze): Das Setup erreicht eine Token-Generierung von 270 tok/s bei einer Kontext-Länge von 8K. Das Nemotron-3-Nano-Omni-Modell ist multimodal und unterstützt Text, Bilder und Audio. Die Verwendung von NVFP4-Quantisierung optimiert die Leistung.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung bei sehr hohen Kontext-Längen kann durch die GPU-Speicherkapazität begrenzt sein. Die Verwendung von TRT-LLM v1.3.0rc13 ist erforderlich, um die neueren Mamba-hybrid-Modelle zu unterstützen.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist ideal für Benutzer mit RTX Pro 6000 96GB-GPUs und einem hohen Budget. Es bietet eine hervorragende Leistung für multimodale Aufgaben und ist autarkie-tauglich. Die Verwendung von NVFP4-Quantisierung kann die Leistung weiter verbessern.


Weitere Beiträge (kurz):

Simpler self hosted alt to Open WebUI — keine Hardware belegt, kein funktionierendes Setup
Meet Mindflow, the free local mindmap with local AI dev by some quantitized models 😛 — keine Hardware belegt, kein funktionierendes Setup
very slow tok/s with Gemma 4 31B on a 5090?! — keine konkreten Zahlen, reine Problem-Frage
Building the QWEN3.6 – Codex Bridge Furthe + Kindergarten Harness Reality Check — keine konkreten Zahlen, reine Problem-Frage
How many of you tried BeeLlama.cpp? How’s it? Agentic coding possible with 8GB VRAM? — keine konkreten Zahlen, reine Problem-Frage
Are harnesses like OpenClaw and Hermes really necessary? — keine konkreten Zahlen, reine Problem-Frage
Thoughts on „production“ model setups — keine konkreten Zahlen, reine Problem-Frage

Weitere Beitraege (automatisch gefiltert):
Benchmark 5090RTX: Prompt Parsing, Token Generation and Power Level — zu duenne Description, keine nachbaubaren Daten
Qwen3.6 27b q5_k_M MTP – 256k context – 5090 — zu duenne Description, keine nachbaubaren Daten

👁 0 Aufrufe 👤 0 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert