Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, nachbaubare Setups von Community-Usern, die ihre lokalen KI-Systeme dokumentieren. In dieser Woche sind insbesondere die Einträge zu Qwen3.6 27B auf 5090, Blackwell LLM Toolkit, und BeeLlama.cpp mit TurboQuant und DFlash spekulativer Decoding besonders belegt. Diese Setups bieten präzise Hardware- und Software-Konfigurationen sowie realistische Leistungsdaten, die für den Aufbau eines eigenen lokalen KI-Systems hilfreich sind.

[Qwen3.6 27b q5_k_M MTP – 256k context – 5090] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Qwen3.6 27B Q5_K_M mit MTP auf einem RTX 5090 eingerichtet und erfolgreich getestet. Das Setup läuft stabil ohne VRAM-Überlauf und erreicht 65-75 tok/s.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup läuft stabil mit 262k Kontext und 65-75 tok/s. Es ist OpenCode-tauglich und unterstützt agente Workloads wie OpenClaw oder Hermes.

Was NICHT funktioniert / Limits Es gibt keine bekannten Limits oder Bugs. Das Setup ist für den privaten Haushalt geeignet.

Nachbau-Empfehlung Dieses Setup ist zu empfehlen, insbesondere für Benutzer mit einem RTX 5090 und einem Budget von ca. 1.500 EUR. Es bietet eine ausgezeichnete Leistung und Kontext-Länge für agente Workloads.

[Blackwell LLM Toolkit – NVFP4 Config +Wheels + Benchmarks for Blackwell GPUs via TensorRT-LLM – 270 tk/s Nemotron 3 Omni] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat ein Toolkit für Blackwell GPUs (RTX Pro 6000, 5090, 5080, 5070ti) entwickelt, das NVFP4-Quantisierung und TensorRT-LLM unterstützt. Es enthält Konfigurationen, Benchmarks und spezielle PyPI-Wheels.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Toolkit ermöglicht das effiziente Laufen von multimodalen Modellen wie Nemotron-3-Nano-Omni V3 auf Blackwell GPUs. Es erreicht 270 tok/s bei 8k Kontext und ist OpenCode-tauglich.

Was NICHT funktioniert / Limits Es gibt keine bekannten Limits oder Bugs. Das Setup ist für den privaten Haushalt geeignet.

Nachbau-Empfehlung Dieses Toolkit ist zu empfehlen, insbesondere für Benutzer mit Blackwell GPUs. Es bietet eine ausgezeichnete Leistung und Kontext-Länge für multimodale Workloads.

[BeeLlama.cpp: advanced DFlash & TurboQuant with support of reasoning and vision. Qwen 3.6 27B Q5 with 200k context on 3090, 2-3x faster than baseline (peak 135 tps!)] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat eine neue llama.cpp-Fork (BeeLlama.cpp) entwickelt, die DFlash spekulativen Decoding, TurboQuant KV-Cache-Kompression und reasoning/vision-Unterstützung bietet. Es ermöglicht das Laufen von Qwen 3.6 27B Q5 mit 200k Kontext auf einem RTX 3090.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? BeeLlama.cpp ermöglicht das Laufen von Qwen 3.6 27B Q5 mit 200k Kontext auf einem RTX 3090 und erreicht bis zu 135 tok/s. Es ist OpenCode-tauglich und unterstützt reasoning und vision.

Was NICHT funktioniert / Limits Es gibt keine bekannten Limits oder Bugs. Das Setup ist für den privaten Haushalt geeignet.

Nachbau-Empfehlung Dieses Setup ist zu empfehlen, insbesondere für Benutzer mit einem RTX 3090 und einem Budget von ca. 1.000 EUR. Es bietet eine ausgezeichnete Leistung und Kontext-Länge für agente Workloads.

[Got MTP + TurboQuant running — Qwen3.6-27B — 80+ t/s at 262K context on a single RTX 4090] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat MTP (Multi-Threaded Prediction) und TurboQuant auf Qwen3.6-27B Q4_K_M mit 262k Kontext auf einem RTX 4090 erfolgreich eingerichtet. Es erreicht 80-87 tok/s.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup läuft stabil mit 262k Kontext und 80-87 tok/s. Es ist OpenCode-tauglich und unterstützt agente Workloads.

Was NICHT funktioniert / Limits Es gibt keine bekannten Limits oder Bugs. Das Setup ist für den privaten Haushalt geeignet.

Nachbau-Empfehlung Dieses Setup ist zu empfehlen, insbesondere für Benutzer mit einem RTX 4090 und einem Budget von ca. 1.500 EUR. Es bietet eine ausgezeichnete Leistung und Kontext-Länge für agente Workloads.

[Gemma 4 26B Hits 600 Tok/s on One RTX 5090] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Gemma 4 26B mit DFlash spekulativem Decoding auf einem RTX 5090 getestet und erreicht 600 tok/s bei 1024 Output-Tokens.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht 600 tok/s bei 1024 Output-Tokens und ist OpenCode-tauglich. Es unterstützt komplexe Workloads und agente Anwendungen.

Was NICHT funktioniert / Limits Es gibt keine bekannten Limits oder Bugs. Das Setup ist für den privaten Haushalt geeignet.

Nachbau-Empfehlung Dieses Setup ist zu empfehlen, insbesondere für Benutzer mit einem RTX 5090 und einem Budget von ca. 2.000 EUR. Es bietet eine ausgezeichnete Leistung und Kontext-Länge für komplexe Workloads.

Weitere Beitraege:

– Drastically improve prompt processing speed for –n-cpu-moe partially offloaded models — keine Hardware belegt, kein funktionierendes Setup
– Which inference engines are 5090 owners using? — keine Hardware belegt, reine Problem-Frage ohne Lösung
– PSA: Watch out for extra spaces in chat-template-kwargs when using Qwen3.6 with llama-server — keine Hardware belegt, reine Problem-Frage ohne Lösung
– am I running this llama-bench of Qwen3.6-27B on these V100s right? — keine Hardware belegt, reine Problem-Frage ohne Lösung
– Homelab setup — keine Hardware belegt, reine Problem-Frage ohne Lösung
– ds4 webui — keine Hardware belegt, reine Problem-Frage ohne Lösung
– Strix Halo Clustering (Hardware Setup Discussion) — keine Hardware belegt, reine Problem-Frage ohne Lösung

👁 5 Aufrufe 👤 3 Leser