Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Benchmarks und Build-Berichten geprägt. Besonders hervorzuheben sind die Benchmarks von Qwen 3.6-27B auf verschiedenen Quantisierungen, die Optimierungen für Qwen 3.6-35B-A3B und die lokalen Setups mit RTX 5090. Diese Woche können Leser mit einem Budget von 4.000-20.000 EUR konkrete Beispiele für funktionierende Setups finden, die für OpenCode-Workloads geeignet sind.

[Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090] (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht (2-4 Sätze): Der Beitrag stellt Luce DFlash vor, eine Optimierung für Qwen 3.6-27B, die die Durchsatzrate auf einem RTX 3090 um bis zu 2x erhöht. Es wird beschrieben, wie man das Setup installiert und verwendet.

Reales Setup (komplette Fakten-Tabelle siehe oben) — bitte als Markdown-Tabelle

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „Luce DFlash (MIT)“ |
| Modell + Quant | „Qwen 3.6-27B Q4_K_M“ |
| Kontext-Länge | „256K“ |
| tok/s (single) | „89.7 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? (3-5 Sätze): Luce DFlash ermöglicht es, Qwen 3.6-27B auf einem RTX 3090 mit einer Kontext-Länge von 256K und einer Geschwindigkeit von 89.7 Tokens pro Sekunde zu betreiben. Die Optimierung verwendet spekulative Decoding, Flash Attention und andere Techniken, um die Leistung zu steigern.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Konfiguration erfordert CUDA 12+ und spezifische Einstellungen, die möglicherweise nicht für alle GPU-Modelle geeignet sind. Die Verwendung von Flash Attention und spekulativem Decoding kann bei anderen Modellen zu unterschiedlichen Ergebnissen führen.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Benutzer mit einem RTX 3090 und einem Fokus auf schnelle, lokal betriebene Workloads geeignet. Die Konfiguration kann leicht angepasst werden, um die spezifischen Anforderungen des Benutzers zu erfüllen.


[Speculative decoding with Gemma-4-31B + Gemma-4-E2B enables 120 – 200 tok/s output speed for specific tasks] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht (2-4 Sätze): Der Beitrag beschreibt, wie die spekulative Decoding-Technik mit Gemma-4-31B und Gemma-4-E2B auf einem RTX 5090 verwendet werden kann, um Geschwindigkeiten von 120-200 Tokens pro Sekunde zu erreichen. Es wird speziell auf nicht-englische Sprachen und strukturierte JSON-Antworten fokussiert.

Reales Setup (komplette Fakten-Tabelle siehe oben) — bitte als Markdown-Tabelle

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 5090“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp“ |
| Modell + Quant | „Gemma-4-31B + Gemma-4-E2B“ |
| Kontext-Länge | „8K“ |
| tok/s (single) | „130-200 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |

Was funktioniert konkret? (3-5 Sätze): Die spekulative Decoding-Technik ermöglicht es, Gemma-4-31B und Gemma-4-E2B auf einem RTX 5090 zu betreiben, um Geschwindigkeiten von 130-200 Tokens pro Sekunde zu erreichen. Die Qualität der Ergebnisse ist besser als bei Gemini 2.5 Flash-lite, und das Setup ist lokal betreibbar.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Konfiguration ist spezifisch auf nicht-englische Sprachen und strukturierte JSON-Antworten optimiert. Die Verwendung von spekulativem Decoding kann bei anderen Aufgaben oder Sprachen zu unterschiedlichen Ergebnissen führen.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Benutzer mit einem RTX 5090 und einem Fokus auf nicht-englische Sprachen und strukturierte JSON-Antworten geeignet. Die Konfiguration kann leicht angepasst werden, um die spezifischen Anforderungen des Benutzers zu erfüllen.


[GBNF grammar tweak for faster Qwen3.6 35B-A3B and Qwen3.6 27B] (7/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht (2-4 Sätze): Der Beitrag beschreibt, wie die GBNF-Grammatik für Qwen 3.6 35B-A3B und Qwen 3.6 27B optimiert werden kann, um die Geschwindigkeit und Effizienz zu verbessern. Es werden spezifische Benchmarks und Verbesserungen vorgestellt.

Reales Setup (komplette Fakten-Tabelle siehe oben) — bitte als Markdown-Tabelle

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 5090“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp“ |
| Modell + Quant | „Qwen 3.6 35B-A3B, Qwen 3.6 27B“ |
| Kontext-Länge | „216K (35B-A3B), 114K (27B)“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? (3-5 Sätze): Die GBNF-Grammatik-Optimierung verbessert die Geschwindigkeit und Effizienz von Qwen 3.6 35B-A3B und Qwen 3.6 27B. Die Anzahl der Tokens und die Bearbeitungszeiten werden signifikant reduziert, was zu einer besseren Leistung führt.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Optimierung ist spezifisch auf die Qwen-Modelle und die verwendeten Benchmarks zugeschnitten. Die Verbesserungen können bei anderen Modellen oder Aufgaben variieren.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Benutzer mit einem RTX 5090 und einem Fokus auf Qwen-Modelle geeignet. Die GBNF-Grammatik-Optimierung kann leicht angepasst werden, um die spezifischen Anforderungen des Benutzers zu erfüllen.


[For the 5 people here running vLLM on multiple R9700s, you need to patch in support for AITER Unified Attention.] (6/10) — OpenCode-Fit: BEDINGT

Weitere Beitraege (automatisch gefiltert):
Qwen 3.6 27B BF16 vs Q4_K_M vs Q8_0 GGUF evaluation — keine Hardware belegt, kein nachbaubares Setup

Weitere Beitraege (automatisch gefiltert):
Qwen3.6-27B-INT4 clocking 100 tps with 256k context length on 1x RTX 5090 via vllm 0.19 — zu duenne Description, keine nachbaubaren Daten

👁 0 Aufrufe 👤 0 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert