Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fav

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: In dieser Woche bewegen sich auf Reddit r/LocalLLaMA: Reale Builds & Benchmarks hauptsächlich Diskussionen und Benchmarks um Qwen3.6-27B und andere Modelle, die auf lokalen Setups laufen. Besonders hervorzuheben sind die Beiträge, die konkrete Benchmarks und Setup-Details liefern, wie z.B. die Leistung von Qwen3.6-27B auf einem RTX 3090 oder 5090. Diese Einträge bieten präzise Zahlen und praktische Tipps, die für Leser, die ein funktionierendes lokales KI-Setup aufbauen möchten, sehr wertvoll sind.

[Qwen3.6-27B at up to 2x throughput on a single RTX 3090] (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Beitrag stellt Luce DFlash vor, eine Optimierung von DFlash, die Qwen3.6-27B auf einem einzelnen RTX 3090 laufen lässt. Die Autoren haben die Leistung des Modells auf verschiedenen Benchmarks getestet und zeigen, dass es bis zu 2x schneller als die autoregressive Methode ist.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | Luce DFlash (ggml, CUDA 12+) |
| Modell + Quant | Qwen3.6-27B Q4_K_M |
| Kontext-Laenge | 256k (KV-Cache OK) |
| tok/s (single) | 89.7 tok/s (60K context) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Luce DFlash ermöglicht es, Qwen3.6-27B auf einem einzelnen RTX 3090 mit bis zu 2x der Geschwindigkeit der autoregressiven Methode zu laufen. Die Leistung bei 256k Kontext-Länge ist besonders bemerkenswert, was es zu einem starken Kandidaten für OpenCode-Aufgaben macht.

Was NICHT funktioniert / Limits: Die genauen Hardware-Spezifikationen wie CPU, RAM, und Stromverbrauch sind nicht im Post belegt. Dies könnte für Leser, die ein vollständiges Setup aufbauen möchten, ein Hinderungsgrund sein.

Nachbau-Empfehlung: Wenn du ein lokales KI-Setup mit einem RTX 3090 aufbauen möchtest und eine hohe Leistung bei langen Kontext-Längen benötigst, ist Luce DFlash eine ausgezeichnete Wahl. Es ist besonders empfehlenswert für Entwickler, die mit Qwen3.6-27B arbeiten und eine hohe Geschwindigkeit benötigen.


[Qwen3.6-27B-INT4 clocking 100 tps with 256k context length on 1x RTX 5090 via vllm 0.19] (9/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Beitrag beschreibt, wie Qwen3.6-27B-INT4 auf einem RTX 5090 mit vLLM 0.19 konfiguriert werden kann, um eine Geschwindigkeit von 100 tps bei einer Kontext-Länge von 256k zu erreichen. Die Autoren teilen ihre Konfiguration und die verwendeten Flags, um diese Leistung zu erzielen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5090 32GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM 0.19.1rc1 |
| Modell + Quant | Qwen3.6-27B-INT4 |
| Kontext-Laenge | 256k (KV-Cache OK) |
| tok/s (single) | 105-108 tps |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Qwen3.6-27B-INT4 erreicht auf einem RTX 5090 eine Geschwindigkeit von 105-108 tps bei einer Kontext-Länge von 256k. Die Verwendung von vLLM 0.19.1rc1 und spezifischer Konfigurationen wie `–kv-cache-dtype fp8_e4m3` und `–speculative-config` ermöglicht diese hervorragende Leistung.

Was NICHT funktioniert / Limits: Die genauen Hardware-Spezifikationen wie CPU, RAM, und Stromverbrauch sind nicht im Post belegt. Dies könnte für Leser, die ein vollständiges Setup aufbauen möchten, ein Hinderungsgrund sein.

Nachbau-Empfehlung: Wenn du ein lokales KI-Setup mit einem RTX 5090 aufbauen möchtest und eine hohe Leistung bei langen Kontext-Längen benötigst, ist die Verwendung von Qwen3.6-27B-INT4 mit vLLM 0.19.1rc1 eine ausgezeichnete Wahl. Die genauen Konfigurationen im Post sind sehr hilfreich, um die bestmögliche Leistung zu erzielen.


[Speculative decoding with Gemma-4-31B + Gemma-4-E2B enables 120 – 200 tok/s output speed for specific tasks] (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Beitrag beschreibt, wie die Verwendung von Gemma-4-31B und Gemma-4-E2B mit spekulativem Decoding auf einem RTX 5090 zu Geschwindigkeiten von 120-200 tok/s führt. Die Autoren teilen ihre Konfiguration und die verwendeten Flags, um diese Leistung zu erzielen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5090 32GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp |
| Modell + Quant | Gemma-4-31B-Q6_K_L, Gemma-4-E2B-Q8_0 |
| Kontext-Laenge | 8K (KV-Cache OK) |
| tok/s (single) | 130-200 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Die Verwendung von Gemma-4-31B und Gemma-4-E2B mit spekulativem Decoding auf einem RTX 5090 führt zu Geschwindigkeiten von 130-200 tok/s bei einer Kontext-Länge von 8K. Dies ist besonders nützlich für atomare Aufgaben wie Datenextraktion und Klassifizierung.

Was NICHT funktioniert / Limits: Die genauen Hardware-Spezifikationen wie CPU, RAM, und Stromverbrauch sind nicht im Post belegt. Dies könnte für Leser, die ein vollständiges Setup aufbauen möchten, ein Hinderungsgrund sein.

Nachbau-Empfehlung: Wenn du ein lokales KI-Setup mit einem RTX 5090 aufbauen möchtest und eine hohe Leistung bei spezifischen Aufgaben benötigst, ist die Verwendung von Gemma-4-31B und Gemma-4-E2B mit spekulativem Decoding eine ausgezeichnete Wahl. Die genauen Konfigurationen im Post sind sehr hilfreich, um die bestmögliche Leistung zu erzielen.


[GBNF grammar tweak for faster Qwen3.6 35B-A3B and Qwen3.6 27B] (7/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Beitrag beschreibt, wie die Verwendung von GBNF-Grammatik-Optimierungen die Leistung von Qwen3.6 35B-A3B und Qwen3.6 27B verbessern kann. Die Autoren teilen ihre Benchmarks und zeigen, dass die Optimierungen zu erheblichen Geschwindigkeitsverbesserungen führen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5090 32GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp mainline April 24th |
| Modell + Quant | Qwen3.6-35B-A3B-Q6_K_P, Qwen3.6-27B-Uncensored-HauhauCS-Aggressive-Q6_K_P |
| Kontext-Laenge | 216k (35B-A3B), 114k (27B) |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Die GBNF-Grammatik-Optimierungen führen zu erheblichen Geschwindigkeitsverbesserungen bei der Verwendung von Qwen3.6 35B-A3B und Qwen3.6 27B. Die Benchmarks zeigen, dass die Optimierungen die Anzahl der Tokens und die Bearbeitungszeit erheblich reduzieren.

Was NICHT funktioniert / Limits: Die genauen Hardware-Spezifikationen wie CPU, RAM, und Stromverbrauch sind nicht im Post belegt. Dies könnte für Leser, die ein vollständiges Setup aufbauen möchten, ein Hinderungsgrund sein.

Nachbau-Empfehlung: Wenn du ein lokales KI-Setup mit einem RTX 5090 aufbauen möchtest und die Leistung von Qwen3.6 35B-A3B und Qwen3.6 27B verbessern möchtest, sind die GBNF-Grammatik-Optimierungen eine ausgezeichnete Wahl. Die Benchmarks im Post zeigen deutlich, dass diese Optimierungen die Leistung erheblich verbessern.


Weitere Beitraege (automatisch gefiltert):
Turbo-OCR Update: Layout Model + Multilingual — keine konkreten Messwerte, keine nachbaubaren Daten

👁 3 Aufrufe 👤 3 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert