Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Community, die sich mit realen lokalen KI-Setups und deren Benchmarks beschäftigt. In dieser Woche sind insbesondere die Einträge zu Qwen3.6-27B und -35B sowie die Optimierungen für RTX 3090 und 5090 im Fokus. Leser können hier erfahren, welche Setups stabil laufen, welche Zahlen erreicht werden und welche Modelle sich für OpenCode-Arbeiten eignen. Mit diesen Informationen können sie eigene Projekte planen und umsetzen.

[Qwen3.6-27b builds a chat interface for Gemma-4-E4B (Text, Image, Audio)] (7/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht (2-4 Sätze): Der Autor hat ein Setup aufgebaut, bei dem Qwen3.6-27B als Chat-Interface für Gemma-4-E4B verwendet wird. Das Setup läuft auf einem RTX 5090 und kann Text, Bild und Audio verarbeiten. Die Leistung ist beeindruckend, und das Modell ist für kreative Aufgaben und OpenCode-Arbeiten geeignet.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM (nicht spezifische Version) |
| Modell + Quant | Qwen3.6-27B Q8_0 |
| Kontext-Laenge | 40K (KV-Cache OK) / 125K OOM |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): Das Setup ermöglicht die Verwendung von Qwen3.6-27B als Chat-Interface für Gemma-4-E4B, wobei beide Modelle gut zusammenarbeiten. Die Leistung bei Text- und Bildverarbeitung ist sehr gut, und das Modell ist für kreative Aufgaben und OpenCode-Arbeiten geeignet. Die Verwendung von vLLM trägt zur Stabilität und Leistung bei.

Was NICHT funktioniert / Limits (2-4 Sätze): Die genauen Leistungsdaten wie Tokens pro Sekunde und der Stromverbrauch sind nicht im Post belegt. Die Kontextlänge von 125K führt zu Out-of-Memory-Fehlern, sodass eine Kontextlänge von 40K empfohlen wird. Die Skalierbarkeit für mehrere GPUs ist nicht getestet.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer geeignet, die eine hohe Kontextlänge und Stabilität benötigen. Es erfordert einige technisches Know-how, um die Modelle korrekt zu integrieren. Für Anfänger könnte ein einfacheres Setup mit weniger spezifischen Anpassungen sinnvoller sein.


[Purchasing a Mac Studio M2 Max with 64gb of ram (can it run qwen 3.6 27b) how many tok/s ?] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Autor fragt, ob ein Mac Studio M2 Max mit 64GB RAM das Modell Qwen3.6-27B laufen lassen kann und welche Geschwindigkeit erreicht werden kann. Die Community gibt verschiedene Antworten, die die Leistung und die Anwendbarkeit des Setups beurteilen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | Apple M2 Max |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 64GB Unified Memory |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | MLX (nicht spezifische Version) |
| Modell + Quant | Qwen3.6-27B Q8_0 / Q4_0 |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | 10-20 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | $1700 |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? (3-5 Sätze): Der Mac Studio M2 Max mit 64GB RAM kann Qwen3.6-27B laufen lassen, wobei die Geschwindigkeit zwischen 10 und 20 Tokens pro Sekunde liegt. Das Modell ist für kreative Aufgaben und OpenCode-Arbeiten geeignet, obwohl die Leistung langsamer ist als bei leistungsfähigeren GPUs.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung ist relativ langsam, insbesondere bei der Verarbeitung langer Kontexte. Die Kontextlänge ist begrenzt, und das Modell könnte bei komplexeren Aufgaben oder längeren Texten Schwierigkeiten haben. Die Skalierbarkeit für mehrere GPUs oder andere Frameworks ist nicht getestet.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer geeignet, die eine kostengünstige Option suchen, die dennoch Qwen3.6-27B laufen lassen kann. Es ist besonders für Anfänger oder Benutzer mit einem begrenzten Budget geeignet. Für höhere Leistung und längere Kontexte könnte ein Upgrade auf eine leistungsfähigere GPU sinnvoll sein.


[Qwen 3.6 27B is a BEAST] (6/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Autor berichtet, dass Qwen3.6-27B auf seinem RTX 5090-Laptop sehr gut läuft und er seine Cloud-Subscriptions kündigen wird. Das Modell erreicht eine Geschwindigkeit von 85 Tokens pro Sekunde und kann eine Kontextlänge von 200K verarbeiten. Es ist besonders für Data Science und Code-Debugging geeignet.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 64GB DDR5 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp (nicht spezifische Version) |
| Modell + Quant | Qwen3.6-27B Q4_K_M / Q8_0 |
| Kontext-Laenge | 200K |
| tok/s (single) | 85 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): Qwen3.6-27B erreicht eine beeindruckende Geschwindigkeit von 85 Tokens pro Sekunde und kann eine Kontextlänge von 200K verarbeiten. Es ist besonders für Data Science und Code-Debugging geeignet, da es zuverlässig und schnell arbeitet. Die Verwendung von llama.cpp trägt zur Stabilität und Leistung bei.

Was NICHT funktioniert / Limits (2-4 Sätze): Die genauen Leistungsdaten wie der Stromverbrauch und die Skalierbarkeit für mehrere GPUs sind nicht im Post belegt. Die Leistung könnte bei komplexeren Aufgaben oder längeren Kontexten abnehmen. Die Verwendung von spezifischen Optimierungen wie speculative decoding könnte die Leistung weiter verbessern.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Fortgeschrittene geeignet, die eine hohe Leistung und Kontextlänge benötigen. Es erfordert einige technisches Know-how, um die Modelle und Optimierungen korrekt anzuwenden. Für Anfänger könnte ein einfacheres Setup mit weniger spezifischen Anpassungen sinnvoller sein.


[Nvidia RTX 3090 vs Intel Arc Pro B70 llama.cpp Benchmarks] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Autor vergleicht die Leistung von llama.cpp auf einem RTX 3090 und einem Intel Arc Pro B70. Die Tests zeigen, dass der RTX 3090 in den meisten Fällen besser abschneidet, insbesondere bei der Verarbeitung von Prompten und der Generierung von Tokens.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3090 24GB, 1x Intel Arc Pro B70 |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehl

Weitere Beitraege (automatisch gefiltert):
An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026 — zu duenne Description, keine nachbaubaren Daten
Qwen3.6 27B’s surprising KV cache quantization test results (Turbo3/4 vs F16 vs Q8 vs Q4) — keine konkreten Messwerte, keine nachbaubaren Daten

👁 0 Aufrufe 👤 0 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert