Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Community, die sich mit realen lokalen KI-Setups und deren Benchmarks beschäftigt. In dieser Woche sind insbesondere die Einträge zu Qwen3.6-27B und -35B sowie die Optimierungen für RTX 3090 und 5090 im Fokus. Leser können hier erfahren, welche Setups stabil laufen, welche Zahlen erreicht werden und welche Modelle sich für OpenCode-Arbeiten eignen. Mit diesen Informationen können sie eigene Projekte planen und umsetzen.

[Qwen3.6-27b builds a chat interface for Gemma-4-E4B (Text, Image, Audio)] (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Autor hat ein Setup aufgebaut, bei dem Qwen3.6-27B als Chat-Interface für Gemma-4-E4B verwendet wird. Das Setup läuft auf einem RTX 5090 und kann Text, Bild und Audio verarbeiten. Die Leistung ist beeindruckend, und das Modell ist für kreative Aufgaben und OpenCode-Arbeiten geeignet.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Das Setup ermöglicht die Verwendung von Qwen3.6-27B als Chat-Interface für Gemma-4-E4B, wobei beide Modelle gut zusammenarbeiten. Die Leistung bei Text- und Bildverarbeitung ist sehr gut, und das Modell ist für kreative Aufgaben und OpenCode-Arbeiten geeignet. Die Verwendung von vLLM trägt zur Stabilität und Leistung bei.

Was NICHT funktioniert / Limits (2-4 Sätze): Die genauen Leistungsdaten wie Tokens pro Sekunde und der Stromverbrauch sind nicht im Post belegt. Die Kontextlänge von 125K führt zu Out-of-Memory-Fehlern, sodass eine Kontextlänge von 40K empfohlen wird. Die Skalierbarkeit für mehrere GPUs ist nicht getestet.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer geeignet, die eine hohe Kontextlänge und Stabilität benötigen. Es erfordert einige technisches Know-how, um die Modelle korrekt zu integrieren. Für Anfänger könnte ein einfacheres Setup mit weniger spezifischen Anpassungen sinnvoller sein.

[Purchasing a Mac Studio M2 Max with 64gb of ram (can it run qwen 3.6 27b) how many tok/s ?] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Autor fragt, ob ein Mac Studio M2 Max mit 64GB RAM das Modell Qwen3.6-27B laufen lassen kann und welche Geschwindigkeit erreicht werden kann. Die Community gibt verschiedene Antworten, die die Leistung und die Anwendbarkeit des Setups beurteilen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Der Mac Studio M2 Max mit 64GB RAM kann Qwen3.6-27B laufen lassen, wobei die Geschwindigkeit zwischen 10 und 20 Tokens pro Sekunde liegt. Das Modell ist für kreative Aufgaben und OpenCode-Arbeiten geeignet, obwohl die Leistung langsamer ist als bei leistungsfähigeren GPUs.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung ist relativ langsam, insbesondere bei der Verarbeitung langer Kontexte. Die Kontextlänge ist begrenzt, und das Modell könnte bei komplexeren Aufgaben oder längeren Texten Schwierigkeiten haben. Die Skalierbarkeit für mehrere GPUs oder andere Frameworks ist nicht getestet.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer geeignet, die eine kostengünstige Option suchen, die dennoch Qwen3.6-27B laufen lassen kann. Es ist besonders für Anfänger oder Benutzer mit einem begrenzten Budget geeignet. Für höhere Leistung und längere Kontexte könnte ein Upgrade auf eine leistungsfähigere GPU sinnvoll sein.

[Qwen 3.6 27B is a BEAST] (6/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Autor berichtet, dass Qwen3.6-27B auf seinem RTX 5090-Laptop sehr gut läuft und er seine Cloud-Subscriptions kündigen wird. Das Modell erreicht eine Geschwindigkeit von 85 Tokens pro Sekunde und kann eine Kontextlänge von 200K verarbeiten. Es ist besonders für Data Science und Code-Debugging geeignet.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Qwen3.6-27B erreicht eine beeindruckende Geschwindigkeit von 85 Tokens pro Sekunde und kann eine Kontextlänge von 200K verarbeiten. Es ist besonders für Data Science und Code-Debugging geeignet, da es zuverlässig und schnell arbeitet. Die Verwendung von llama.cpp trägt zur Stabilität und Leistung bei.

Was NICHT funktioniert / Limits (2-4 Sätze): Die genauen Leistungsdaten wie der Stromverbrauch und die Skalierbarkeit für mehrere GPUs sind nicht im Post belegt. Die Leistung könnte bei komplexeren Aufgaben oder längeren Kontexten abnehmen. Die Verwendung von spezifischen Optimierungen wie speculative decoding könnte die Leistung weiter verbessern.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Fortgeschrittene geeignet, die eine hohe Leistung und Kontextlänge benötigen. Es erfordert einige technisches Know-how, um die Modelle und Optimierungen korrekt anzuwenden. Für Anfänger könnte ein einfacheres Setup mit weniger spezifischen Anpassungen sinnvoller sein.

[Nvidia RTX 3090 vs Intel Arc Pro B70 llama.cpp Benchmarks] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Autor vergleicht die Leistung von llama.cpp auf einem RTX 3090 und einem Intel Arc Pro B70. Die Tests zeigen, dass der RTX 3090 in den meisten Fällen besser abschneidet, insbesondere bei der Verarbeitung von Prompten und der Generierung von Tokens.

Reales Setup (komplette Fakten-Tabelle):

Weitere Beitraege (automatisch gefiltert):
– An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026 — zu duenne Description, keine nachbaubaren Daten
– Qwen3.6 27B’s surprising KV cache quantization test results (Turbo3/4 vs F16 vs Q8 vs Q4) — keine konkreten Messwerte, keine nachbaubaren Daten

👁 0 Aufrufe 👤 0 Leser