Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, nachbaubare Setups zur lokalen Ausführung von KI-Modellen. In dieser Woche sind besonders die Einträge zu Qwen3.6-27B auf einem RTX 3090 und der Vergleich von Qwen-3.6-27B mit proprietären Modellen hervorzuheben. Diese Beiträge bieten präzise Benchmarks und praktische Erkenntnisse, die für den Aufbau eines eigenen lokalen KI-Setups hilfreich sind.

[PFlash: 10x Prefill Speedup over llama.cpp at 128K on a RTX 3090] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag stellt eine neue Methode namens PFlash vor, die das Prefill für langen Kontext bei quantisierten Modellen wie Qwen3.6-27B auf einem RTX 3090 erheblich beschleunigt. Die Methode verwendet einen kleinen Draft-Modell, um die Wichtigkeit von Tokens zu bewerten und nur die relevanten Teile des Kontexts zu prefillen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? PFlash erreicht eine erhebliche Beschleunigung des Prefill-Vorgangs bei langen Kontexten. Bei einem 131K-Token-Prompt reduziert es die Prefill-Zeit von 248.4 Sekunden auf 24.8 Sekunden, was eine Beschleunigung von etwa 10.4-fach bedeutet.

Was NICHT funktioniert / Limits: Die Methode ist spezifisch für quantisierte Modelle wie Q4_K_M und erfordert eine spezielle Implementierung. Es ist nicht direkt anwendbar auf andere Quantisierungen oder Modelle.

Nachbau-Empfehlung: Für Entwickler, die mit langen Kontexten arbeiten und eine erhebliche Beschleunigung des Prefill-Vorgangs benötigen, ist PFlash eine empfehlenswerte Lösung. Es ist besonders nützlich für Agent-taugliche Workloads und kann auf einem einzelnen RTX 3090 ausgeführt werden.

[Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)] (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag beschreibt die Weiterentwicklung des Setups für Qwen3.6-27B auf einem einzelnen RTX 3090. Es gelingt, den Kontext auf bis zu 218K zu erweitern und gleichzeitig die Stabilität von Tool-Calls zu verbessern.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht eine Kontextlänge von 218K und stabilisiert Tool-Calls, die bis zu 25K-Token-Ausgaben ohne OOM-Fehler verarbeiten können. Die TPS-Werte liegen bei 50-66, was für Agent-taugliche Workloads ausreichend ist.

Was NICHT funktioniert / Limits: Es gibt immer noch eine Speicherkante bei etwa 50-60K für einzelne Workloads auf einem GPU. Diese kann durch Tensor-Parallelität (z.B. 2x 3090) umgangen werden.

Nachbau-Empfehlung: Für Entwickler, die eine hohe Kontextlänge und stabile Tool-Calls benötigen, ist dieses Setup eine gute Wahl. Es ist besonders geeignet für Agent-taugliche Workloads und kann auf einem einzelnen RTX 3090 ausgeführt werden. Für noch höhere Kontextlängen und Stabilität kann die Verwendung von 2x 3090 in Betracht gezogen werden.

[Long-context coding on RTX 5080 16GB: Qwen3.6-35B-A3B holds 30 t/s at 128K (89 t/s fresh), no quality drop] (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag beschreibt, wie Qwen3.6-35B-A3B auf einem RTX 5080 16GB eingesetzt werden kann, um langen Kontext (128K) bei akzeptablen TPS-Werten (30 t/s) zu erreichen. Es wird auch eine spezifische Konfiguration vorgestellt, die die Performance optimiert.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht eine Kontextlänge von 128K und stabilisiert die Performance bei 30 t/s. Bei frischen Prompts erreicht es sogar 89 t/s. Die Qualität der Generierung bleibt konstant, auch bei langen Kontexten.

Was NICHT funktioniert / Limits: Die Performance kann durch die Verwendung von CUDA 13.x negativ beeinflusst werden. Es wird empfohlen, CUDA 12.9.1 zu verwenden. Zudem gibt es eine Speicherkante bei etwa 64K, die durch Optimierungen umgangen werden kann.

Nachbau-Empfehlung: Für Entwickler, die eine hohe Kontextlänge und stabile Performance benötigen, ist dieses Setup eine gute Wahl. Es ist besonders geeignet für Agent-taugliche Workloads und kann auf einem einzelnen RTX 5080 16GB ausgeführt werden. Die Verwendung von CUDA 12.9.1 ist unerlässlich für die beste Performance.

[Actual comparison between locally ran Qwen-3.6-27B and proprietary models] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Beitrag vergleicht die Performance von Qwen-3.6-27B auf einem lokalen Setup mit proprietären Modellen. Es wird gezeigt, dass Qwen-3.6-27B in bestimmten Aufgabenbereichen, insbesondere beim Code-Generieren, vergleichbar oder sogar besser abschneiden kann.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Qwen-3.6-27B erreicht eine akzeptable Performance bei der Code-Generierung und agenctischen Aufgaben. Es kann in bestimmten Szenarien proprietäre Modelle übertreffen, insbesondere bei der Verarbeitung von langen Kontexten.

Was NICHT funktioniert / Limits: Die Performance bei der Code-Generierung ist bei 8 t/s relativ langsam. Die Kontextlänge ist begrenzt auf 30K-64K, was für komplexe Aufgaben nicht ausreichend sein kann.

Nachbau-Empfehlung: Für Entwickler, die eine kostengünstige Alternative zu proprietären Modellen suchen, ist Qwen-3.6-27B eine gute Wahl. Es ist besonders geeignet für einfache bis mittlere Aufgaben und kann auf einem einzelnen RTX 3090 ausgeführt werden. Für anspruchsvollere Aufgaben und höhere Kontextlängen sollte ein Upgrade auf mehrere GPUs in Betracht gezogen werden.

Weitere Beiträge (kurz):

– I hate this group but not literally — keine Hardware belegt, kein nachbaubares Setup
– love it – Qwen3.6-27B — UD-Q5_K_XL evaluation — keine Hardware belegt, kein nachbaubares Setup
– nvidia/Gemma-4-26B-A4B-NVFP4 — keine Hardware belegt, kein nachbaubares Setup
– Best RTX Pro 6000 vllm settings? — keine Hardware belegt, kein nachbaubares Setup
– Can’t replicate Reddit numbers with Qwen 27B on a 3090TI. — keine Hardware belegt, kein nachbaubares Setup
– [[Research use case] MiniMax-M2.7 with small context, CPU+GPU (5090) setup on Llama.cpp](https://old.reddit.com/r/LocalLLaMA/comments/1szpanx/research_use_case_minimaxm27_with_small_context/) — keine Hardware belegt, kein nachbaubares Setup
– TurboQuant enabled Runtime Valkyr — keine Hardware belegt, kein nachbaubares Setup
– llama.cpp benchmark native vs. non native NVFP4 on Blackwell – summary — keine Hardware belegt, kein nachbaubares Setup

👁 3 Aufrufe 👤 3 Leser