Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Plattform, auf der Community-User ihre lokalen KI-Setups dokumentieren und benchmarken. In dieser Woche sind besonders die Benchmarks von Qwen 3.6-27B auf RTX 5090 und die Optimierungen für Qwen 3.6-35B-A3B hervorzuheben. Diese Setups bieten konkrete Zahlen und Erkenntnisse, die für den Bau eines eigenen lokalen KI-Systems hilfreich sind. Ein Leser kann heute Abend mit diesen Informationen anfangen, ein nachbaubares Setup zu planen.

[llama.cpp benchmark native vs. non native NVFP4 on Blackwell – summary] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer hat zwei Builds von llama.cpp auf demselben Modell Qwen3.6-27B-NVFP4 getestet: einen ohne und einen mit nativer NVFP4-Unterstützung. Die Tests wurden auf einem System mit NVIDIA GeForce RTX 5090, AMD Ryzen 9 9950X3D und 128 GB DDR5 5600 CL36 durchgeführt.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Die nativ NVFP4-unterstützte Version von llama.cpp (b8967) verbessert die Prompt-Verarbeitung um durchschnittlich 57%, wobei die größten Vorteile bei kürzeren und mittleren Kontextgrößen zu sehen sind. Die Token-Generierung bleibt jedoch unverändert. Dies macht das Setup besonders für Workloads mit langen Prompts und großen Kontexten geeignet.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Token-Generierungsgeschwindigkeit bleibt unverändert, was bedeutet, dass die Verbesserungen hauptsächlich bei der Prompt-Verarbeitung liegen. Das Setup ist nicht ideal für kurze, interaktive Chats, aber sehr gut für RAG-Aufgaben und Dokumentanalysen geeignet.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer mit einem Budget von ca. 2000 EUR und einem Bedarf an hochleistungsfähigen KI-Workloads zu empfehlen. Die nativ NVFP4-unterstützte Version von llama.cpp ist ein klarer Verbesserungsschritt und sollte in Betracht gezogen werden.

[Qwen 3.6-35B-A3B KV cache bench: f16 vs q8_0 vs turbo3 vs turbo4 from 0 to 1M context on M5 Max] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer hat verschiedene Quantisierungsmethoden (f16, q8_0, turbo3, turbo4) für das Modell Qwen 3.6-35B-A3B auf einem MacBook Pro M5 Max mit 128 GB Unified Memory getestet. Die Benchmarks umfassen Kontextlängen von 0 bis 1M Tokens.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Die Benchmarks zeigen, dass die turbo3-Quantisierung bei größeren Kontexten (ab 100K) die beste Leistung bietet, während f16 bei kleineren Kontexten die beste Wahl ist. Die turbo4-Quantisierung ist besonders gut für die Token-Generierung bei sehr großen Kontexten geeignet.

Was NICHT funktioniert / Limits (2-4 Sätze): Die q8_0-Quantisierung hat bei größeren Kontexten Schwierigkeiten und führt zu OOM-Fehlern. Die turbo3-Quantisierung ist die beste Wahl für agentechnische Workloads, während turbo4 besser für RAG-Aufgaben geeignet ist.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Benutzer mit einem MacBook Pro M5 Max und einem Bedarf an hochleistungsfähigen KI-Workloads geeignet. Die Wahl der Quantisierungsmethode sollte anhand der spezifischen Workload angepasst werden.

[Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer hat eine GGUF-Portierung von DFlash speculative decoding für Qwen3.6-27B erstellt, die auf einem einzelnen RTX 3090 läuft. Die Benchmarks zeigen eine durchschnittliche 1.98-fache Leistung im Vergleich zu autoregressiven Methoden.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Luce DFlash erreicht eine durchschnittliche 1.98-fache Leistung im Vergleich zu autoregressiven Methoden auf Qwen3.6-27B. Die spekulativen Decoding-Methoden ermöglichen eine hohe Token-Generierungsgeschwindigkeit, insbesondere bei großen Kontexten.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung bei sehr großen Kontexten (über 256K) kann abnehmen, da der KV-Cache begrenzt ist. Die spekulativen Decoding-Methoden sind am effektivsten bei mittleren bis großen Kontexten.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Benutzer mit einem RTX 3090 und einem Bedarf an hochleistungsfähigen KI-Workloads geeignet. Die spekulativen Decoding-Methoden von Luce DFlash bieten eine signifikante Leistungssteigerung und sind leicht zu implementieren.

Weitere Beiträge (kurz):

– llama.cpp – NVFP4 native support on Blackwell from now – b8967 | img:https://external-preview.redd.it/nv0FdVvpIH63Ruuq0j4WF57dP7rfzlP1vVWZNT3UIwA.png?width=140&height=70&auto=webp&s=643fbc169959721d39714db304d46819e99c8b28 — keine Hardware belegt, kein nachbaubares Setup
– Abliterlitics: Benchmarks and Tensor Comparison for Heretic, Abliterlix, Huiui, HauhauCS for GLM 4.7 Flash — keine Hardware belegt, kein nachbaubares Setup
– Qwen 3.6 27B BF16 vs Q4_K_M vs Q8_0 GGUF evaluation | img:https://preview.redd.it/ncwdmp21bxxg1.jpeg?width=640&crop=smart&auto=webp&s=a5b4caef8b59ccd3aae4c95a42b00f9b14365e5e — keine Hardware belegt, kein nachbaubares Setup
– Local model on coding has reached a certain threshold to be feasible for real work | img:https://preview.redd.it/h9w2sla51zxg1.png?width=140&height=85&auto=webp&s=9234b5b08d504ec4c95d6b069d7003085bc2f903 — keine Hardware belegt, kein nachbaubares Setup
– Are OSS runnable model good now? — keine Hardware belegt, kein nachbaubares Setup
– Thinking to buy server chassis pcie 5.0 and 1x to 4x 3090 — keine Hardware belegt, kein nachbaubares Setup
– For the 5 people here running vLLM on multiple R9700s, you need to patch in support for AITER Unified Attention. | img:https://preview.redd.it/akh0wyumrrxg1.png?width=140&height=140&auto=webp&s=c5b94082f8c6075f4375ba4fdb4a45f468b55369 — keine Hardware belegt, kein nachbaubares Setup
– GBNF grammar tweak for faster Qwen3.6 35B-A3B and Qwen3.6 27B | img:https://preview.redd.it/sabbmqlu5rxg1.png?width=140&height=83&auto=webp&s=78165f9271dbc28053eb5a8f2b424936622c6e2f — keine Hardware belegt, kein nachbaubares Setup
– Turbo-OCR Update: Layout Model + Multilingual — keine Hardware belegt, kein nachbaubares Setup

👁 0 Aufrufe 👤 0 Leser