Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Plattform, auf der Community-User ihre lokalen KI-Setups dokumentieren und benchmarken. In dieser Woche sind besonders die Benchmarks von Qwen 3.6-27B auf RTX 5090 und die Optimierungen für Qwen 3.6-35B-A3B hervorzuheben. Diese Setups bieten konkrete Zahlen und Erkenntnisse, die für den Bau eines eigenen lokalen KI-Systems hilfreich sind. Ein Leser kann heute Abend mit diesen Informationen anfangen, ein nachbaubares Setup zu planen.
[llama.cpp benchmark native vs. non native NVFP4 on Blackwell – summary] (8/10) — OpenCode-Fit: JA
Worum es geht (2-4 Sätze): Der Benutzer hat zwei Builds von llama.cpp auf demselben Modell Qwen3.6-27B-NVFP4 getestet: einen ohne und einen mit nativer NVFP4-Unterstützung. Die Tests wurden auf einem System mit NVIDIA GeForce RTX 5090, AMD Ryzen 9 9950X3D und 128 GB DDR5 5600 CL36 durchgeführt.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | NVIDIA GeForce RTX 5090 |
| CPU / Mainboard | AMD Ryzen 9 9950X3D |
| RAM | 128 GB DDR5 5600 CL36 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp b8966 / b8967 |
| Modell + Quant | Qwen3.6-27B-NVFP4 |
| Kontext-Länge | 32768 (maximal getestet) |
| tok/s (single) | 73.62 t/s (b8967) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Die nativ NVFP4-unterstützte Version von llama.cpp (b8967) verbessert die Prompt-Verarbeitung um durchschnittlich 57%, wobei die größten Vorteile bei kürzeren und mittleren Kontextgrößen zu sehen sind. Die Token-Generierung bleibt jedoch unverändert. Dies macht das Setup besonders für Workloads mit langen Prompts und großen Kontexten geeignet.
Was NICHT funktioniert / Limits (2-4 Sätze): Die Token-Generierungsgeschwindigkeit bleibt unverändert, was bedeutet, dass die Verbesserungen hauptsächlich bei der Prompt-Verarbeitung liegen. Das Setup ist nicht ideal für kurze, interaktive Chats, aber sehr gut für RAG-Aufgaben und Dokumentanalysen geeignet.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer mit einem Budget von ca. 2000 EUR und einem Bedarf an hochleistungsfähigen KI-Workloads zu empfehlen. Die nativ NVFP4-unterstützte Version von llama.cpp ist ein klarer Verbesserungsschritt und sollte in Betracht gezogen werden.
[Qwen 3.6-35B-A3B KV cache bench: f16 vs q8_0 vs turbo3 vs turbo4 from 0 to 1M context on M5 Max] (8/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Benutzer hat verschiedene Quantisierungsmethoden (f16, q8_0, turbo3, turbo4) für das Modell Qwen 3.6-35B-A3B auf einem MacBook Pro M5 Max mit 128 GB Unified Memory getestet. Die Benchmarks umfassen Kontextlängen von 0 bis 1M Tokens.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | MacBook Pro M5 Max |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 128 GB Unified Memory |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp (TheTom’s TurboQuant Metal fork) |
| Modell + Quant | Qwen 3.6-35B-A3B Q8 |
| Kontext-Länge | 0 bis 1M Tokens |
| tok/s (single) | 89.4 t/s (f16) / 87.4 t/s (q8_0) / 79.5 t/s (turbo3) / 79.7 t/s (turbo4) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Die Benchmarks zeigen, dass die turbo3-Quantisierung bei größeren Kontexten (ab 100K) die beste Leistung bietet, während f16 bei kleineren Kontexten die beste Wahl ist. Die turbo4-Quantisierung ist besonders gut für die Token-Generierung bei sehr großen Kontexten geeignet.
Was NICHT funktioniert / Limits (2-4 Sätze): Die q8_0-Quantisierung hat bei größeren Kontexten Schwierigkeiten und führt zu OOM-Fehlern. Die turbo3-Quantisierung ist die beste Wahl für agentechnische Workloads, während turbo4 besser für RAG-Aufgaben geeignet ist.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Benutzer mit einem MacBook Pro M5 Max und einem Bedarf an hochleistungsfähigen KI-Workloads geeignet. Die Wahl der Quantisierungsmethode sollte anhand der spezifischen Workload angepasst werden.
[Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090] (8/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Benutzer hat eine GGUF-Portierung von DFlash speculative decoding für Qwen3.6-27B erstellt, die auf einem einzelnen RTX 3090 läuft. Die Benchmarks zeigen eine durchschnittliche 1.98-fache Leistung im Vergleich zu autoregressiven Methoden.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | NVIDIA RTX 3090 |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | Luce DFlash (GGUF) |
| Modell + Quant | Qwen3.6-27B Q4_K_M |
| Kontext-Länge | 256K (mit TQ3_0-KV-Cache) |
| tok/s (single) | 89.7 t/s (decode) / 913 t/s (prefill) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Luce DFlash erreicht eine durchschnittliche 1.98-fache Leistung im Vergleich zu autoregressiven Methoden auf Qwen3.6-27B. Die spekulativen Decoding-Methoden ermöglichen eine hohe Token-Generierungsgeschwindigkeit, insbesondere bei großen Kontexten.
Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung bei sehr großen Kontexten (über 256K) kann abnehmen, da der KV-Cache begrenzt ist. Die spekulativen Decoding-Methoden sind am effektivsten bei mittleren bis großen Kontexten.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Benutzer mit einem RTX 3090 und einem Bedarf an hochleistungsfähigen KI-Workloads geeignet. Die spekulativen Decoding-Methoden von Luce DFlash bieten eine signifikante Leistungssteigerung und sind leicht zu implementieren.
Weitere Beiträge (kurz):
– llama.cpp – NVFP4 native support on Blackwell from now – b8967 | img:https://external-preview.redd.it/nv0FdVvpIH63Ruuq0j4WF57dP7rfzlP1vVWZNT3UIwA.png?width=140&height=70&auto=webp&s=643fbc169959721d39714db304d46819e99c8b28 — keine Hardware belegt, kein nachbaubares Setup
– Abliterlitics: Benchmarks and Tensor Comparison for Heretic, Abliterlix, Huiui, HauhauCS for GLM 4.7 Flash — keine Hardware belegt, kein nachbaubares Setup
– Qwen 3.6 27B BF16 vs Q4_K_M vs Q8_0 GGUF evaluation | img:https://preview.redd.it/ncwdmp21bxxg1.jpeg?width=640&crop=smart&auto=webp&s=a5b4caef8b59ccd3aae4c95a42b00f9b14365e5e — keine Hardware belegt, kein nachbaubares Setup
– Local model on coding has reached a certain threshold to be feasible for real work | img:https://preview.redd.it/h9w2sla51zxg1.png?width=140&height=85&auto=webp&s=9234b5b08d504ec4c95d6b069d7003085bc2f903 — keine Hardware belegt, kein nachbaubares Setup
– Are OSS runnable model good now? — keine Hardware belegt, kein nachbaubares Setup
– Thinking to buy server chassis pcie 5.0 and 1x to 4x 3090 — keine Hardware belegt, kein nachbaubares Setup
– For the 5 people here running vLLM on multiple R9700s, you need to patch in support for AITER Unified Attention. | img:https://preview.redd.it/akh0wyumrrxg1.png?width=140&height=140&auto=webp&s=c5b94082f8c6075f4375ba4fdb4a45f468b55369 — keine Hardware belegt, kein nachbaubares Setup
– GBNF grammar tweak for faster Qwen3.6 35B-A3B and Qwen3.6 27B | img:https://preview.redd.it/sabbmqlu5rxg1.png?width=140&height=83&auto=webp&s=78165f9271dbc28053eb5a8f2b424936622c6e2f — keine Hardware belegt, kein nachbaubares Setup
– Turbo-OCR Update: Layout Model + Multilingual — keine Hardware belegt, kein nachbaubares Setup