Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build-Berichten und Benchmarks geprägt. Benutzer dokumentieren ihre lokalen KI-Setups, oft mit detaillierten tok/s-Zahlen, Modell-Varianten und echten Erfahrungen aus mehreren Wochen Betrieb. In dieser Woche sind insbesondere die Einträge zu Qwen 3.6 27B und 35B, sowie die Optimierung von 3090- und 5090-GPU-Setups besonders belegt. Leser können heute Abend mit konkreten Anleitungen und Benchmarks beginnen, um ihre eigenen lokalen KI-Setups zu verbessern.
[Luce DFlash + PFlash on AMD Strix Halo: Qwen3.6-27B at 2.23x decode and 3.05x prefill vs llama.cpp HIP] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer hat DFlash und PFlash für das AMD Ryzen AI MAX+ 395 (Radeon 8060S iGPU) implementiert, um Qwen3.6-27B Q4_K_M zu laufen. Die Performance ist erheblich besser als bei llama.cpp HIP, insbesondere bei der Decode- und Prefill-Geschwindigkeit.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | AMD Ryzen AI MAX+ 395, Radeon 8060S iGPU (128 GiB LPDDR5X-8000) |
| CPU / Mainboard | AMD Ryzen AI MAX+ 395 |
| RAM | 128 GB LPDDR5X-8000 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | Lucebox/Qwen3.6-27B-DFlash-GGUF Q8_0, ROCm 7.2.2 |
| Modell + Quant | Qwen3.6-27B Q4_K_M |
| Kontext-Laenge | 16K (16K prompt + 1K generation) |
| tok/s (single) | 26.85 tok/s decode, 20.2 s prefill |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Das Setup erreicht eine Decode-Geschwindigkeit von 26.85 tok/s und eine Prefill-Geschwindigkeit von 20.2 Sekunden bei 16K Kontext. Die Gesamtlaufzeit für eine 16K-Prompt + 1K-Generierung-Aufgabe beträgt 58 Sekunden, was 2.5x schneller ist als bei llama.cpp HIP.
Was NICHT funktioniert / Limits: Das Setup ist spezifisch für AMD-GPU und kann nicht direkt auf NVIDIA-GPUs übertragen werden. Die Bandbreite des LPDDR5X-Speichers kann die Leistung beeinflussen, insbesondere bei höheren DDTREE-Budgets.
Nachbau-Empfehlung: Dieses Setup ist besonders für Benutzer geeignet, die AMD-GPUs verwenden und eine hohe Kontext-Länge benötigen. Die Implementierung von DFlash und PFlash kann die Performance erheblich verbessern. Für NVIDIA-GPU-Benutzer sind andere Optimierungen erforderlich.
[Qwen3.6 27b q5_k_M MTP – 256k context – 5090] (7/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Benutzer hat Qwen3.6-27B Q5_K_M mit MTP (Multi-Threaded Parallelism) auf einer NVIDIA RTX 5090 laufen lassen und erreicht eine Kontext-Länge von 256k. Die Performance liegt bei 65-75 tok/s.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | NVIDIA RTX 5090 |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama-server-mtp, llama.cpp (PR #22673) |
| Modell + Quant | Qwen3.6-27B Q5_K_M |
| Kontext-Laenge | 256k |
| tok/s (single) | 65-75 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? Das Setup erreicht eine hohe Kontext-Länge von 256k und eine gute Token-Geschwindigkeit von 65-75 tok/s. MTP verbessert die Performance erheblich, insbesondere bei langen Kontexten.
Was NICHT funktioniert / Limits: Die Performance kann bei sehr langen Kontexten (ab 200k) abnehmen. Die Verwendung von q8_0 für den KV-Cache ist notwendig, um die 256k Kontext-Länge zu erreichen, was zu einer geringeren Genauigkeit führen kann.
Nachbau-Empfehlung: Dieses Setup ist besonders für Benutzer geeignet, die eine hohe Kontext-Länge benötigen und eine NVIDIA RTX 5090 verwenden. Die Verwendung von MTP und q8_0 für den KV-Cache kann die Performance erheblich verbessern, aber es ist wichtig, die Trade-offs zu berücksichtigen.
[Blackwell LLM Toolkit – NVFP4 Config +Wheels + Benchmarks for Blackwell GPUs via TensorRT-LLM – 270 tk/s Nemotron 3 Omni] (9/10) — OpenCode-Fit: JA
Worum es geht: Der Benutzer hat ein Toolkit für Blackwell-GPUs (RTX Pro 6000) entwickelt, um NVFP4-Quantisierung zu nutzen. Es enthält Konfigurationen, Benchmarks und Lösungen für gängige Probleme. Die Performance von Nemotron-3-Nano-Omni V3 (multimodal) liegt bei 270 tok/s bei 8k Kontext.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | NVIDIA RTX Pro 6000 96GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | TensorRT-LLM v1.3.0rc13, Blackwell LLM Toolkit |
| Modell + Quant | Nemotron-3-Nano-Omni V3 (multimodal) NVFP4 |
| Kontext-Laenge | 8k |
| tok/s (single) | 270 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Das Toolkit ermöglicht die Nutzung von NVFP4-Quantisierung auf Blackwell-GPUs, was zu einer hohen Token-Geschwindigkeit von 270 tok/s bei 8k Kontext führt. Es unterstützt multimodale Modelle und bietet Lösungen für gängige Probleme wie LMCache-Offloading.
Was NICHT funktioniert / Limits: Die Performance kann bei sehr langen Kontexten abnehmen. Die Verwendung von NVFP4-Quantisierung erfordert spezifische Konfigurationen und kann bei anderen Modellen oder Kontext-Längen variiieren.
Nachbau-Empfehlung: Dieses Setup ist besonders für Benutzer geeignet, die Blackwell-GPUs (RTX Pro 6000) verwenden und eine hohe Token-Geschwindigkeit bei multimodalen Aufgaben benötigen. Die Verwendung des Blackwell LLM Toolkits und der NVFP4-Quantisierung kann die Performance erheblich verbessern.
[Drastically improve prompt processing speed for –n-cpu-moe partially offloaded models] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer hat herausgefunden, dass die Erhöhung der physikalischen Mikrobatch-Größe (ubatch) bei der Verwendung von llama.cpp auf einer NVIDIA RTX 3090 die Prompt-Verarbeitungsgeschwindigkeit erheblich verbessern kann. Bei einem ubatch von 8192 erreicht er eine Geschwindigkeit von 2090.68 tok/s bei der Prefill-Phase.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | NVIDIA RTX 3090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp |
| Modell + Quant | gpt-oss-120b-F16.gguf |
| Kontext-Laenge | 8k |
| tok/s (single) | 2090.68 tok/s (prefill), 30.1 tok/s (generation) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Die Erhöhung der ubatch-Größe von 512 auf 8192 führt zu einer erheblichen Verbesserung der Prompt-Verarbeitungsgeschwindigkeit von 380 tok/s auf 2090.68 tok/s. Die Token-Generierungsgeschwindigkeit bleibt stabil bei etwa 30 tok/s.
Was NICHT funktioniert / Limits: Die Erhöhung der ubatch-Größe erfordert mehr GPU-Speicher, was dazu führen kann, dass mehr MoE-Layers auf die CPU ausgelagert werden müssen. Dies kann die Token-Generierungsgeschwindigkeit leicht reduzieren.
Nachbau-Empfehlung: Dieses Setup ist besonders für Benutzer geeignet, die eine hohe Prompt-Verarbeitungsgeschwindigkeit benötigen und eine NVIDIA RTX 3090 verwenden. Die Erhöhung der ubatch-Größe kann die Performance erheblich verbessern, aber es ist wichtig, die VRAM-Beschränkungen zu berücksichtigen.
[BeeLlama.cpp: advanced DFlash & TurboQuant with support of reasoning and vision. Qwen 3.6 27B Q5 with 200k context on 3090, 2-3x faster than baseline (peak 135 tps!)] (9/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer hat eine neue llama.cpp-Fork (BeeLlama.cpp) entwickelt, die DFlash, TurboQuant und reasoning/vision-Unterstützung bietet. Das Setup erreicht eine Kontext-Länge von 200k und eine Token-Geschwindigkeit von bis zu 135 tok/s auf einer NVIDIA RTX 3090.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | NVIDIA RTX 3090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | BeeLlama.cpp |
| Modell + Quant | Qwen 3.6 27B Q5 |
| Kontext-Laenge | 200k |
| tok/s (single) | 135 tok/s (peak) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? BeeLlama.cpp kombiniert DFlash, TurboQuant und reasoning/vision-Unterstützung, um eine hohe Kontext-Länge von 200k und eine Token-Geschwindigkeit von bis zu 135 tok/s zu erreichen. Die Performance ist 2-3x schneller als bei der Baseline.
Was NICHT funktioniert / Limits: Die Verwendung von TurboQuant kann zu einer geringeren Genauigkeit führen, insbesondere bei sehr langen Kontexten. Die Implementierung erfordert spezifische Konfigurationen und kann bei anderen Modellen oder Kontext-Längen variiieren.
Nachbau-Empfehlung: Dieses Setup ist besonders für Benutzer geeignet, die eine hohe Kontext-Länge und eine schnelle Token-Geschwindigkeit benötigen und eine NVIDIA RTX 3090 verwenden. Die Verwendung von BeeLlama.cpp kann die Performance erheblich verbessern, aber es ist wichtig, die Trade-offs zu berücksichtigen.
Weitere Beiträge:
– Are harnesses like OpenClaw and Hermes really necessary? — keine Hardware belegt, kein nachbaubares Setup
– Thoughts on „production“ model setups — keine konkreten Zahlen, eher Diskussion
– Which inference engines are 5090 owners using? — keine konkreten Benchmarks, eher Frage
– PSA: Watch out for extra spaces in chat-template-kwargs when using Qwen3.6 with llama-server — keine Hardware belegt, kein nachbaubares Setup
– am I running this llama-bench of Qwen3.6-27B on these V100s right? — keine konkreten Benchmarks, eher Frage
– [Homelab setup](https://old.reddit.com/r/LocalLLaMA/comments/1t8v