Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build-Berichten und Benchmarks geprägt. Benutzer dokumentieren ihre lokalen KI-Setups, oft mit detaillierten tok/s-Zahlen, Modell-Varianten und echten Erfahrungen aus mehreren Wochen Betrieb. In dieser Woche sind insbesondere die Einträge zu Qwen 3.6 27B und 35B, sowie die Optimierung von 3090- und 5090-GPU-Setups besonders belegt. Leser können heute Abend mit konkreten Anleitungen und Benchmarks beginnen, um ihre eigenen lokalen KI-Setups zu verbessern.

[Luce DFlash + PFlash on AMD Strix Halo: Qwen3.6-27B at 2.23x decode and 3.05x prefill vs llama.cpp HIP] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat DFlash und PFlash für das AMD Ryzen AI MAX+ 395 (Radeon 8060S iGPU) implementiert, um Qwen3.6-27B Q4_K_M zu laufen. Die Performance ist erheblich besser als bei llama.cpp HIP, insbesondere bei der Decode- und Prefill-Geschwindigkeit.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht eine Decode-Geschwindigkeit von 26.85 tok/s und eine Prefill-Geschwindigkeit von 20.2 Sekunden bei 16K Kontext. Die Gesamtlaufzeit für eine 16K-Prompt + 1K-Generierung-Aufgabe beträgt 58 Sekunden, was 2.5x schneller ist als bei llama.cpp HIP.

Was NICHT funktioniert / Limits: Das Setup ist spezifisch für AMD-GPU und kann nicht direkt auf NVIDIA-GPUs übertragen werden. Die Bandbreite des LPDDR5X-Speichers kann die Leistung beeinflussen, insbesondere bei höheren DDTREE-Budgets.

Nachbau-Empfehlung: Dieses Setup ist besonders für Benutzer geeignet, die AMD-GPUs verwenden und eine hohe Kontext-Länge benötigen. Die Implementierung von DFlash und PFlash kann die Performance erheblich verbessern. Für NVIDIA-GPU-Benutzer sind andere Optimierungen erforderlich.

[Qwen3.6 27b q5_k_M MTP – 256k context – 5090] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Benutzer hat Qwen3.6-27B Q5_K_M mit MTP (Multi-Threaded Parallelism) auf einer NVIDIA RTX 5090 laufen lassen und erreicht eine Kontext-Länge von 256k. Die Performance liegt bei 65-75 tok/s.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht eine hohe Kontext-Länge von 256k und eine gute Token-Geschwindigkeit von 65-75 tok/s. MTP verbessert die Performance erheblich, insbesondere bei langen Kontexten.

Was NICHT funktioniert / Limits: Die Performance kann bei sehr langen Kontexten (ab 200k) abnehmen. Die Verwendung von q8_0 für den KV-Cache ist notwendig, um die 256k Kontext-Länge zu erreichen, was zu einer geringeren Genauigkeit führen kann.

Nachbau-Empfehlung: Dieses Setup ist besonders für Benutzer geeignet, die eine hohe Kontext-Länge benötigen und eine NVIDIA RTX 5090 verwenden. Die Verwendung von MTP und q8_0 für den KV-Cache kann die Performance erheblich verbessern, aber es ist wichtig, die Trade-offs zu berücksichtigen.

[Blackwell LLM Toolkit – NVFP4 Config +Wheels + Benchmarks for Blackwell GPUs via TensorRT-LLM – 270 tk/s Nemotron 3 Omni] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat ein Toolkit für Blackwell-GPUs (RTX Pro 6000) entwickelt, um NVFP4-Quantisierung zu nutzen. Es enthält Konfigurationen, Benchmarks und Lösungen für gängige Probleme. Die Performance von Nemotron-3-Nano-Omni V3 (multimodal) liegt bei 270 tok/s bei 8k Kontext.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Toolkit ermöglicht die Nutzung von NVFP4-Quantisierung auf Blackwell-GPUs, was zu einer hohen Token-Geschwindigkeit von 270 tok/s bei 8k Kontext führt. Es unterstützt multimodale Modelle und bietet Lösungen für gängige Probleme wie LMCache-Offloading.

Was NICHT funktioniert / Limits: Die Performance kann bei sehr langen Kontexten abnehmen. Die Verwendung von NVFP4-Quantisierung erfordert spezifische Konfigurationen und kann bei anderen Modellen oder Kontext-Längen variiieren.

Nachbau-Empfehlung: Dieses Setup ist besonders für Benutzer geeignet, die Blackwell-GPUs (RTX Pro 6000) verwenden und eine hohe Token-Geschwindigkeit bei multimodalen Aufgaben benötigen. Die Verwendung des Blackwell LLM Toolkits und der NVFP4-Quantisierung kann die Performance erheblich verbessern.

[Drastically improve prompt processing speed for –n-cpu-moe partially offloaded models] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat herausgefunden, dass die Erhöhung der physikalischen Mikrobatch-Größe (ubatch) bei der Verwendung von llama.cpp auf einer NVIDIA RTX 3090 die Prompt-Verarbeitungsgeschwindigkeit erheblich verbessern kann. Bei einem ubatch von 8192 erreicht er eine Geschwindigkeit von 2090.68 tok/s bei der Prefill-Phase.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Die Erhöhung der ubatch-Größe von 512 auf 8192 führt zu einer erheblichen Verbesserung der Prompt-Verarbeitungsgeschwindigkeit von 380 tok/s auf 2090.68 tok/s. Die Token-Generierungsgeschwindigkeit bleibt stabil bei etwa 30 tok/s.

Was NICHT funktioniert / Limits: Die Erhöhung der ubatch-Größe erfordert mehr GPU-Speicher, was dazu führen kann, dass mehr MoE-Layers auf die CPU ausgelagert werden müssen. Dies kann die Token-Generierungsgeschwindigkeit leicht reduzieren.

Nachbau-Empfehlung: Dieses Setup ist besonders für Benutzer geeignet, die eine hohe Prompt-Verarbeitungsgeschwindigkeit benötigen und eine NVIDIA RTX 3090 verwenden. Die Erhöhung der ubatch-Größe kann die Performance erheblich verbessern, aber es ist wichtig, die VRAM-Beschränkungen zu berücksichtigen.

[BeeLlama.cpp: advanced DFlash & TurboQuant with support of reasoning and vision. Qwen 3.6 27B Q5 with 200k context on 3090, 2-3x faster than baseline (peak 135 tps!)] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat eine neue llama.cpp-Fork (BeeLlama.cpp) entwickelt, die DFlash, TurboQuant und reasoning/vision-Unterstützung bietet. Das Setup erreicht eine Kontext-Länge von 200k und eine Token-Geschwindigkeit von bis zu 135 tok/s auf einer NVIDIA RTX 3090.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? BeeLlama.cpp kombiniert DFlash, TurboQuant und reasoning/vision-Unterstützung, um eine hohe Kontext-Länge von 200k und eine Token-Geschwindigkeit von bis zu 135 tok/s zu erreichen. Die Performance ist 2-3x schneller als bei der Baseline.

Was NICHT funktioniert / Limits: Die Verwendung von TurboQuant kann zu einer geringeren Genauigkeit führen, insbesondere bei sehr langen Kontexten. Die Implementierung erfordert spezifische Konfigurationen und kann bei anderen Modellen oder Kontext-Längen variiieren.

Nachbau-Empfehlung: Dieses Setup ist besonders für Benutzer geeignet, die eine hohe Kontext-Länge und eine schnelle Token-Geschwindigkeit benötigen und eine NVIDIA RTX 3090 verwenden. Die Verwendung von BeeLlama.cpp kann die Performance erheblich verbessern, aber es ist wichtig, die Trade-offs zu berücksichtigen.

Weitere Beiträge:

– Are harnesses like OpenClaw and Hermes really necessary? — keine Hardware belegt, kein nachbaubares Setup
– Thoughts on „production“ model setups — keine konkreten Zahlen, eher Diskussion
– Which inference engines are 5090 owners using? — keine konkreten Benchmarks, eher Frage
– PSA: Watch out for extra spaces in chat-template-kwargs when using Qwen3.6 with llama-server — keine Hardware belegt, kein nachbaubares Setup
– am I running this llama-bench of Qwen3.6-27B on these V100s right? — keine konkreten Benchmarks, eher Frage
– [Homelab setup](https://old.reddit.com/r/LocalLLaMA/comments/1t8v

👁 4 Aufrufe 👤 3 Leser