Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine wertvolle Quelle für Community-User, die ihre lokalen KI-Setups dokumentieren. In dieser Woche sind besonders die Einträge zu Qwen3.6-27B und Gemma-4-31B hervorzuheben. Diese Modelle zeigen beeindruckende Leistungen bei lokaler Inferenz, oft mit hohen tok/s-Raten und großen Kontextlängen. Ein Leser kann heute Abend mit diesen Setups beginnen, um OpenCode-ähnliche Workloads lokal zu betreiben.

[Speculative decoding with Gemma-4-31B + Gemma-4-E2B enables 120 – 200 tok/s output speed for specific tasks] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat ein Setup mit einem RTX 5090 und verwendet Gemma-4-31B und Gemma-4-E2B für spekulativen Decoding. Dies ermöglicht Output-Geschwindigkeiten von 130-200 tok/s, was für lightweight LLM-Workflows wie Datenextraktion und Klassifizierung sehr effizient ist.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup liefert sehr hohe Output-Geschwindigkeiten von 130-200 tok/s, was für lightweight LLM-Workflows wie Datenextraktion und Klassifizierung ideal ist. Die Kontextlänge von 8K ist ausreichend für die meisten Aufgaben.

Was NICHT funktioniert / Limits: Das Setup ist spezialisiert auf lightweight Workflows und könnte bei komplexeren Aufgaben oder längeren Kontexten Grenzen haben. Die GPU-Last ist hoch, was die Autarkie im privaten Haushalt beeinträchtigen könnte.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem RTX 5090 und spezifischen Anforderungen an lightweight LLM-Workflows sehr empfehlenswert. Die hohen Geschwindigkeiten und die lokale Ausführung machen es attraktiv, insbesondere für Aufgaben, die keine sehr großen Kontexte benötigen.

[Qwen3.6-27B-INT4 clocking 100 tps with 256k context length on 1x RTX 5090 via vllm 0.19] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Qwen3.6-27B-INT4 auf einem RTX 5090 mit vLLM 0.19 eingerichtet und erreicht 100+ tps bei einer Kontextlänge von 256k. Dies ist besonders beeindruckend, da es die volle Kontextlänge des Modells nutzt.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht beeindruckende 105-108 tps bei einer Kontextlänge von 256k, was es ideal für komplexe Aufgaben macht. Die Verwendung von vLLM 0.19 und AutoRound-Quantisierung trägt zu dieser Leistung bei.

Was NICHT funktioniert / Limits: Die GPU-Last ist hoch, was die Autarkie im privaten Haushalt beeinträchtigen könnte. Die Stromverbrauchswerte und die genauen Hardware-Konfigurationen sind nicht im Post belegt.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem RTX 5090 und der Notwendigkeit, komplexe Aufgaben mit einer großen Kontextlänge zu lösen, sehr empfehlenswert. Die hohen Geschwindigkeiten und die volle Kontextlänge machen es zu einer starken Wahl.

[Qwen3.6-27B at ~80 tps with 218k context window on 1x RTX 5090 served by vllm 0.19] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Qwen3.6-27B auf einem RTX 5090 mit vLLM 0.19 eingerichtet und erreicht ~80 tps bei einer Kontextlänge von 218k. Dies ist eine gute Leistung für ein einzelnes GPU-Setup.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht stabile 80 tps bei einer Kontextlänge von 218k, was es ideal für komplexe Aufgaben macht. Die Verwendung von vLLM 0.19.1rc1 und der NVFP4-MTP-Quantisierung trägt zu dieser Leistung bei.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem RTX 5090 und der Notwendigkeit, komplexe Aufgaben mit einer großen Kontextlänge zu lösen, sehr empfehlenswert. Die hohen Geschwindigkeiten und die große Kontextlänge machen es zu einer starken Wahl.

Weitere Beiträge

– Best settings for gemma-4 on a 3090? — keine Hardware belegt, kein funktionierendes Setup
– Guide on building a system for 30B dense models. — keine konkreten Zahlen, eher allgemeine Empfehlungen
– What’s the consensus on superior local models for code generation? Is my setup competitive? — keine konkreten Zahlen, eher Diskussion
– Local LLaMA server GPU upgrade advice — keine konkreten Zahlen, eher Diskussion
– Qwen3.6 27B’s surprising KV cache quantization test results (Turbo3/4 vs F16 vs Q8 vs Q4) — keine konkreten Zahlen, eher Diskussion
– Takeaways & discussion about the DeepSeek V4 architecture — keine konkreten Zahlen, eher Diskussion
– Ollama swap to llamacpp/llama server — keine konkreten Zahlen, eher Diskussion
– Severe instability and looping issues with local LLMs (Qwen, Zen4, llama.cpp) — keine konkreten Zahlen, eher Problem-Beschreibung

👁 0 Aufrufe 👤 0 Leser