Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von Benutzern geprägt, die ihre lokalen KI-Setups dokumentieren und benchmarken. Besonders hervorzuheben sind die Erfahrungen mit Qwen 3.6 27B und 35B auf verschiedenen Hardware-Konfigurationen. Diese Modelle zeigen beeindruckende Leistungen in der Codierung und bei agenterischen Aufgaben, oft mit vergleichbaren oder sogar besseren Ergebnissen als teurere Cloud-Modelle. Ein Leser kann heute Abend mit einem Setup beginnen, das Qwen 3.6 27B auf einer RTX 5090 oder einem Mac Studio M3 Ultra nutzt.

[Qwen3.6 35B + the right coding scaffold got my local setup to 9/10 on real Go tasks] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer testet, ob eine Kombination von lokalen KI-Modellen und einem geeigneten Scaffold für Coding-Aufgaben effektiv ist. Er verwendet Qwen3.6 35B auf einer RTX 5090 und erreicht 9/10 korrekte Lösungen bei 10 realen Go-Aufgaben.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Das Setup erreicht 9/10 korrekte Lösungen bei realen Go-Aufgaben, was es zu einem sehr effektiven Tool für die Codierung macht. Die Kombination von Qwen3.6 35B und dem „little-coder“ Scaffold verbessert die Leistung erheblich im Vergleich zu früheren Versuchen.

Was NICHT funktioniert / Limits (2-4 Sätze): Einige Aufgaben, insbesondere solche mit komplexen SQLite-Operationen, scheitern gelegentlich. Die Leistung kann weiter verbessert werden, indem man die Modelle und das Scaffold weiter optimiert.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Entwickler mit einem Budget von 2.000-3.000 EUR sehr empfehlenswert. Es bietet eine ausgezeichnete Leistung für Codierungsaufgaben und kann leicht angepasst werden, um spezifische Bedürfnisse zu erfüllen.

[Qwen 3.6 27B is a BEAST] (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer teilt seine Erfahrungen mit Qwen 3.6 27B auf einer RTX 5090. Das Modell erreicht beeindruckende Leistungen in der Codierung und bei Datenverarbeitungsaufgaben, was ihn dazu bringt, seine Cloud-Abonnements zu kündigen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Qwen 3.6 27B erreicht hohe Token-Raten und ist in der Lage, komplexe Codierungsaufgaben zu lösen. Es ist besonders effektiv für Datenverarbeitung und Debugging.

Was NICHT funktioniert / Limits (2-4 Sätze): Das Modell kann bei sehr großen Kontexten (über 200k) langsamer werden. Die Leistung kann durch Optimierungen wie spekulativen Decoding weiter verbessert werden.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Entwickler mit einem Budget von 2.500-3.500 EUR sehr empfehlenswert. Es bietet eine ausgezeichnete Leistung für Codierungsaufgaben und ist leicht zu skalieren.

[Qwen 3.6 is actually useful for vibe-coding, and way cheaper than Claude] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer beschreibt, wie er Qwen 3.6 35B und 27B auf einem Dual-3090-Rig für „vibe-coding“ nutzt. Das Setup ist kostengünstig und erreicht gute Ergebnisse bei einfachen bis mittelschweren Codierungsaufgaben.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Qwen 3.6 35B und 27B sind in der Lage, komplexe Codierungsaufgaben zu lösen und bieten eine gute Leistung bei einem niedrigen Betriebskosten. Das Setup ist kostengünstig im Vergleich zu Cloud-Modellen.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung kann bei sehr großen Kontexten (über 200k) langsamer werden. Die Modelle sind nicht so leistungsfähig wie die neuesten Cloud-Modelle, aber sie sind für den täglichen Einsatz ausreichend.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Entwickler mit einem Budget von 2.000-3.000 EUR sehr empfehlenswert. Es bietet eine gute Kosteneffizienz und ist leicht zu skalieren, um spezifische Bedürfnisse zu erfüllen.

Weitere Beiträge (kurz):

– [[Help] OpenClaw 4.12 + MLX-LM: Persistent „Auto-compaction failed“ on 128GB Mac Studio (Qwen 3.6-35B-A3B)](https://old.reddit.com/r/LocalLLaMA/comments/1stpdjb/help_openclaw_412_mlxlm_persistent_autocompaction/) — keine Hardware belegt, kein funktionierendes Setup
– Purchasing a Mac Studio M2 Max with 64gb of ram (can it run qwen 3.6 27b) how many tok/s ? — keine konkreten Zahlen, eher eine Frage
– What is the most capable model you can actually run on a single consumer GPU? — keine konkreten Zahlen, eher eine Diskussion
– Nvidia RTX 3090 vs Intel Arc Pro B70 llama.cpp Benchmarks — keine konkreten Zahlen, eher eine Benchmark-Diskussion
– Qwen3.6-27b builds a chat interface for Gemma-4-E4B (Text, Image, Audio) — keine konkreten Zahlen, eher eine Demonstrations-Post
– Tried Qwen3.6-27B-UD-Q6_K_XL.gguf with CloudeCode, well I can’t believe but it is usable — keine konkreten Zahlen, eher eine Demonstrations-Post
– Capacity vs Speed trade-off: 1.1TB Mac Unified Memory vs. RTX 6000 Pros — keine konkreten Zahlen, eher eine Diskussion
– Best open source AI model (that can run on RTX 4090 24GB + 64GB system RAM, AMD Ryzen 9 7950X is the CPU that I use) that outpeforms GPT-5.4 mini, GPT-5.2 Thinking and even Claude Sonnet 3 (the 2024 model)? — keine konkreten Zahlen, eher eine Frage

👁 0 Aufrufe 👤 0 Leser