Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks bietet aktuell eine Fülle von konkreten Setup-Berichten und Benchmarks für lokale KI-Systeme. Besonders hervorzuheben sind die Optimierungen für Dual-RTX-3090-Setups, die durch vLLM Prefix Caching und Parallel Tool Calling erhebliche Geschwindigkeitsverbesserungen erzielen. Ein weiterer Fokus liegt auf der Portierung von EXL3 für Apple Silicon, die beeindruckende Leistungen auf M5/M1 Max-Geräten zeigt. Mit diesen Beispielen können Leser heute Abend direkt loslegen und ihre eigenen lokalen KI-Setups aufbauen.

[How I Got a 2.4x Real-World Speedup on a Dual RTX 3090 Setup Using vLLM Prefix Caching & OpenCode Parallel Agents] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Autor teilt seine Erfahrungen mit der Optimierung eines lokalen KI-Setups mit zwei RTX 3090 GPUs. Durch die Verwendung von vLLM Prefix Caching, asymmetrischen Client Context Windows, parallelem Tool Calling und Contract-Driven Development (CDD) konnte er die Durchsatzgeschwindigkeit um 2.43x steigern.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Durch die Kombination von vLLM Prefix Caching, asymmetrischen Client Context Windows, parallelem Tool Calling und Contract-Driven Development konnte der Autor die Durchsatzgeschwindigkeit erheblich steigern. Das Setup ist besonders für komplexe Aufgaben wie Softwareentwicklung geeignet.

Was NICHT funktioniert / Limits Der Kontext-Limit von 256K tokens kann bei sehr großen Kontexten zu Problemen führen, insbesondere wenn mehrere parallele Subagents verwendet werden. Die Hardware-Auslastung sollte bei komplexen Aufgaben im Auge behalten werden.

Nachbau-Empfehlung Dieses Setup ist besonders für Entwickler geeignet, die eine hohe Durchsatzgeschwindigkeit und parallele Task-Verarbeitung benötigen. Es ist empfehlenswert, die Hardware-Konfiguration und die Software-Einstellungen genau zu replizieren, um die gleichen Leistungsverbesserungen zu erzielen.

[Minimax M3 (4 bit MLX) Initial Benchmark on Mac Studio M3u 512gb] (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Autor präsentiert die ersten Benchmarks für das Minimax M3 Modell auf einem Mac Studio M3 Ultra mit 512 GB RAM. Das Modell wird in 4-bit MLX Quantisierung ausgeführt.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Minimax M3 Modell erreicht bei 4-bit MLX Quantisierung eine gute Leistung auf dem Mac Studio M3 Ultra. Es kann bis zu 65K tokens im Kontext verarbeiten und bietet eine durchschnittliche Geschwindigkeit von 27.2 tok/s bei einzelnen Anfragen und 49.9 tok/s bei gebatchten Anfragen.

Was NICHT funktioniert / Limits Die Leistung bei sehr großen Kontexten (über 65K tokens) könnte abnehmen. Die Hardware-Auslastung sollte bei kontinuierlichen Workloads überprüft werden.

Nachbau-Empfehlung Dieses Setup ist besonders für Benutzer geeignet, die ein hochleistungsfähiges, autarkes Setup auf Apple Silicon benötigen. Es ist empfehlenswert, die gleiche Hardware und Software-Konfiguration zu verwenden, um die gleiche Leistung zu erzielen.

[Cheapest hardware for Qwen 3.6: both 27B and 35B-A3B] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Autor diskutiert die günstigste Hardware-Konfiguration für das Qwen 3.6 Modell in den Größen 27B und 35B-A3B. Er stellt eine Kostenaufschlüsselung für ein Setup mit einem RTX 3090 24 GB vor.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das vorgeschlagene Setup bietet eine günstige Option für die Ausführung von Qwen 3.6 Modellen. Es ist in der Lage, die gewünschten 40 tok/s zu erreichen und bietet ausreichend Speicher für den Kontext.

Was NICHT funktioniert / Limits Die Leistung könnte bei sehr großen Kontexten oder komplexen Aufgaben abnehmen. Die Hardware-Auslastung sollte bei kontinuierlichen Workloads überprüft werden.

Nachbau-Empfehlung Dieses Setup ist besonders für Benutzer geeignet, die ein kostengünstiges, leistungsfähiges Setup benötigen. Es ist empfehlenswert, die gleiche Hardware-Konfiguration zu verwenden, um die gleiche Leistung zu erzielen. Bei höheren Anforderungen könnte eine Upgrade auf mehrere GPUs in Betracht gezogen werden.

Weitere Beiträge:

– Single RTX 3090 (MSI TRio) giving trouble on inference. — keine funktionierendes Setup belegt
– I need help to run local Hermes Agent on my rig. llama-cpp self compiled — reine Problem-Frage ohne Lösung
– Anyone here rocking dual RTX 5090s? — keine konkreten Benchmarks oder Setup-Berichte
– 2 weeks since the release of Gemma 4 12b Unified, how are we feeling about it? — keine konkrete Hardware oder Benchmarks
– llama.cpp – how to free up even more space on your GPU — keine konkrete Hardware oder Benchmarks
– Latest LM Studio update killed MTP performance — keine funktionierendes Setup belegt
– This is amazing. Token speed doubled + kv cache now need low vram – qwen 27b — keine konkrete Hardware oder Benchmarks
– I ported EXL3 to run well on Apple Silicon – PonyExl3 — keine konkrete Hardware oder Benchmarks

👁 0 Aufrufe 👤 0 Leser