Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks bietet aktuell eine Fülle von konkreten Setup-Berichten und Benchmarks für lokale KI-Systeme. Besonders hervorzuheben sind die Optimierungen für Dual-RTX-3090-Setups, die durch vLLM Prefix Caching und Parallel Tool Calling erhebliche Geschwindigkeitsverbesserungen erzielen. Ein weiterer Fokus liegt auf der Portierung von EXL3 für Apple Silicon, die beeindruckende Leistungen auf M5/M1 Max-Geräten zeigt. Mit diesen Beispielen können Leser heute Abend direkt loslegen und ihre eigenen lokalen KI-Setups aufbauen.

[How I Got a 2.4x Real-World Speedup on a Dual RTX 3090 Setup Using vLLM Prefix Caching & OpenCode Parallel Agents] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Autor teilt seine Erfahrungen mit der Optimierung eines lokalen KI-Setups mit zwei RTX 3090 GPUs. Durch die Verwendung von vLLM Prefix Caching, asymmetrischen Client Context Windows, parallelem Tool Calling und Contract-Driven Development (CDD) konnte er die Durchsatzgeschwindigkeit um 2.43x steigern.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 2x RTX 3090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM, OpenCode/Kilo Code |
| Modell + Quant | llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved-GPTQ-Int4 (Qwen3.6-27b, GPTQ Int4) |
| Kontext-Laenge | 256K tokens |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | 2.43x speedup bei 5 coding subagents |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Durch die Kombination von vLLM Prefix Caching, asymmetrischen Client Context Windows, parallelem Tool Calling und Contract-Driven Development konnte der Autor die Durchsatzgeschwindigkeit erheblich steigern. Das Setup ist besonders für komplexe Aufgaben wie Softwareentwicklung geeignet.

Was NICHT funktioniert / Limits Der Kontext-Limit von 256K tokens kann bei sehr großen Kontexten zu Problemen führen, insbesondere wenn mehrere parallele Subagents verwendet werden. Die Hardware-Auslastung sollte bei komplexen Aufgaben im Auge behalten werden.

Nachbau-Empfehlung Dieses Setup ist besonders für Entwickler geeignet, die eine hohe Durchsatzgeschwindigkeit und parallele Task-Verarbeitung benötigen. Es ist empfehlenswert, die Hardware-Konfiguration und die Software-Einstellungen genau zu replizieren, um die gleichen Leistungsverbesserungen zu erzielen.


[Minimax M3 (4 bit MLX) Initial Benchmark on Mac Studio M3u 512gb] (7/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Autor präsentiert die ersten Benchmarks für das Minimax M3 Modell auf einem Mac Studio M3 Ultra mit 512 GB RAM. Das Modell wird in 4-bit MLX Quantisierung ausgeführt.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | Apple M3 Ultra 512 GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 512 GB |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | MLX 0.20 |
| Modell + Quant | Minimax M3, 4-bit MLX |
| Kontext-Laenge | 65K tokens |
| tok/s (single) | 27.2 tok/s (pp1024/tg128) |
| tok/s (batched) | 49.9 tok/s (4x batched) |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Das Minimax M3 Modell erreicht bei 4-bit MLX Quantisierung eine gute Leistung auf dem Mac Studio M3 Ultra. Es kann bis zu 65K tokens im Kontext verarbeiten und bietet eine durchschnittliche Geschwindigkeit von 27.2 tok/s bei einzelnen Anfragen und 49.9 tok/s bei gebatchten Anfragen.

Was NICHT funktioniert / Limits Die Leistung bei sehr großen Kontexten (über 65K tokens) könnte abnehmen. Die Hardware-Auslastung sollte bei kontinuierlichen Workloads überprüft werden.

Nachbau-Empfehlung Dieses Setup ist besonders für Benutzer geeignet, die ein hochleistungsfähiges, autarkes Setup auf Apple Silicon benötigen. Es ist empfehlenswert, die gleiche Hardware und Software-Konfiguration zu verwenden, um die gleiche Leistung zu erzielen.


[Cheapest hardware for Qwen 3.6: both 27B and 35B-A3B] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht: Der Autor diskutiert die günstigste Hardware-Konfiguration für das Qwen 3.6 Modell in den Größen 27B und 35B-A3B. Er stellt eine Kostenaufschlüsselung für ein Setup mit einem RTX 3090 24 GB vor.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3090 24GB |
| CPU / Mainboard | Ryzen 5 5600X, ASUS TUF X570-PLUS |
| RAM | 32 GB DDR4 |
| PSU | Great Wall 1650W 80+ Gold |
| Chassis / Kuehlung | Phanteks PK620 Full Tower |
| Framework + Version | nicht im Post belegt |
| Modell + Quant | Qwen 3.6 27B, Qwen 3.6 35B-A3B |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | 40 tok/s (Ziel) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | $1,995.65 |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? Das vorgeschlagene Setup bietet eine günstige Option für die Ausführung von Qwen 3.6 Modellen. Es ist in der Lage, die gewünschten 40 tok/s zu erreichen und bietet ausreichend Speicher für den Kontext.

Was NICHT funktioniert / Limits Die Leistung könnte bei sehr großen Kontexten oder komplexen Aufgaben abnehmen. Die Hardware-Auslastung sollte bei kontinuierlichen Workloads überprüft werden.

Nachbau-Empfehlung Dieses Setup ist besonders für Benutzer geeignet, die ein kostengünstiges, leistungsfähiges Setup benötigen. Es ist empfehlenswert, die gleiche Hardware-Konfiguration zu verwenden, um die gleiche Leistung zu erzielen. Bei höheren Anforderungen könnte eine Upgrade auf mehrere GPUs in Betracht gezogen werden.


Weitere Beiträge:

Single RTX 3090 (MSI TRio) giving trouble on inference. — keine funktionierendes Setup belegt
I need help to run local Hermes Agent on my rig. llama-cpp self compiled — reine Problem-Frage ohne Lösung
Anyone here rocking dual RTX 5090s? — keine konkreten Benchmarks oder Setup-Berichte
2 weeks since the release of Gemma 4 12b Unified, how are we feeling about it? — keine konkrete Hardware oder Benchmarks
llama.cpp – how to free up even more space on your GPU — keine konkrete Hardware oder Benchmarks
Latest LM Studio update killed MTP performance — keine funktionierendes Setup belegt
This is amazing. Token speed doubled + kv cache now need low vram – qwen 27b — keine konkrete Hardware oder Benchmarks
I ported EXL3 to run well on Apple Silicon – PonyExl3 — keine konkrete Hardware oder Benchmarks

👁 0 Aufrufe 👤 0 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert