Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fav

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von Nutzern geprägt, die ihre lokalen KI-Setups detailliert dokumentieren und benchmarken. Besonders hervorzuheben sind die Einträge, die sich mit der Performance von Qwen-3.6-35B auf RTX 5090 und der Vergleich von verschiedenen Modellen auf Mac-Setup konzentrieren. Diese Beiträge bieten konkrete Zahlen und Empfehlungen, die für Leser hilfreich sind, die ein nachbaubares Setup suchen.

[Qwen3.5-27B on RTX 5090 served via vLLM @ 77 tps] (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Nutzer hat ein lokales KI-Setup mit einem RTX 5090 GPU und dem Modell Qwen3.5-27B aufgebaut. Er erreicht eine Geschwindigkeit von 77 tokens pro Sekunde (tps) und kann bis zu 218k Kontext löschen. Das Setup wird über vLLM 0.19 betrieben.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 5090 32GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM 0.19“ |
| Modell + Quant | „Qwen3.5-27B Q4_K_P“ |
| Kontext-Laenge | „218k“ |
| tok/s (single) | „77 tps“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Das Setup erreicht eine sehr gute Geschwindigkeit von 77 tps und kann bis zu 218k Kontext löschen. Es ist in der Lage, 2 gleichzeitige Sitzungen zu verarbeiten, wobei die Geschwindigkeit pro Sitzung abnimmt. Das Modell Qwen3.5-27B ist gut für die meisten Anwendungsfälle geeignet.

Was NICHT funktioniert / Limits: Das Modell kann bei voller Kontextgröße von 256k nicht stabil laufen. Es gibt auch noch Optimierungspotenzial, da vLLM 0.17 bessere Ergebnisse bei voller Kontextgröße liefert, aber weniger Optimierungen hat.

Nachbau-Empfehlung: Dieses Setup ist sehr empfehlenswert für Nutzer mit einem RTX 5090 und einem Budget von ca. 1.000-1.500 EUR. Es bietet eine ausgezeichnete Balance zwischen Leistung und Kontextgröße. Für Nutzer mit höheren Anforderungen könnte eine Anpassung der vLLM-Version oder der Kontextgröße sinnvoll sein.


[MiniMax2.7 Local Results on Terminal Bench. Dud. Anyone using this for agent coding in Claude?] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht: Der Nutzer hat MiniMax-M2.7 (Q8_0, unsloth GGUF) auf einem Mac Studio M3 Ultra mit 512GB Unified Memory getestet. Er hat Terminal-Bench 2.0 durchgeführt und die Ergebnisse dokumentiert.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „Mac Studio M3 Ultra 512GB Unified Memory“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „512GB Unified Memory“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp build 8680, Metal GPU offload“ |
| Modell + Quant | „MiniMax-M2.7 Q8_0“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „10-17 tps“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Das Setup erreicht eine durchschnittliche Lösungsrate von 41.3% bei 445 Trials. Es ist in der Lage, komplexe agente Aufgaben zu lösen, aber die Geschwindigkeit ist etwas langsamer als bei M2.5.

Was NICHT funktioniert / Limits: MiniMax-M2.7 erzielt schlechtere Ergebnisse als M2.5, insbesondere in Bezug auf die Anzahl der Timeouts. Die Lizenzsituation ist auch problematisch, was die Verwendung des Modells erschwert.

Nachbau-Empfehlung: Dieses Setup ist für Nutzer mit einem Mac Studio M3 Ultra und 512GB Unified Memory geeignet. Es ist jedoch zu beachten, dass M2.5 bessere Ergebnisse liefert und die Lizenzsituation von M2.7 noch geklärt werden muss.


[Capacity vs Speed trade-off: 1.1TB Mac Unified Memory vs. RTX 6000 Pros] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht: Der Nutzer vergleicht ein Mac-Cluster-Setup mit 1.1TB Unified Memory (vier 256GB Mac Studios und ein 96GB Mac Studio) mit dem Einsatz von RTX 6000 Pro-Karten. Er diskutiert die Vor- und Nachteile beider Optionen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „4x Mac Studio 256GB + 1x Mac Studio 96GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „1.1TB Unified Memory“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „EXO, Tensor+RDMA“ |
| Modell + Quant | „Kimi 2.6, GLM 5.1“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |

Was funktioniert konkret? Das Mac-Cluster-Setup ermöglicht es, große Modelle wie Kimi 2.6 und GLM 5.1 zu laufen. Es bietet eine hohe Kapazität und ist gut für komplexe agente Workflows geeignet.

Was NICHT funktioniert / Limits: Die RTX 6000 Pro-Karten bieten zwar eine höhere Geschwindigkeit, aber sie können die Kapazität des Mac-Clusters nicht erreichen. Die Modellgröße und die Komplexität der Aufgaben sind entscheidend für die Wahl der Hardware.

Nachbau-Empfehlung: Dieses Setup ist für Nutzer mit hohen Anforderungen an Modellgröße und Kapazität geeignet. Für Nutzer, die eine höhere Geschwindigkeit benötigen, könnten RTX 6000 Pro-Karten eine Alternative sein, aber sie erfordern mehrere Karten, um die Kapazität zu erreichen.


Weitere Beiträge (kurz):

Best open source AI model (that can run on RTX 4090 24GB + 64GB system RAM, AMD Ryzen 9 7950X is the CPU that I use) that outpeforms GPT-5.4 mini, GPT-5.2 Thinking and even Claude Sonnet 3 (the 2024 model)? — keine Hardware belegt, kein nachbaubares Setup
Can someone point me to an uncensored local llm that can run on a 5090? — keine Hardware belegt, kein nachbaubares Setup
Optimizing Qwen 3.6 35B A3B sampling parameters. — keine Hardware belegt, kein nachbaubares Setup
eGPU vs system RAM — keine Hardware belegt, kein nachbaubares Setup
Brand new dual 3090 PC – what should I install first for the best local agentic coding experience? — keine Hardware belegt, kein nachbaubares Setup
Are we at the point where local AI isn’t a compromise anymore? (Gemma 4 experience) — keine Hardware belegt, kein nachbaubares Setup
Choosing a Mac Mini for local LLMs — what would YOU actually buy? — keine Hardware belegt, kein nachbaubares Setup
Completely lost with AI instructions for RTX 4090 and 32 GB RAM — keine Hardware belegt, kein nachbaubares Setup

👁 6 Aufrufe 👤 5 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert