Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von Nutzern geprägt, die ihre lokalen KI-Setups detailliert dokumentieren und benchmarken. Besonders hervorzuheben sind die Einträge, die sich mit der Performance von Qwen-3.6-35B auf RTX 5090 und der Vergleich von verschiedenen Modellen auf Mac-Setup konzentrieren. Diese Beiträge bieten konkrete Zahlen und Empfehlungen, die für Leser hilfreich sind, die ein nachbaubares Setup suchen.

[Qwen3.5-27B on RTX 5090 served via vLLM @ 77 tps] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Nutzer hat ein lokales KI-Setup mit einem RTX 5090 GPU und dem Modell Qwen3.5-27B aufgebaut. Er erreicht eine Geschwindigkeit von 77 tokens pro Sekunde (tps) und kann bis zu 218k Kontext löschen. Das Setup wird über vLLM 0.19 betrieben.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht eine sehr gute Geschwindigkeit von 77 tps und kann bis zu 218k Kontext löschen. Es ist in der Lage, 2 gleichzeitige Sitzungen zu verarbeiten, wobei die Geschwindigkeit pro Sitzung abnimmt. Das Modell Qwen3.5-27B ist gut für die meisten Anwendungsfälle geeignet.

Was NICHT funktioniert / Limits: Das Modell kann bei voller Kontextgröße von 256k nicht stabil laufen. Es gibt auch noch Optimierungspotenzial, da vLLM 0.17 bessere Ergebnisse bei voller Kontextgröße liefert, aber weniger Optimierungen hat.

Nachbau-Empfehlung: Dieses Setup ist sehr empfehlenswert für Nutzer mit einem RTX 5090 und einem Budget von ca. 1.000-1.500 EUR. Es bietet eine ausgezeichnete Balance zwischen Leistung und Kontextgröße. Für Nutzer mit höheren Anforderungen könnte eine Anpassung der vLLM-Version oder der Kontextgröße sinnvoll sein.

[MiniMax2.7 Local Results on Terminal Bench. Dud. Anyone using this for agent coding in Claude?] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Nutzer hat MiniMax-M2.7 (Q8_0, unsloth GGUF) auf einem Mac Studio M3 Ultra mit 512GB Unified Memory getestet. Er hat Terminal-Bench 2.0 durchgeführt und die Ergebnisse dokumentiert.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht eine durchschnittliche Lösungsrate von 41.3% bei 445 Trials. Es ist in der Lage, komplexe agente Aufgaben zu lösen, aber die Geschwindigkeit ist etwas langsamer als bei M2.5.

Was NICHT funktioniert / Limits: MiniMax-M2.7 erzielt schlechtere Ergebnisse als M2.5, insbesondere in Bezug auf die Anzahl der Timeouts. Die Lizenzsituation ist auch problematisch, was die Verwendung des Modells erschwert.

Nachbau-Empfehlung: Dieses Setup ist für Nutzer mit einem Mac Studio M3 Ultra und 512GB Unified Memory geeignet. Es ist jedoch zu beachten, dass M2.5 bessere Ergebnisse liefert und die Lizenzsituation von M2.7 noch geklärt werden muss.

[Capacity vs Speed trade-off: 1.1TB Mac Unified Memory vs. RTX 6000 Pros] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Nutzer vergleicht ein Mac-Cluster-Setup mit 1.1TB Unified Memory (vier 256GB Mac Studios und ein 96GB Mac Studio) mit dem Einsatz von RTX 6000 Pro-Karten. Er diskutiert die Vor- und Nachteile beider Optionen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Mac-Cluster-Setup ermöglicht es, große Modelle wie Kimi 2.6 und GLM 5.1 zu laufen. Es bietet eine hohe Kapazität und ist gut für komplexe agente Workflows geeignet.

Was NICHT funktioniert / Limits: Die RTX 6000 Pro-Karten bieten zwar eine höhere Geschwindigkeit, aber sie können die Kapazität des Mac-Clusters nicht erreichen. Die Modellgröße und die Komplexität der Aufgaben sind entscheidend für die Wahl der Hardware.

Nachbau-Empfehlung: Dieses Setup ist für Nutzer mit hohen Anforderungen an Modellgröße und Kapazität geeignet. Für Nutzer, die eine höhere Geschwindigkeit benötigen, könnten RTX 6000 Pro-Karten eine Alternative sein, aber sie erfordern mehrere Karten, um die Kapazität zu erreichen.

Weitere Beiträge (kurz):

👁 6 Aufrufe 👤 5 Leser