Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für echte, funktionierende lokale KI-Setups. In dieser Woche sind insbesondere die Einträge zu Qwen-3.5-27B auf RTX 5090 und die Vergleiche zwischen verschiedenen Modellen auf Apple Silicon besonders belegt. Leser können heute Abend mit konkreten Beispielen und Zahlen beginnen, ihre eigenen lokalen KI-Setups zu planen und zu optimieren.

[Qwen3.5-27B on RTX 5090 served via vLLM @ 77 tps] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Qwen3.5-27B auf einem RTX 5090 GPU mit 24 GB VRAM installiert und erreicht 77 tokens pro Sekunde (tps). Das Setup verwendet vLLM 0.19 und kann 218k Kontextfenster verarbeiten.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht 77 tokens pro Sekunde, was für die meisten Anwendungen ausreichend ist. Es kann 218k Kontextfenster verarbeiten, was für die meisten Aufgaben reicht. Die Verwendung von vLLM 0.19 optimiert die Leistung und ermöglicht die parallele Verarbeitung von zwei Sitzungen.

Was NICHT funktioniert / Limits: Das Modell kann bei 256k Kontextfenster nicht stabil laufen. Es gibt auch keine Informationen über den Stromverbrauch oder die Kosten des Setups.

Nachbau-Empfehlung: Dieses Setup ist eine ausgezeichnete Wahl für Benutzer mit einem RTX 5090 und 24 GB VRAM. Es bietet eine gute Balance zwischen Leistung und Kontextgröße. Für Benutzer mit höheren Anforderungen oder mehr VRAM könnte ein Upgrade auf 32 GB VRAM sinnvoll sein.

[Qwen3.5-27B, Qwen3.5-122B, and Qwen3.6-35B on 4x RTX 3090 — MoEs struggle with strict global rules] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Benutzer hat drei Qwen-Modelle (27B, 122B, 35B) auf 4x RTX 3090 GPUs getestet. Die Tests zeigen, dass die MoE-Modelle (122B und 35B) bei strengen globalen Regeln schlechter abschneiden als das dichte 27B-Modell.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das dichte Qwen3.5-27B-Modell zeigt bessere Leistungen bei strengen globalen Regeln. Es kann 262k Kontextfenster verarbeiten und erreicht eine gute Leistung bei 250W Leistungsaufnahme.

Was NICHT funktioniert / Limits: Die MoE-Modelle (122B und 35B) haben Schwierigkeiten, strengere Regeln einzuhalten, was ihre Eignung für bestimmte Anwendungen einschränkt. Es gibt auch keine genauen Zahlen zur Token-Generierung bei paralleler Verarbeitung.

Nachbau-Empfehlung: Für Benutzer, die strenge Regeln und hohe Kontextgrößen benötigen, ist das dichte Qwen3.5-27B-Modell die bessere Wahl. MoE-Modelle sind für weniger strenge Anwendungen geeignet, aber die Regelfolge muss sorgfältig überwacht werden.

[MiniMax2.7 Local Results on Terminal Bench. Dud. Anyone using this for agent coding in Claude?] (6/10) — OpenCode-Fit: NEIN

Zum Original

Worum es geht: Der Benutzer hat MiniMax2.7 (Q8_0, unsloth GGUF) auf einem Mac Studio M3 Ultra mit 512 GB Unified Memory getestet. Die Ergebnisse zeigen, dass MiniMax2.7 bei Terminal-Bench 2.0 schlechter abschneidet als MiniMax2.5.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? MiniMax2.7 erreicht 10-17 tokens pro Sekunde, was für einfache Aufgaben ausreichend sein kann. Es kann lokal auf einem Mac Studio M3 Ultra laufen.

Was NICHT funktioniert / Limits: MiniMax2.7 zeigt bei Terminal-Bench 2.0 schlechtere Ergebnisse als MiniMax2.5. Es gibt mehr Timeouts und die Leistung ist insgesamt langsamer. Die Lizenzsituation ist auch problematisch.

Nachbau-Empfehlung: Für Benutzer, die eine zuverlässige und leistungsfähige Lösung benötigen, ist MiniMax2.5 die bessere Wahl. MiniMax2.7 ist derzeit nicht empfehlenswert, insbesondere aufgrund der Lizenzprobleme und der geringeren Leistung.

Weitere Beitraege:

👁 0 Aufrufe 👤 0 Leser