Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist der Ort, an dem Community-User ihre lokalen KI-Setups dokumentieren und benchmarken. In dieser Woche sind besonders die Einträge zu Qwen3.5-27B auf RTX 5090 und die Vergleiche zwischen verschiedenen Mac Mini-Modellen hervorzuheben. Diese Beiträge bieten konkrete Zahlen und Erfahrungen, die für den Bau eines nachbaubaren und funktionsfähigen lokalen KI-Setups wertvoll sind.

[Qwen3.5-27B on RTX 5090 served via vLLM @ 77 tps] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer hat Qwen3.5-27B auf einem RTX 5090 eingerichtet und erreicht eine Geschwindigkeit von 77 Tokens pro Sekunde (tps). Das Setup kann 218k Kontextfenster verarbeiten und läuft stabil.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Das Setup erreicht eine Geschwindigkeit von 77 Tokens pro Sekunde und kann 218k Kontextfenster verarbeiten. Es läuft stabil und ist für die meisten Anwendungsfälle ausreichend. Die Verwendung von vLLM 0.19 und der Q8_0-Quantisierung sorgt für eine gute Leistung.

Was NICHT funktioniert / Limits (2-4 Sätze): Das Modell kann nicht das volle Kontextfenster von 256k erreichen, was bei einigen Aufgaben eine Einschränkung sein kann. Die Verwendung von vLLM 0.19 ist notwendig, da vLLM 0.17 die benötigten Optimierungen nicht enthält.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer mit einem Budget von ca. 1.000-1.500 EUR empfehlenswert, die eine hohe Leistung bei lokalen KI-Aufgaben benötigen. Die Verwendung von vLLM 0.19 und der Q8_0-Quantisierung ist entscheidend für die Stabilität und Leistung.

[Qwen3.5-27B, Qwen3.5-122B, and Qwen3.6-35B on 4x RTX 3090 — MoEs struggle with strict global rules] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer hat drei Qwen-Modelle (27B, 122B MoE, 35B MoE) auf 4x RTX 3090 getestet und die Leistung bei verschiedenen Workloads dokumentiert. Die Tests zeigen, dass die MoE-Modelle Schwierigkeiten haben, strenge globale Regeln einzuhalten.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Die dense-Modelle (27B) zeigen eine bessere Leistung bei der Einhaltung von strengen globalen Regeln. Die MoE-Modelle (122B und 35B) erreichen höhere Geschwindigkeiten, insbesondere bei mehreren parallelen Anfragen, aber haben Schwierigkeiten, Regeln einzuhalten.

Was NICHT funktioniert / Limits (2-4 Sätze): Die MoE-Modelle sind weniger zuverlässig bei der Einhaltung von strengen globalen Regeln, was bei agilen Workflows problematisch sein kann. Die Verwendung von FP8-Quantisierung bei den MoE-Modellen führt zu Instabilitäten.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer mit einem Budget von ca. 4.000-6.000 EUR empfehlenswert, die eine hohe Leistung bei parallelen Anfragen benötigen. Die Verwendung von dense-Modellen ist für Workflows mit strengen Regeln zu bevorzugen.

Weitere Beitraege (automatisch gefiltert):
– Qwen 3.5B is so impressive, it found multiple bugs claude opus 4.7 couldnt — keine konkreten Messwerte, keine nachbaubaren Daten

👁 0 Aufrufe 👤 0 Leser