Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für echte, funktionierende lokale KI-Setups. In dieser Woche sind insbesondere die Einträge zu Qwen 3.6 35B, Gemma 4 und MiniMax 2.7 besonders belegt. Diese Beiträge bieten konkrete Hardware- und Software-Konfigurationen, die für den Betrieb von lokalen KI-Modellen geeignet sind. Ein Leser kann heute Abend mit einem der hier vorgestellten Setups beginnen, um ein eigenes lokales KI-Setup aufzubauen.

[Qwen3.5-27B on RTX 5090 served via vLLM @ 77 tps] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Qwen3.5-27B auf einem RTX 5090 mit 24 GB VRAM eingerichtet und erreicht 77 Tokens pro Sekunde (tps) bei einem Kontextfenster von 218k Tokens. Er verwendet vLLM 0.19 und hat einige spezifische Konfigurationen angewendet, um die Leistung zu optimieren.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Qwen3.5-27B läuft stabil auf einem RTX 5090 mit 24 GB VRAM und erreicht 77 Tokens pro Sekunde bei einem Kontextfenster von 218k Tokens. Die Konfiguration ermöglicht auch das parallele Betreiben von zwei Sitzungen, wobei die Geschwindigkeit pro Sitzung entsprechend sinkt.

Was NICHT funktioniert / Limits Das Modell kann bei vLLM 0.19 nicht das vollständige Kontextfenster von 256k Tokens nutzen. Es gibt auch keine Informationen über den Stromverbrauch oder die Kosten des Setups.

Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem RTX 5090 und 32 GB RAM geeignet. Es bietet eine ausgezeichnete Leistung für den Betrieb von Qwen3.5-27B und ist für den privaten Einsatz geeignet. Für Benutzer mit höherem Budget könnten zusätzliche GPU- und RAM-Kapazitäten die Leistung weiter verbessern.

[Are we at the point where local AI isn’t a compromise anymore? (Gemma 4 experience)] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Benutzer hat Gemma 4 (26B MoE) auf einem RTX 3090 getestet und ist der Meinung, dass lokale KI-Modelle inzwischen eine echte Alternative zu Cloud-Modellen sein können. Er erreicht 80-110 Tokens pro Sekunde bei einem großen Kontextfenster, aber es gibt noch einige Probleme wie Tool-Loops und Kontext-Reliabilität.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Gemma 4 (26B MoE) läuft stabil auf einem RTX 3090 mit 24 GB VRAM und erreicht 80-110 Tokens pro Sekunde bei einem großen Kontextfenster. Das Modell bietet gute Leistung und ist für viele Aufgaben geeignet.

Was NICHT funktioniert / Limits Es gibt Probleme mit Tool-Loops in Agent-Setups, Kontext-Reliabilität und einigen Inference-Bugs. Die Leistung kann je nach Konfiguration stark variieren.

Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem RTX 3090 und 24 GB VRAM geeignet. Es bietet eine gute Leistung für den Betrieb von Gemma 4, aber es gibt noch einige Einschränkungen, die berücksichtigt werden müssen. Für Benutzer mit höherem Budget könnten zusätzliche GPU- und RAM-Kapazitäten die Leistung weiter verbessern.

Weitere Beiträge

Weitere Beitraege (automatisch gefiltert):
– Qwen 3.5B is so impressive, it found multiple bugs claude opus 4.7 couldnt — keine konkreten Messwerte, keine nachbaubaren Daten

👁 0 Aufrufe 👤 0 Leser