Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, funktionierende KI-Setups, die von Community-Usern dokumentiert werden. Diese Woche sind insbesondere die Einträge zu Qwen 3.6 27B und Gemma-4-31B in den Fokus gerückt. Benutzer teilen ihre Erfahrungen mit spezifischen GPU-Konfigurationen, Quantisierungsvarianten und Frameworks, um optimale Leistungen zu erzielen. Ein Leser kann heute Abend mit diesen Einträgen beginnen, um ein eigenes, nachbaubares Setup aufzubauen.

[Qwen 3.6 27B BF16 vs Q4_K_M vs Q8_0 GGUF evaluation] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer hat Qwen 3.6 27B in verschiedenen Quantisierungsvarianten (BF16, Q4_K_M, Q8_0) evaluiert. Die Benchmarks umfassen Code-Generierung, Commonsense-Reasoning und Function-Calling. Die Ergebnisse zeigen, dass Q4_K_M eine gute Balance zwischen Leistung und Effizienz bietet.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Q4_K_M bietet eine ausgezeichnete Leistung bei geringerem RAM-Verbrauch und kleinerem Modell-Size. Es erreicht fast die gleiche Function-Calling-Performance wie BF16, ist 1.45x schneller und verwendet 48% weniger RAM. Dies macht es zu einer praktischen Wahl für lokale Deployment-Szenarien.

Was NICHT funktioniert / Limits (2-4 Sätze): Q8_0 hat in dieser Evaluation unterperformt, insbesondere in Bezug auf RAM-Verbrauch und Geschwindigkeit. BF16 bleibt die beste Wahl für maximale Qualität, aber es erfordert mehr Ressourcen.

Nachbau-Empfehlung (2-4 Sätze): Q4_K_M wird empfohlen, insbesondere für Benutzer mit begrenzten Ressourcen. Es bietet eine gute Balance zwischen Leistung und Effizienz. Für Code-Generierungsaufgaben könnte BF16 trotzdem die bessere Wahl sein, wenn die zusätzlichen Ressourcen verfügbar sind.

[Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer stellt Luce DFlash vor, eine GGUF-Portierung des DFlash speculative decoding. Es ermöglicht das Laufen von Qwen3.6-27B auf einem einzelnen RTX 3090 und erreicht bis zu 2x die Durchsatzrate im Vergleich zu autoregressiven Methoden. Die Benchmarks zeigen signifikante Verbesserungen in verschiedenen Aufgaben.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Luce DFlash ermöglicht das Laufen von Qwen3.6-27B auf einem einzelnen RTX 3090 und erreicht bis zu 2x die Durchsatzrate im Vergleich zu autoregressiven Methoden. Es unterstützt 256K Kontext-Länge und bietet signifikante Verbesserungen in Aufgaben wie Code-Generierung und Mathematik.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Performance bei sehr langen Kontexten (über 60K) könnte weiter verbessert werden. Die Installation erfordert CUDA 12+ und spezifische Konfigurationen, was für Anfänger eine Herausforderung sein könnte.

Nachbau-Empfehlung (2-4 Sätze): Luce DFlash wird empfohlen, insbesondere für Benutzer mit einem einzelnen RTX 3090. Es bietet eine ausgezeichnete Leistung und ist einfach zu installieren. Für fortgeschrittene Benutzer könnte die Konfiguration von CUDA und anderen Abhängigkeiten eine zusätzliche Herausforderung darstellen.

[Speculative decoding with Gemma-4-31B + Gemma-4-E2B enables 120 – 200 tok/s output speed for specific tasks] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer teilt seine Erfahrungen mit dem Einsatz von Gemma-4-31B und Gemma-4-E2B für spezifische Aufgaben wie Datenextraktion und Klassifizierung. Die Verwendung von speculative decoding ermöglicht Output-Geschwindigkeiten von 120-200 tok/s, was für die Qualität und Leistung sehr gut ist.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Die Verwendung von Gemma-4-31B und Gemma-4-E2B mit speculative decoding ermöglicht Output-Geschwindigkeiten von 130-200 tok/s, was für die Qualität und Leistung sehr gut ist. Es ist besonders effektiv für Aufgaben wie Datenextraktion und Klassifizierung in nicht-englischen Sprachen.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Performance bei sehr langen Kontexten (über 8K) könnte weiter verbessert werden. Die Installation und Konfiguration erfordern spezifische Einstellungen, die für Anfänger eine Herausforderung sein können.

Nachbau-Empfehlung (2-4 Sätze): Die Verwendung von Gemma-4-31B und Gemma-4-E2B mit speculative decoding wird empfohlen, insbesondere für Benutzer mit einem RTX 5090. Es bietet eine ausgezeichnete Leistung und ist einfach zu konfigurieren. Für fortgeschrittene Benutzer könnten zusätzliche Optimierungen die Performance weiter verbessern.

[Qwen3.6-27B-INT4 clocking 100 tps with 256k context length on 1x RTX 5090 via vllm 0.19] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer teilt seine Erfahrungen mit dem Einsatz von Qwen3.6-27B-INT4 auf einem RTX 5090. Die Verwendung von vLLM 0.19 ermöglicht eine Geschwindigkeit von 100+ tps bei einer Kontext-Länge von 256K.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Qwen3.6-27B-INT4 erreicht eine Geschwindigkeit von 105-108 tps bei einer Kontext-Länge von 256K. Die Verwendung von vLLM 0.19 und spezifischen Konfigurationen ermöglicht diese hervorragende Performance.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Performance bei sehr langen Kontexten (über 256K) könnte weiter verbessert werden. Die Installation und Konfiguration erfordern spezifische Einstellungen, die für Anfänger eine Herausforderung sein können.

Nachbau-Empfehlung (2-4 Sätze): Qwen3.6-27B-INT4 auf einem RTX 5090 wird empfohlen, insbesondere für Benutzer, die eine hohe Geschwindigkeit und lange Kontext-Längen benötigen. Die Verwendung von vLLM 0.19 und spezifischen Konfigurationen ist einfach und effektiv. Für fortgeschrittene Benutzer könnten zusätzliche Optimierungen die Performance weiter verbessern.

[Guide on building a system for 30B dense models] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer teilt seine Erfahrungen und Empfehlungen für das Aufbauen eines Systems zur Ausführung von 30B dichten Modellen. Es werden spezifische GPU-Optionen und Quantisierungsvarianten diskutiert, um optimale Leistungen zu erzielen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Der Guide bietet detaillierte Empfehlungen für das Aufbauen eines Systems zur Ausführung von 30B dichten Modellen. Es werden spezifische GPU-Optionen und Quantisierungsvarianten diskutiert, um optimale Leistungen zu erzielen. Die Empfehlungen sind praktisch und nachbaubar.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Performance bei sehr langen Kontexten (über 200K) könnte weiter verbessert werden. Die Installation und Konfiguration erfordern spezifische Einstellungen, die für Anfänger eine Herausforderung sein können.

Nachbau-Empfehlung (2-4 Sätze): Der Guide wird empfohlen, insbesondere für Benutzer, die ein System zur Ausführung von 30B dichten Modellen aufbauen möchten. Die Empfehlungen sind praktisch und nachbaubar. Für fortgeschrittene Benutzer könnten zusätzliche Optimierungen die Performance weiter verbessern.

Weitere Beitraege (kurz):

– Abliterlitics: Benchmarks and Tensor Comparison for Heretic, Abliterrix, Huiui, HauhauCS for GLM 4.7 Flash — keine Hardware belegt, kein nachbaubares Setup
– Are OSS runnable model good now? — keine Hardware belegt, kein nachbaubares Setup
– Thinking to buy server chassis pcie 5.0 and 1x to 4x 3090 — keine konkrete Hardware belegt, eher eine Frage
– [For the 5 people here running

👁 0 Aufrufe 👤 0 Leser