Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks bietet aktuell eine Vielzahl von konkreten Setup-Berichten und Benchmarks. Die Community dokumentiert detailliert, wie verschiedene Modelle auf unterschiedlichen Hardware-Konfigurationen laufen. Besonders hervorzuheben sind die Einträge, die Qwen3.6-27B auf einem RTX 5090 und das Setup mit 2x RTX 3090, die beide erstaunliche Leistungen zeigen. Ein Leser kann heute Abend mit diesen Beispielen beginnen, um ein eigenes lokales KI-Setup aufzubauen.

[Luce Spark: a 35B MoE on a 16 GB GPU, without the offload tax] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Beitrag beschreibt, wie das 35B MoE-Modell Luce Spark auf einem 16 GB GPU (RTX 3090) läuft, ohne die üblichen Leistungsverluste durch Offloading. Die Autoren haben eine Methode entwickelt, die die häufigsten Experten auf der GPU belässt und die weniger genutzten in den System-RAM verschiebt, was zu einer signifikanten Leistungssteigerung führt.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Das Setup ermöglicht das Betreiben eines 35B MoE-Modells auf einem 16 GB GPU, ohne die üblichen Leistungsverluste durch Offloading. Die Methode, die häufigsten Experten auf der GPU zu belassen und die weniger genutzten in den System-RAM zu verschieben, führt zu einer signifikanten Leistungssteigerung. Die Autoren haben auch eine selbsttune-fähige Methode entwickelt, die die Platzierung der Experten optimiert.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Methode ist spezifisch für MoE-Modelle und erfordert eine anfängliche Kalibrierung. Es gibt keine Garantie, dass sie für alle Modelle und Hardware-Konfigurationen gleichermaßen effektiv ist.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Benutzer mit 16 GB oder weniger VRAM geeignet, die dennoch leistungsstarke MoE-Modelle betreiben möchten. Die Methode ist einfach umzusetzen und kann erhebliche Leistungssteigerungen bringen. Es ist jedoch ratsam, die spezifischen Anforderungen des eigenen Modells zu berücksichtigen.

[Weird to get near linear scaling by adding another GPU?] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Beitrag beschreibt, wie der Autor eine nahezu lineare Leistungssteigerung durch das Hinzufügen einer weiteren GPU (2x RTX 3090) erzielt hat. Die Benchmarks zeigen eine erhebliche Verbesserung in der Token-Generierungsgeschwindigkeit.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Das Hinzufügen einer weiteren GPU führt zu einer nahezu linearen Leistungssteigerung, was überraschend ist, da die MapReduce-Operationen bei mehreren GPUs oft zu Bottlenecks führen. Die Benchmarks zeigen eine erhebliche Verbesserung in der Token-Generierungsgeschwindigkeit.

Was NICHT funktioniert / Limits (2-4 Sätze): Es treten gelegentlich Parsing-Fehler auf, insbesondere bei der Verwendung des Modells in Agent-Modus in VSCode. Die Verwendung von CLI-Tools ist zuverlässiger.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Benutzer mit mehreren GPUs geeignet, die eine nahezu lineare Leistungssteigerung erzielen möchten. Es ist jedoch ratsam, die spezifischen Anforderungen des eigenen Modells und die Verwendung von CLI-Tools zu berücksichtigen, um Fehler zu minimieren.

Weitere Beiträge (kurz):

– How-to guide to create audiobooks? — keine Hardware belegt, kein funktionierendes Setup
– The Gap Between Claude and Local: Can a Self-Hosted Coding Agent Compete? — keine konkrete GPU belegt, kein nachbaubares Setup
– Qwen 3.6 27B MTP – Adding spec-type and spec-draft-n-max is dropping tps and reducing GPU utilization — keine konkrete GPU belegt, kein funktionierendes Setup
– Context, memory, and RAM/VRAM — keine konkrete GPU belegt, kein funktionierendes Setup
– Does anyone know what PCIe mode was used for these benchmarks? — keine konkrete GPU belegt, kein funktionierendes Setup
– llama-server router: a model pinned to one GPU still grabs a CUDA context on every card, so it OOMs when my others are full. Am I missing a flag or is this just how it is? — keine konkrete GPU belegt, kein funktionierendes Setup
– Galaxy Z Fold6 as a local inference node — llama.cpp/Vulkan, homelab telemetry, SHA-256 model verification — keine konkrete GPU belegt, kein funktionierendes Setup

Weitere Beitraege (automatisch gefiltert):
– [Benchmark — zu duenne Description, keine nachbaubaren Daten
– [3090 — zu duenne Description, keine nachbaubaren Daten

👁 1 Aufrufe 👤 1 Leser