Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, nachbaubare Setups zur lokalen KI-Betrieb. Diese Woche sind insbesondere die Einträge zu den Themen 30B-Modelle auf 4090-GPUs, MoE-Modelle auf V100-Clustern und die BeeLlama-Updates besonders belegt. Leser, die ein funktionierendes Setup für OpenCode-Aufgaben suchen, finden hier praktische Beispiele und Benchmarks.

[Update on 12x32gb sxm v100 cluster / local AI for legal drafting] (8/10) — OpenCode-Fit: JA

Zum Original | img:https://preview.redd.it/4h07vk82uc3h1.jpeg?width=640&crop=smart&auto=webp&s=0a61bada217c28df3aa24d849046b9b254c05c7b

Worum es geht: Ein Rechtsanwalt berichtet über sein aktualisiertes Setup mit 12 V100-SXM2-32GB-GPUs auf einem Threadripper Pro. Er hat auch einen zweiten Server mit EPYC 7302P, 512GB RAM und 4x RTX 3090 + 2x V100-PCIe hinzugefügt. Er verwendet llama.cpp für die Ausführung von MoE-Modellen, die bei langen Kontexten besser performen als dichte Modelle.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? MoE-Modelle performen deutlich besser als dichte Modelle, insbesondere bei langen Kontexten. Das Setup ist für komplexe Rechtsdokumente und lange Texte optimiert.

Was NICHT funktioniert / Limits Dichte Modelle sind bei längeren Kontexten ineffizient. NVLink-Paare müssen innerhalb der gleichen Board-Instanz bleiben, um optimale Durchsatz zu erzielen.

Nachbau-Empfehlung Dieses Setup ist ideal für professionelle Anwendungen mit langen Texten und komplexen Aufgaben. Es erfordert jedoch ein höheres Budget und technisches Know-how.

[BeeLlama v0.2.0 – major DFlash update. Single RTX 3090: Qwen 3.6 27B up to 164 tps (4.40x), Gemma 4 31B up to 177.8 tps (4.93x). Prompt processing speed near baseline.] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Die neue Version von BeeLlama (v0.2.0) bringt erhebliche Leistungsverbesserungen für Qwen 3.6 27B und Gemma 4 31B auf einer einzelnen RTX 3090. Die DFlash-Implementierung reduziert die Verarbeitungszeit erheblich, insbesondere bei längeren Prompts.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? BeeLlama v0.2.0 erreicht bei Qwen 3.6 27B eine Geschwindigkeit von 164 tok/s und bei Gemma 4 31B eine Geschwindigkeit von 177.8 tok/s. Die Verarbeitung von längeren Prompts ist nahezu so schnell wie bei kürzeren Prompts.

Was NICHT funktioniert / Limits Die Benchmarks wurden auf einem spezifischen Setup durchgeführt. Die Leistung kann auf anderen Hardware-Konfigurationen variieren.

Nachbau-Empfehlung Dieses Setup ist ideal für Benutzer, die hohe Leistung bei der Verarbeitung von längeren Texten benötigen. Es ist kostengünstig und leicht nachzubauen.

[Qwen 3.6 35B GGUF: NTP vs MTP quantization results across GPUs and CPUs] (8/10) — OpenCode-Fit: JA

Zum Original | img:https://preview.redd.it/xjctv0okab2h1.png?width=640&crop=smart&auto=webp&s=33f97c27bc0228be1b7faa159a96feb7c83476e6

Worum es geht: Die Veröffentlichung von Qwen 3.6 35B GGUF-Quantisierungen in NTP- und MTP-Varianten. Die Benchmarks zeigen, dass MTP eine erhebliche Geschwindigkeitssteigerung auf GPUs bringt, während NTP auf CPUs besser performt. Die Leistung variiert je nach Hardware.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? MTP bringt eine erhebliche Geschwindigkeitssteigerung auf GPUs, während NTP auf CPUs besser performt. Die Leistung variiert je nach Hardware und Modellgröße.

Was NICHT funktioniert / Limits MTP ist auf CPUs weniger effektiv. Die Benchmarks zeigen, dass die Geschwindigkeitssteigerung von MTP stark workload-abhängig ist.

Nachbau-Empfehlung Dieses Setup ist ideal für Benutzer, die hohe Leistung auf GPUs benötigen. Für CPU-basierte Anwendungen ist NTP die bessere Wahl.

Weitere Beiträge:

– The reason small-model agent stacks aren’t the default has nothing to do with whether they work — keine Hardware belegt, kein nachbaubares Setup
– Qwen Plays ̶p̶̶o̶̶k̶̶e̶̶m̶̶o̶̶n̶ ? / QWEN PLAYS DCSS! – qwen3.6-35b-a3b@q4_k_xl plays open source roguelike adventure DCSS (and does a decent job) — keine Hardware belegt, kein nachbaubares Setup
– TTS Benchmark Comparison (all known TTS up until May 2026) — keine Hardware belegt, kein nachbaubares Setup
– If you’re missing Jeeves, you might want to check out my weekend project. — keine Hardware belegt, kein nachbaubares Setup
– Any reason to run dense over MOE for RAGs? — keine Hardware belegt, kein nachbaubares Setup
– Scrambling to max StrixHalo (+NVLink dual eGPU 3090 mod) — keine Hardware belegt, kein nachbaubares Setup
– Meet the Fleet of BlackBeard — keine Hardware belegt, kein nachbaubares Setup

Weitere Beitraege (automatisch gefiltert):
– two months local 30b, real speedup nowhere near benchmark — keine konkreten Messwerte, keine nachbaubaren Daten

👁 6 Aufrufe 👤 5 Leser