Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks bietet aktuell eine Vielzahl von realen Setup-Berichten und Benchmarks, die für den Bau eines lokalen KI-Setups hilfreich sind. Besonders hervorzuheben sind die Beiträge, die konkrete GPU-Modelle und -Anzahlen nennen, sowie genaue Benchmarks und Erfahrungen mit spezifischen Modellen. Ein Leser kann heute Abend mit den Setup-Vorschlägen von „Luce Spark“ und „Gemma4 QAT + MTP“ beginnen, die beide stabile und performante Lösungen für 24GB-GPUs bieten.
[Luce Spark: a 35B MoE on a 16 GB GPU, without the offload tax] (8/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Beitrag beschreibt, wie man ein 35B MoE-Modell auf einem 16GB-GPU wie der RTX 3090 betreiben kann, ohne die Leistung durch Offloading zu beeinträchtigen. Die Methode verwendet eine intelligente Cache-Strategie, die nur die aktiven Experten im GPU-Speicher behält und den Rest in System-RAM verschiebt.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | Lucebox-hub (Apache2.0) |
| Modell + Quant | Qwen3.6 35B-A3B, Laguna XS.2 33B-A3B |
| Kontext-Länge | 16 GiB (unter 16 GiB) |
| tok/s (single) | 119 tok/s (100% GPU-Residenz), 100 tok/s (60% GPU-Residenz) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Das Setup ermöglicht es, 35B MoE-Modelle auf einer 16GB-GPU zu betreiben, ohne signifikante Leistungsverluste durch Offloading. Die intelligente Cache-Strategie hält die aktiven Experten im GPU-Speicher und verschiebt den Rest in System-RAM, was die Leistung stabil hält. Die Methode ist open-source und leicht anpassbar.
Was NICHT funktioniert / Limits (2-4 Sätze): Die Methode ist spezifisch für MoE-Modelle und funktioniert möglicherweise nicht für andere Architekturen. Die Leistung kann bei sehr langen Kontexten abnehmen, da der Cache-Overhead zunimmt.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Nutzer mit 16GB-GPUs wie der RTX 3090 geeignet. Es erfordert jedoch eine gewisse technische Kompetenz, um die Cache-Strategie korrekt einzurichten. Für Anfänger könnte ein einfacheres Setup mit gängigen Frameworks wie vLLM oder llama.cpp sinnvoller sein.
[The Gap Between Claude and Local: Can a Self-Hosted Coding Agent Compete?] (7/10) — OpenCode-Fit: BEDINGT

Worum es geht (2-4 Sätze): Der Beitrag vergleicht die Leistung eines selbstgehosteten KI-Modells (Qwen 27B) mit der von Claude Opus 4.7. Die Benchmarks zeigen, dass Claude bei langen Kontexten und komplexen Aufgaben überlegen ist, während das lokale Modell für einfache Aufgaben ausreicht.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 4090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 32GB DDR5-5600 dual-channel |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama-server, llama.cpp |
| Modell + Quant | Qwen 27B q4_k_M |
| Kontext-Länge | 163k tokens (maximal) |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? (3-5 Sätze): Das lokale Modell Qwen 27B ist für einfache Aufgaben und kurze Kontexte ausreichend. Es kann komplexe Aufgaben wie die Erstellung von E2E-Tests durchführen, aber die Leistung und Stabilität bei langen Kontexten sind begrenzt.
Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung des lokalen Modells bei langen Kontexten und komplexen Aufgaben ist begrenzt. Claude Opus 4.7 bietet eine deutlich bessere Leistung und Stabilität, insbesondere bei der Verarbeitung von langen Kontexten.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist ideal für Nutzer, die einfache Aufgaben und kurze Kontexte bearbeiten müssen. Für komplexe Aufgaben und langfristige Projekte ist ein Cloud-Service wie Claude Opus 4.7 zu empfehlen. Das lokale Modell kann als Ergänzung verwendet werden, um Kosten zu sparen.
Weitere Beiträge (kurz):
– Luce Spark: a 35B MoE on a 16 GB GPU, without the offload tax — funktionierendes Setup, aber spezifisch für MoE-Modelle.
– [[2×3090]: SymmMemCommunicator: Device capability 8.6 not supported, communicator is not available.](https://old.reddit.com/r/LocalLLaMA/comments/1u0a2dg/2x3090_symmmemcommunicator_device_capability_86/) — keine Hardware belegt, kein funktionierendes Setup.
– [3090 — zu duenne Description, keine nachbaubaren Daten
– [Benchmark — zu duenne Description, keine nachbaubaren Daten
– Weird to get near linear scaling by adding another GPU? — keine konkreten Messwerte, keine nachbaubaren Daten