Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist der Ort, an dem Community-User ihre lokalen KI-Setups dokumentieren und benchmarken. In dieser Woche sind insbesondere die Einträge zu nachbaubaren Setups mit konkreten tok/s-Zahlen und Modell-Variationen besonders belegt. Ein Leser kann heute Abend mit einem 27B-Modell auf einem 3090-Setup oder einem 35B-Modell auf einem 5090-Setup beginnen.

Added an old 2070 Super to my rig and I can’t go back…worse, now I need more (8/10) — OpenCode-Fit: JA

Vorschau

Worum es geht: Der Benutzer hat ein altes 2070 Super-GPU in sein bestehendes Setup integriert, das bereits eine 5090, 9800X3D und 96 GB RAM enthält. Dies hat ihm ermöglicht, das Modell Qwen3.6-27B in einer Quantisierung Q8_0 mit einer Kontextgröße von 144k zu laufen, wobei er 40-70 tok/s erzielt.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 2070 Super 8GB, 1x RTX 5090 24GB |
| CPU / Mainboard | AMD Ryzen 9 9800X3D, ASRock Rack ROMED8-2T |
| RAM | 96 GB DDR4 |
| PSU | 1600W Titanium + Add2PSU 850W |
| Chassis / Kuehlung | Rosewill RSV-L4500 4U |
| Framework + Version | llama.cpp (neueste Version) |
| Modell + Quant | Qwen3.6-27B Q8_0 GGUF |
| Kontext-Laenge | 144k (Q8_0) |
| tok/s (single) | 40-70 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | ca. 5.000 EUR (neu) + 2070 Super gebraucht |
| Autarkie-Fit | JA |

Was funktioniert konkret? Das Setup läuft stabil und ermöglicht das Laufen von Qwen3.6-27B mit einer hohen Kontextgröße von 144k und einer akzeptablen Geschwindigkeit von 40-70 tok/s. Es ist ein gutes Beispiel für die Wiederverwendung alter Hardware, um die Leistung zu verbessern.

Was NICHT funktioniert / Limits Die 2070 Super hat nur 8GB VRAM, was bei sehr großen Modellen oder längeren Kontexten Grenzen aufweist. Die Stromversorgung und Kühlung müssen auf die zusätzliche GPU angepasst werden.

Nachbau-Empfehlung Dieses Setup ist eine gute Wahl für Benutzer mit einem bestehenden hochleistungsfähigen System, die ihre Leistung durch die Wiederverwendung alter Hardware verbessern möchten. Es ist kosteneffektiv und bietet eine gute Balance zwischen Leistung und Autarkie.

Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM) (7/10) — OpenCode-Fit: BEDINGT

Vorschau

Worum es geht: Der Benutzer hat Krasis, einen LLM-Runtime, verwendet, um das Modell Qwen3.6-35B-A3B auf einem Laptop mit einer 3070 Mobile GPU und 32 GB RAM laufen zu lassen. Er erreicht eine Geschwindigkeit von 222 pp (prefill) und 12.48 tg (decode).

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3070 Mobile 8GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 32 GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | Laptop |
| Framework + Version | Krasis v1.0 |
| Modell + Quant | Qwen3.6-35B-A3B HQQ4 k4v4 |
| Kontext-Laenge | 32k (Q4) |
| tok/s (single) | 222 pp, 12.48 tg |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT (Laptop) |

Was funktioniert konkret? Krasis ermöglicht das Laufen von sehr großen Modellen auf Laptops mit begrenzter VRAM. Die Geschwindigkeit ist akzeptabel für viele Anwendungen, insbesondere bei kurzen Prompts.

Was NICHT funktioniert / Limits Die Leistung bei sehr langen Prompts und kontextintensiven Aufgaben kann begrenzt sein. Die Hardware ist auf einem Laptop basiert, was die Skalierbarkeit einschränkt.

Nachbau-Empfehlung Dieses Setup ist eine gute Wahl für Benutzer, die mit begrenzter Hardware arbeiten und trotzdem große Modelle laufen lassen möchten. Es ist besonders nützlich für mobile Anwendungen oder als Ergänzung zu einem stationären Setup.


Weitere Beiträge:

I built mlx-Chronos — a community benchmark leaderboard for local LLM engines on Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama) — keine Hardware belegt, kein nachbaubares Setup
13 abliterated Gemma 4 E2B variants, 44 GPU hours, Benchmark and Comparison – Abliterlitics — keine konkrete Hardware belegt, kein nachbaubares Setup
Cost Analysis of my $6.4k Local LLM Server — keine konkrete Hardware belegt, kein nachbaubares Setup
Fine tuning on DGX spark vs 4x 3090? — keine konkrete Hardware belegt, kein nachbaubares Setup
How do I make MTP work in llama-server? — keine konkrete Hardware belegt, kein nachbaubares Setup
Custom 4x RTX PRO 6000 Blackwell server vs Dell GB300 for ~30 fine-tuned production pipelines — looking for honest input on direction — keine konkrete Hardware belegt, kein nachbaubares Setup
two months local 30b, real speedup nowhere near benchmark — keine konkrete Hardware belegt, kein nachbaubares Setup
Update on 12x32gb sxm v100 cluster / local AI for legal drafting — keine konkrete Hardware belegt, kein nachbaubares Setup

👁 0 Aufrufe 👤 0 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert