Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist der Ort, an dem Community-User ihre lokalen KI-Setups dokumentieren und benchmarken. In dieser Woche sind insbesondere die Einträge zu nachbaubaren Setups mit konkreten tok/s-Zahlen und Modell-Variationen besonders belegt. Ein Leser kann heute Abend mit einem 27B-Modell auf einem 3090-Setup oder einem 35B-Modell auf einem 5090-Setup beginnen.

Added an old 2070 Super to my rig and I can’t go back…worse, now I need more (8/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer hat ein altes 2070 Super-GPU in sein bestehendes Setup integriert, das bereits eine 5090, 9800X3D und 96 GB RAM enthält. Dies hat ihm ermöglicht, das Modell Qwen3.6-27B in einer Quantisierung Q8_0 mit einer Kontextgröße von 144k zu laufen, wobei er 40-70 tok/s erzielt.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup läuft stabil und ermöglicht das Laufen von Qwen3.6-27B mit einer hohen Kontextgröße von 144k und einer akzeptablen Geschwindigkeit von 40-70 tok/s. Es ist ein gutes Beispiel für die Wiederverwendung alter Hardware, um die Leistung zu verbessern.

Was NICHT funktioniert / Limits Die 2070 Super hat nur 8GB VRAM, was bei sehr großen Modellen oder längeren Kontexten Grenzen aufweist. Die Stromversorgung und Kühlung müssen auf die zusätzliche GPU angepasst werden.

Nachbau-Empfehlung Dieses Setup ist eine gute Wahl für Benutzer mit einem bestehenden hochleistungsfähigen System, die ihre Leistung durch die Wiederverwendung alter Hardware verbessern möchten. Es ist kosteneffektiv und bietet eine gute Balance zwischen Leistung und Autarkie.

Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM) (7/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Benutzer hat Krasis, einen LLM-Runtime, verwendet, um das Modell Qwen3.6-35B-A3B auf einem Laptop mit einer 3070 Mobile GPU und 32 GB RAM laufen zu lassen. Er erreicht eine Geschwindigkeit von 222 pp (prefill) und 12.48 tg (decode).

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Krasis ermöglicht das Laufen von sehr großen Modellen auf Laptops mit begrenzter VRAM. Die Geschwindigkeit ist akzeptabel für viele Anwendungen, insbesondere bei kurzen Prompts.

Was NICHT funktioniert / Limits Die Leistung bei sehr langen Prompts und kontextintensiven Aufgaben kann begrenzt sein. Die Hardware ist auf einem Laptop basiert, was die Skalierbarkeit einschränkt.

Nachbau-Empfehlung Dieses Setup ist eine gute Wahl für Benutzer, die mit begrenzter Hardware arbeiten und trotzdem große Modelle laufen lassen möchten. Es ist besonders nützlich für mobile Anwendungen oder als Ergänzung zu einem stationären Setup.

Weitere Beiträge:

👁 0 Aufrufe 👤 0 Leser