Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Community, die sich auf funktionierende lokale KI-Setups konzentriert. In dieser Woche sind insbesondere die Einträge zu GPU-Setups mit RTX 3090 und 5090 sowie Apple M3 Ultra im Fokus. Diese Setups bieten konkrete tok/s-Zahlen und Benchmark-Ergebnisse, die für den Bau eines eigenen lokalen KI-Systems hilfreich sind. Ein Leser kann heute Abend mit einem 2x RTX 3090-Setup oder einem Mac Studio M3 Ultra beginnen, um Qwen-32B lokal zu betreiben.

[Another shout out to llama.cpp build b9455 2×3090] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer hat ein Setup mit 2x RTX 3090 und llama.cpp build b9455 getestet. Er erreicht mit dem Modell Qwen3.6-27B-MTP UD-Q8_K_XL Geschwindigkeiten von über 70 tok/s und eine kontinuierliche Kontextlänge von 262144 Tokens.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Das Setup läuft stabil und erreicht hohe Geschwindigkeiten von über 70 tok/s. Die kontinuierliche Kontextlänge von 262144 Tokens ermöglicht komplexe Aufgaben. Die Codeausgabe ist sauber und fehlerfrei.

Was NICHT funktioniert / Limits (2-4 Sätze): Die CPU, RAM, PSU und Kühlung werden nicht spezifiziert, was die Nachbaufähigkeit ein wenig einschränkt. Es gibt auch keine Angaben zum Stromverbrauch oder den Kosten des Setups.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer mit einem Budget von ca. 2000 EUR empfehlenswert, die ein leistungsstarkes System für komplexe KI-Aufgaben benötigen. Es ist wichtig, die fehlenden Spezifikationen zu ergänzen, um das Setup vollständig nachbauen zu können.

[Added an old 2070 Super to my rig and I can’t go back…worse, now I need more] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer hat eine alte RTX 2070 Super zu seinem bestehenden Setup mit einer RTX 5090 hinzugefügt. Dies ermöglicht ihm, Qwen3.6-27B mit einer Kontextlänge von 144k Tokens und einer Geschwindigkeit von 40-70 tok/s zu betreiben. Er ist begeistert von der Leistung und denkt darüber nach, weitere GPUs hinzuzufügen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Das Setup ermöglicht die Betreibung von Qwen3.6-27B mit einer hohen Kontextlänge von 144k Tokens und einer akzeptablen Geschwindigkeit von 40-70 tok/s. Die Kombination von RTX 5090 und RTX 2070 Super ergänzt sich gut.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung ist nicht so hoch wie bei einem Setup mit mehreren hochwertigen GPUs. Es gibt auch keine Angaben zur Stromversorgung, Kühlung oder den Kosten des Setups.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer mit einem Budget von ca. 1500 EUR empfehlenswert, die eine gute Leistung bei moderaten Kosten suchen. Es ist wichtig, die fehlenden Spezifikationen zu ergänzen, um das Setup vollständig nachbauen zu können.

[Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM)] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer hat Krasis, einen LLM-Runtime, verwendet, um Qwen3.6-35B-A3B auf einem Laptop mit einer RTX 3070 Mobile 8GB und 32GB RAM zu betreiben. Er erreicht Geschwindigkeiten von 222 pp und 12.48 tg.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Krasis ermöglicht die Betreibung von Qwen3.6-35B-A3B auf einem Laptop mit begrenztem VRAM. Die Geschwindigkeiten von 222 pp und 12.48 tg sind für mobile Anwendungen akzeptabel.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung ist begrenzt durch die geringe VRAM des Laptops. Es gibt auch keine Angaben zur Stromversorgung, Kühlung oder den Kosten des Setups.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer mit einem Budget von ca. 1000 EUR und einem Bedarf an mobiler KI-Betreibung empfehlenswert. Es ist wichtig, die fehlenden Spezifikationen zu ergänzen, um das Setup vollständig nachbauen zu können.

Weitere Beiträge (kurz):

– How does the new abliteration tool Apostate compare with others? – Abliterlitics — keine Hardware belegt, kein nachbaubares Setup
– 13 abliterated Gemma 4 E2B variants, 44 GPU hours, Benchmark and Comparison – Abliterlitics — keine Hardware belegt, kein nachbaubares Setup
– Cost Analysis of my $6.4k Local LLM Server — keine konkrete GPU-Angabe, kein nachbaubares Setup
– Fine tuning on DGX spark vs 4x 3090? — keine konkrete GPU-Angabe, kein nachbaubares Setup
– I compared all specs of the major GPUs/machines that are being used here, because bandwidth is not everything. Some of ya’ll need a reality check. — keine konkrete GPU-Angabe, kein nachbaubares Setup
– How do I make MTP work in llama-server? — keine konkrete GPU-Angabe, kein nachbaubares Setup
– DeepSeek V4 Flash at 8.4 tok/s on 3×3090: patching the GGUFs that won’t load on cchuter’s llama.cpp fork — keine konkrete GPU-Angabe, kein nachbaubares Setup
– Custom 4x RTX PRO 6000 Blackwell server vs Dell GB300 for ~30 fine-tuned production pipelines — looking for honest input on direction — keine konkrete GPU-Angabe, kein nachbaubares Setup

👁 0 Aufrufe 👤 0 Leser