Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks bietet aktuell eine Fülle von konkreten Setup-Berichten und Benchmarks für lokale KI-Modelle. Die Community teilt detaillierte Hardware-Konfigurationen, Tok/s-Zahlen und Erfahrungen mit verschiedenen Modellen. In dieser Woche sind insbesondere die Einträge zu Qwen3.6-27B auf 2x RTX 3090 und die Optimierung eines 4x RTX 3090 Rigs besonders belegt. Diese Einträge bieten praxisnahe Einblicke in die Leistung und die Grenzen solcher Setups.

[Qwen3.6-27B on 2x3090s: llama.cpp vs vLLM, all the flags, and the MTP acceptance/inference speed/context] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Autor vergleicht die Leistung von Qwen3.6-27B auf 2x RTX 3090 mit llama.cpp und vLLM. Er teilt detaillierte Benchmarks, einschließlich MTP-Acceptance-Raten und Kontextlängen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Qwen3.6-27B läuft stabil auf 2x RTX 3090 mit beiden Backends. llama.cpp erreicht 43.1 tok/s bei Q6_K und 44.2 tok/s bei Q8_0, während vLLM 51.6 tok/s bei INT8 und 53.7 tok/s bei INT4 erreicht. Die MTP-Acceptance-Raten liegen bei 54% (llama.cpp) und 77% (vLLM INT8).

Was NICHT funktioniert / Limits (2-4 Sätze): Die Kontextlänge bei vLLM ist begrenzt auf 32k bei INT8 und 64k bei INT4, während llama.cpp 131k erreicht. Die Leistung von vLLM ist etwas höher, aber die Kontextlänge ist ein wichtiger Faktor.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für den privaten Einsatz gut geeignet, insbesondere wenn eine hohe Kontextlänge wichtig ist. llama.cpp ist hierbei die bessere Wahl, während vLLM für höhere Leistung bei kürzeren Kontexten empfohlen wird.

[I accidentally crippled my 4x RTX 3090 LLM rig with a hidden PCIe 2.0 x4 slot and fixing it doubled Mistral 128B performance] (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Autor beschreibt, wie er versehentlich eine seiner 4x RTX 3090-Karten in einen PCIe 2.0 x4-Slot eingebaut hat, was die Leistung stark beeinträchtigte. Nach der Korrektur der Slot-Belegung stieg die Leistung erheblich.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Nach der Korrektur der PCIe-Slots stieg die Leistung von Mistral Medium 3.5 128B Q4_K von 11 tok/s auf 24.7 tok/s. Qwen3.6-27B erreicht 78-80 tok/s bei 260K Kontextlänge.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung war vor der Korrektur stark beeinträchtigt, da eine der Karten in einem PCIe 2.0 x4-Slot eingebaut war. Die Kontextlänge bei Mistral Medium 3.5 128B ist begrenzt.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist ein gutes Beispiel für die Bedeutung der korrekten PCIe-Slot-Belegung. Es ist für den privaten Einsatz geeignet, insbesondere wenn man mehrere GPUs verwendet. Die Kontextlänge sollte bei der Wahl des Modells berücksichtigt werden.

[New Google Gemma 4 12B Claims Near-26B Performance – We Tested Both!] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Autor vergleicht die Leistung von Google Gemma 4 12B und 26B-A4B auf einem RTX 4090. Die 26B-A4B-Version erreicht höhere Leistungen, aber die 12B-Version ist für 16GB-GPUs besser geeignet.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Die 26B-A4B-Version erreicht 138 tok/s und 15 GB VRAM-Verbrauch, während die 12B-Version 80 tok/s und 9 GB VRAM-Verbrauch erreicht. Die 26B-A4B-Version ist in den meisten Aufgaben besser, aber die 12B-Version ist für 16GB-GPUs geeignet.

Was NICHT funktioniert / Limits (2-4 Sätze): Die 12B-Version hat einen geringeren VRAM-Verbrauch, was sie für 16GB-GPUs besser geeignet macht, aber die Leistung ist geringer. Die 26B-A4B-Version ist leistungsstärker, aber sie erfordert mehr VRAM.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für den privaten Einsatz geeignet, insbesondere wenn man eine 16GB-GPU verwendet. Die 12B-Version ist die bessere Wahl, wenn der VRAM-Verbrauch begrenzt ist, während die 26B-A4B-Version für höhere Leistung geeignet ist.

[Cost Analysis of my $6.4k Local LLM Server] (5/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Autor teilt eine detaillierte Kostenanalyse seines lokalen LLM-Servers mit 4x MI100 32GB. Er vergleicht die Kosten des lokalen Setups mit den Kosten der Verwendung von API-Diensten.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Der Server verarbeitet 20.4M Eingabetoken und 1.32M Ausgabetoken pro Tag. Die Gesamtkosten des lokalen Setups betragen $6406.45, was günstiger ist als die API-Kosten von $3701.10 pro Jahr.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Ausgabetokenrate ist niedriger als erwartet. Die Hardware-Kosten sind relativ hoch, was das Setup für den privaten Einsatz begrenzt.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für den privaten Einsatz geeignet, insbesondere wenn man eine hohe Tokenverarbeitung benötigt. Die Kosten sind jedoch relativ hoch, was es für den privaten Einsatz weniger attraktiv macht. Es ist eher für professionelle oder geschäftliche Anwendungen geeignet.

Weitere Beiträge (kurz):

👁 0 Aufrufe 👤 0 Leser