Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Community, die sich auf die Dokumentation und Analyse von lokalen KI-Setups konzentriert. In dieser Woche sind besonders die Einträge zu Qwen3.6-27B auf 2x3090s, der Vergleich von Gemma 4 12B und 26B sowie die Erfahrungen mit der Hinzufügung einer alten 2070 Super zu einem bestehenden Setup hervorzuheben. Diese Beiträge bieten konkrete Zahlen und praktische Tipps für den Aufbau und Betrieb von lokalen KI-Systemen.

[Qwen3.6-27B on 2x3090s: llama.cpp vs vLLM, all the flags, and the MTP acceptance/inference speed/context] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Autor hat Qwen3.6-27B auf einem Setup mit 2x RTX 3090 und verschiedenen Backends (llama.cpp und vLLM) getestet. Er dokumentiert detailliert die Konfiguration, die Leistung und die MTP-Akzeptanzraten.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 2x RTX 3090, 48GB total, both power capped at 230W |
| CPU / Mainboard | Threadripper 1950X, 30GB RAM, NVMe |
| RAM | 30GB RAM |
| PSU | Nicht im Post belegt |
| Chassis / Kuehlung | Nicht im Post belegt |
| Framework + Version | llama.cpp, vLLM 0.22 |
| Modell + Quant | Qwen3.6-27B, Q6_K, Q8_0, INT4, INT8 |
| Kontext-Laenge | 131k (llama.cpp), 32k (vLLM INT8), 64k (vLLM INT4) |
| tok/s (single) | 43.1 (llama.cpp Q6_K), 44.2 (llama.cpp Q8_0), 51.6 (vLLM INT8), 53.7 (vLLM INT4) |
| tok/s (batched) | Nicht im Post belegt |
| Strom (full load) | ~1200 W gemessen |
| Rohkosten | Nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): Qwen3.6-27B läuft stabil auf 2x RTX 3090 mit verschiedenen Backends. Die MTP-Akzeptanzraten sind gut, insbesondere bei llama.cpp. Die Leistung ist akzeptabel, insbesondere bei vLLM mit INT4-Quantisierung.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung von vLLM wird durch die fehlende PCIe P2P-Unterstützung beeinträchtigt. Die Kontext-Länge ist bei vLLM begrenzt, was die Anwendung für längere Texte einschränkt.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für den privaten Einsatz gut geeignet, insbesondere wenn man eine hohe Kontext-Länge und stabile Leistung benötigt. Die Kombination von llama.cpp und vLLM bietet Flexibilität und Leistung.


[New Google Gemma 4 12B Claims Near-26B Performance – We Tested Both!] (7/10) — OpenCode-Fit: BEDINGT

Zum Original |

Vorschau

Worum es geht (2-4 Sätze): Der Autor hat die Leistung von Gemma 4 12B und 26B-A4B auf einem RTX 4090 getestet. Die Tests beinhalten die VRAM-Verwendung, die Tokenprozessierung und die Qualität der generierten Texte.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 4090 |
| CPU / Mainboard | Nicht im Post belegt |
| RAM | Nicht im Post belegt |
| PSU | Nicht im Post belegt |
| Chassis / Kuehlung | Nicht im Post belegt |
| Framework + Version | Nicht im Post belegt |
| Modell + Quant | Gemma 4 12B, Gemma 4 26B-A4B |
| Kontext-Laenge | Nicht im Post belegt |
| tok/s (single) | 80 tok/s (12B), 138 tok/s (26B-A4B) |
| tok/s (batched) | Nicht im Post belegt |
| Strom (full load) | Nicht im Post belegt |
| Rohkosten | Nicht im Post belegt |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? (3-5 Sätze): Gemma 4 26B-A4B übertrifft die 12B-Version in der Leistung und der Textqualität. Die 12B-Version ist jedoch effizienter in Bezug auf VRAM-Verwendung und eignet sich besser für Laptops mit 16 GB VRAM.

Was NICHT funktioniert / Limits (2-4 Sätze): Die 12B-Version hat Schwierigkeiten, die gleiche Qualität wie die 26B-A4B zu erreichen, insbesondere bei komplexen Aufgaben. Die VRAM-Begrenzung der 12B-Version kann bei längeren Texten ein Problem sein.

Nachbau-Empfehlung (2-4 Sätze): Die 26B-A4B-Version ist für den Einsatz auf leistungsfähigen Systemen mit genügend VRAM zu empfehlen. Die 12B-Version ist eine gute Wahl für mobile Geräte oder Systeme mit begrenzter VRAM.


[Another shout out to llama.cpp build b9455 2×3090] (7/10) — OpenCode-Fit: JA

Zum Original |

Vorschau

Worum es geht (2-4 Sätze): Der Autor hat Qwen3.6-27B mit der llama.cpp-Build b9455 auf 2x RTX 3090 getestet. Er dokumentiert die Leistung und die Verbesserungen im Vergleich zu früheren Versionen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 2x RTX 3090 |
| CPU / Mainboard | Nicht im Post belegt |
| RAM | Nicht im Post belegt |
| PSU | Nicht im Post belegt |
| Chassis / Kuehlung | Nicht im Post belegt |
| Framework + Version | llama.cpp b9455 |
| Modell + Quant | Qwen3.6-27B, UD-Q8_K_XL |
| Kontext-Laenge | 262144 |
| tok/s (single) | 70+ tok/s |
| tok/s (batched) | Nicht im Post belegt |
| Strom (full load) | Nicht im Post belegt |
| Rohkosten | Nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): Die neue llama.cpp-Build b9455 ermöglicht eine signifikante Leistungssteigerung bei der Tokenprozessierung. Die Codeausgabe ist sauberer und fehlerfreier im Vergleich zu früheren Versionen.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung kann je nach Kontext-Länge und eingehender Anfrage variieren. Die Verwendung von MTP und tensor-split kann die Leistung weiter verbessern, aber es erfordert eine sorgfältige Konfiguration.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für den privaten Einsatz gut geeignet, insbesondere wenn man eine hohe Leistung und stabile Codeausgabe benötigt. Die Kombination von llama.cpp und tensor-split bietet Flexibilität und Leistung.


[Added an old 2070 Super to my rig and I can’t go back…worse, now I need more] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Autor hat eine alte 2070 Super zu seinem bestehenden Setup mit 5090, 9800X3D und 96GB RAM hinzugefügt. Er dokumentiert die Leistungssteigerung und die Vorteile der zusätzlichen VRAM.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 5090, 2070 Super |
| CPU / Mainboard | 9800X3D, 96GB RAM |
| RAM | 96GB RAM |
| PSU | Nicht im Post belegt |
| Chassis / Kuehlung | Nicht im Post belegt |
| Framework + Version | llama.cpp |
| Modell + Quant | Qwen3.6-27B, Q8_0 |
| Kontext-Laenge | 144k |
| tok/s (single) | 40-70 tok/s |
| tok/s (batched) | Nicht im Post belegt |
| Strom (full load) | Nicht im Post belegt |
| Rohkosten | Nicht im Post belegt |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? (3-5 Sätze): Die Hinzufügung der 2070 Super ermöglicht eine signifikante Leistungssteigerung und eine längere Kontext-Länge. Die Tokenprozessierung ist schneller und die Textausgabe ist sauberer.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung kann je nach eingehender Anfrage variieren. Die zusätzliche VRAM ist ein großer Vorteil, aber das Setup erfordert eine sorgfältige Konfiguration und Optimierung.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für den privaten Einsatz gut geeignet, insbesondere wenn man eine hohe Kontext-Länge und stabile Leistung benötigt. Die Kombination von 5090 und 2070 Super bietet eine gute Kosteneffizienz.


[Cost Analysis of my $6.4k Local LLM Server] (6/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Autor hat eine detaillierte Kostenanalyse seines lokalen LLM-Servers durchgeführt. Er vergleicht die Kosten des eigenen Servers mit den Kosten der Verwendung von Cloud-APIs.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 4x MI100 32GB |
| CPU / Mainboard | ASRock ROMED8-2T |
| RAM | 8x8GB DDR4 ECC RDIMMs |
| PSU | 1600W 80+ Plat PSU |
| Chassis / Kuehlung | ATX Case, 4x 75x30mm Blowers |
| Framework + Version | llama.cpp |
| Modell + Quant | Qwen3.6 27B |
| Kontext-Laenge | Nicht im Post belegt |
| tok/s (single) | 20.4M input tokens, 1.32M output tokens per day |
| tok/s (batched) | Nicht im Post belegt |
| Strom (full load) | Nicht im Post belegt |
| Rohkosten | $6406.45 |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): Der Server läuft stabil und verarbeitet täglich eine große Anzahl von Tokens. Die Kosten für den eigenen Server sind signifikant günstiger im Vergleich zu Cloud-APIs, insbesondere bei längerfristiger Nutzung.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Tokenprozessierung ist niedriger als erwartet, was auf eine ineffiziente Konfiguration oder Workload zurückzuführen sein könnte. Die Kosten für Strom und Kühlung sind nicht detailliert dokumentiert.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für den privaten Einsatz gut geeignet, insbesondere wenn man eine hohe Tokenprozessierung und langfristige Kosteneffizienz benötigt. Die Kombination von gebrauchten Komponenten und einem effizienten Aufbau bietet eine gute Kosteneffizienz.


Weitere Beiträge (kurz):

Live-ablating Gemma 4 12B: per-tensor quant sweet spots (Mixed Quanting) — keine Hardware belegt, kein nachbaubares Setup
How does the new abliteration tool Apostate compare with others? – Abliterlitics — keine Hardware belegt, kein nachbaubares Setup
I built mlx-Chronos — a community benchmark leaderboard for local LLM engines on Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama) — keine Hardware belegt, kein nachbaubares Setup
13 abliterated Gemma 4 E2B variants, 44 GPU hours, Benchmark and Comparison – Abliterlitics — keine Hardware belegt, kein nachbaubares Setup
Fine tuning on DGX spark vs 4x 3090? — reine Problem-Frage ohne Lösung
I compared all specs of the major GPUs/machines that are being used here, because bandwidth is not everything. Some of ya’ll need a reality check. — keine Hardware belegt, kein nachbaubares Setup
How do I make MTP work in llama-server? — reine Problem-Frage ohne Lösung

👁 0 Aufrufe 👤 0 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert