Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build-Berichten und Benchmarks dominiert. Besonders hervorzuheben sind die Einträge, die detaillierte Hardware- und Software-Konfigurationen sowie praktische Erfahrungen mit lokalen KI-Setups dokumentieren. Ein Leser kann heute Abend mit einem 2x RTX 3090-Setup oder einem Mac Studio M3 Ultra beginnen, um OpenCode lokal zu betreiben.

New Google Gemma 4 12B Claims Near-26B Performance – We Tested Both! (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht (2-4 Sätze): Die Autoren haben beide Modelle, Gemma 4 26B-A4B und Gemma 4 12B, auf einem RTX 4090 getestet. Sie haben den gleichen Task durchgeführt: die Erstellung einer HTML5-Canvas-Animation mit realen Physik. Die 26B-Version hat in allen Szenarien besser abgeschnitten, aber die 12B-Version hat fast die gleichen Ergebnisse erzielt und weniger VRAM benötigt.

Reales Setup (komplette Fakten-Tabelle — bitte als Markdown-Tabelle)

| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 4090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | nicht im Post belegt |
| Modell + Quant | Gemma 4 26B-A4B, Gemma 4 12B |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | 138 tok/s (26B), 80 tok/s (12B) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? (3-5 Sätze): Die 26B-Version von Gemma 4 hat in allen Tests bessere Ergebnisse erzielt, insbesondere in der Geschwindigkeit und der VRAM-Nutzung. Die 12B-Version ist jedoch eine gute Alternative für Systeme mit weniger VRAM, da sie fast die gleichen Ergebnisse liefert.

Was NICHT funktioniert / Limits (2-4 Sätze): Die 12B-Version hat zwar weniger VRAM benötigt, aber in einigen Szenarien waren die Ergebnisse nicht so gut wie bei der 26B-Version. Die Kontext-Länge und die Modell-Größe sind begrenzt, was die Anwendungsmöglichkeiten einschränkt.

Nachbau-Empfehlung (2-4 Sätze): Das Setup mit der 26B-Version ist zu empfehlen, wenn genügend VRAM verfügbar ist. Für Systeme mit weniger VRAM ist die 12B-Version eine gute Alternative, obwohl die Leistung leicht nachlässt.


Another shout out to llama.cpp build b9455 2×3090 (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht (2-4 Sätze): Der Autor hat das llama.cpp-Build b9455 auf einem 2x RTX 3090-Setup getestet und berichtet über die erzielten Leistungssteigerungen. Die Code-Ausgabe ist sauberer und die Geschwindigkeit hat sich deutlich verbessert.

Reales Setup (komplette Fakten-Tabelle — bitte als Markdown-Tabelle)

| Feld | Wert |
|—|—|
| GPU(s) | 2x RTX 3090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp b9455 |
| Modell + Quant | Qwen3.6-27B-MTP UD-Q8_K_XL |
| Kontext-Laenge | 262144 |
| tok/s (single) | 70+ tok/s |
| tok/s (batched) | 215 tok/s aggregate bei 8 streams |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): Mit der neuesten llama.cpp-Version konnte der Autor die Geschwindigkeit auf über 70 tok/s steigern und die Code-Ausgabe erheblich verbessern. Die Batch-Verarbeitung erreicht bis zu 215 tok/s bei 8 Streams.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Kontext-Länge von 262144 ist hoch, aber es gibt immer noch Grenzen bei der Modell-Größe und der VRAM-Nutzung. Die Leistung kann je nach Task variieren.

Nachbau-Empfehlung (2-4 Sätze): Das Setup mit 2x RTX 3090 und llama.cpp b9455 ist zu empfehlen, insbesondere für Benutzer, die eine hohe Geschwindigkeit und saubere Code-Ausgabe benötigen. Die Batch-Verarbeitung ist besonders nützlich für produktive Anwendungen.


Cost Analysis of my $6.4k Local LLM Server (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Autor hat die Kosten seines lokalen LLM-Servers im Wert von 6.400 USD analysiert und mit den Kosten der Verwendung von Cloud-APIs verglichen. Das Setup besteht aus 4x MI100 32GB-GPUs und verarbeitet täglich 20,4 Mio. Eingabetoken und 1,32 Mio. Ausgabetoken.

Reales Setup (komplette Fakten-Tabelle — bitte als Markdown-Tabelle)

| Feld | Wert |
|—|—|
| GPU(s) | 4x MI100 32GB |
| CPU / Mainboard | ASRock ROMED8-2T |
| RAM | 8x8GB DDR4 ECC RDIMMs |
| PSU | 1600W 80+ Plat PSU |
| Chassis / Kuehlung | ATX Case, 4x 75x30mm Blower |
| Framework + Version | llama.cpp, Ubuntu, ROCm |
| Modell + Quant | Qwen3.6 27B |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | 20.4 Mio. Eingabetoken, 1.32 Mio. Ausgabetoken pro Tag |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | 6.406,45 USD |
| Autarkie-Fit | JA |

Was funktioniert konkret? (3-5 Sätze): Das Setup verarbeitet täglich 20,4 Mio. Eingabetoken und 1,32 Mio. Ausgabetoken, was für den Autors Geschäftszweck ausreicht. Die Gesamtkosten sind deutlich günstiger als die Verwendung von Cloud-APIs.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Ausgabetoken-Rate ist niedriger als erwartet, was die Leistung etwas einschränkt. Die Stromverbrauchskosten und die Wärmeentwicklung müssen berücksichtigt werden.

Nachbau-Empfehlung (2-4 Sätze): Das Setup ist zu empfehlen, insbesondere für Benutzer, die eine hohe Token-Verarbeitung benötigen und langfristig Kosteneinsparungen erzielen möchten. Die Stromverbrauchskosten sollten im Voraus berechnet werden.


Weitere Beiträge (kurz):

How does the new abliteration tool Apostate compare with others? – Abliterlitics — keine Hardware belegt, kein nachbaubares Setup
Added an old 2070 Super to my rig and I can’t go back…worse, now I need more — keine konkrete GPU-Angabe, kein funktionierendes Setup
I built mlx-Chronos — a community benchmark leaderboard for local LLM engines on Apple Silicon (oMLX, Rapid-MLX, mlx-lm, Ollama) — keine konkrete GPU-Angabe, kein funktionierendes Setup
13 abliterated Gemma 4 E2B variants, 44 GPU hours, Benchmark and Comparison – Abliterlitics — keine konkrete GPU-Angabe, kein funktionierendes Setup
Fine tuning on DGX spark vs 4x 3090? — keine konkrete GPU-Angabe, kein funktionierendes Setup
I compared all specs of the major GPUs/machines that are being used here, because bandwidth is not everything. Some of ya’ll need a reality check. — keine konkrete GPU-Angabe, kein funktionierendes Setup
How do I make MTP work in llama-server? — keine konkrete GPU-Angabe, kein funktionierendes Setup
Krasis update: Qwen3.6-35B-A3B (Q4) at reading speed, 1x 8GB 3070 Mobile laptop (32GB RAM) — keine konkrete GPU-Angabe, kein funktionierendes Setup
DeepSeek V4 Flash at 8.4 tok/s on 3×3090: patching the GGUFs that won’t load on cchuter’s llama.cpp fork — keine konkrete GPU-Angabe, kein funktionierendes Setup

👁 0 Aufrufe 👤 0 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert