Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build-Berichten und Benchmarks dominiert. Besonders hervorzuheben sind die Einträge, die detaillierte Hardware- und Software-Konfigurationen sowie praktische Erfahrungen mit lokalen KI-Setups dokumentieren. Ein Leser kann heute Abend mit einem 2x RTX 3090-Setup oder einem Mac Studio M3 Ultra beginnen, um OpenCode lokal zu betreiben.

New Google Gemma 4 12B Claims Near-26B Performance – We Tested Both! (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Die Autoren haben beide Modelle, Gemma 4 26B-A4B und Gemma 4 12B, auf einem RTX 4090 getestet. Sie haben den gleichen Task durchgeführt: die Erstellung einer HTML5-Canvas-Animation mit realen Physik. Die 26B-Version hat in allen Szenarien besser abgeschnitten, aber die 12B-Version hat fast die gleichen Ergebnisse erzielt und weniger VRAM benötigt.

Reales Setup (komplette Fakten-Tabelle — bitte als Markdown-Tabelle)

Was funktioniert konkret? (3-5 Sätze): Die 26B-Version von Gemma 4 hat in allen Tests bessere Ergebnisse erzielt, insbesondere in der Geschwindigkeit und der VRAM-Nutzung. Die 12B-Version ist jedoch eine gute Alternative für Systeme mit weniger VRAM, da sie fast die gleichen Ergebnisse liefert.

Was NICHT funktioniert / Limits (2-4 Sätze): Die 12B-Version hat zwar weniger VRAM benötigt, aber in einigen Szenarien waren die Ergebnisse nicht so gut wie bei der 26B-Version. Die Kontext-Länge und die Modell-Größe sind begrenzt, was die Anwendungsmöglichkeiten einschränkt.

Nachbau-Empfehlung (2-4 Sätze): Das Setup mit der 26B-Version ist zu empfehlen, wenn genügend VRAM verfügbar ist. Für Systeme mit weniger VRAM ist die 12B-Version eine gute Alternative, obwohl die Leistung leicht nachlässt.

Another shout out to llama.cpp build b9455 2×3090 (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Autor hat das llama.cpp-Build b9455 auf einem 2x RTX 3090-Setup getestet und berichtet über die erzielten Leistungssteigerungen. Die Code-Ausgabe ist sauberer und die Geschwindigkeit hat sich deutlich verbessert.

Reales Setup (komplette Fakten-Tabelle — bitte als Markdown-Tabelle)

Was funktioniert konkret? (3-5 Sätze): Mit der neuesten llama.cpp-Version konnte der Autor die Geschwindigkeit auf über 70 tok/s steigern und die Code-Ausgabe erheblich verbessern. Die Batch-Verarbeitung erreicht bis zu 215 tok/s bei 8 Streams.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Kontext-Länge von 262144 ist hoch, aber es gibt immer noch Grenzen bei der Modell-Größe und der VRAM-Nutzung. Die Leistung kann je nach Task variieren.

Nachbau-Empfehlung (2-4 Sätze): Das Setup mit 2x RTX 3090 und llama.cpp b9455 ist zu empfehlen, insbesondere für Benutzer, die eine hohe Geschwindigkeit und saubere Code-Ausgabe benötigen. Die Batch-Verarbeitung ist besonders nützlich für produktive Anwendungen.

Cost Analysis of my $6.4k Local LLM Server (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Autor hat die Kosten seines lokalen LLM-Servers im Wert von 6.400 USD analysiert und mit den Kosten der Verwendung von Cloud-APIs verglichen. Das Setup besteht aus 4x MI100 32GB-GPUs und verarbeitet täglich 20,4 Mio. Eingabetoken und 1,32 Mio. Ausgabetoken.

Reales Setup (komplette Fakten-Tabelle — bitte als Markdown-Tabelle)

Was funktioniert konkret? (3-5 Sätze): Das Setup verarbeitet täglich 20,4 Mio. Eingabetoken und 1,32 Mio. Ausgabetoken, was für den Autors Geschäftszweck ausreicht. Die Gesamtkosten sind deutlich günstiger als die Verwendung von Cloud-APIs.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Ausgabetoken-Rate ist niedriger als erwartet, was die Leistung etwas einschränkt. Die Stromverbrauchskosten und die Wärmeentwicklung müssen berücksichtigt werden.

Nachbau-Empfehlung (2-4 Sätze): Das Setup ist zu empfehlen, insbesondere für Benutzer, die eine hohe Token-Verarbeitung benötigen und langfristig Kosteneinsparungen erzielen möchten. Die Stromverbrauchskosten sollten im Voraus berechnet werden.

Weitere Beiträge (kurz):

👁 0 Aufrufe 👤 0 Leser