Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Community, in der User ihre lokalen KI-Setups dokumentieren und benchmarken. Diese Woche gibt es einige besonders interessante Beiträge, die funktionierende Setups mit konkreten Zahlen und Erfahrungen bieten. Besonders hervorzuheben sind die Builds mit AMD 7900 XTX, RTX 5090 und RTX 3090, die hohe Durchsatzraten und stabile Leistung zeigen. Mit diesen Setups kann ein Leser heute Abend direkt loslegen und ein eigenes lokales KI-Setup aufbauen.

[DiffusionGemma 26B A4B — Tuning Results on RTX 5090] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der User hat DiffusionGemma 26B A4B auf einem RTX 5090 (32 GB VRAM) getestet und optimiert. Er verwendet `llama.cpp` PR #24423 und hat verschiedene Quantisierungen und Konfigurationen getestet, um die besten Leistungsparameter zu finden.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Das Setup erreicht hohe Durchsatzraten von bis zu 180 tok/s bei Q4_K_M-Quantisierung. Die Kontextlänge von 10,240 Tokens ist für viele Anwendungen ausreichend. Die Flash Attention ist auf dem RTX 5090 automatisch deaktiviert, was die Leistung beeinträchtigt, aber dennoch stabile Ergebnisse liefert.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Flash Attention ist auf dem RTX 5090 deaktiviert, was die Kontextlänge auf 10,240 Tokens begrenzt. Für Anwendungen, die eine längere Kontextlänge benötigen, könnte dies ein Limit darstellen.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für User mit einem RTX 5090 und einem Budget von ca. 1,500 EUR empfehlenswert. Die Q4_K_M-Quantisierung bietet eine gute Balance zwischen Leistung und Kontextlänge. Für längere Kontextlängen könnte eine GPU mit Flash Attention-Unterstützung in Betracht gezogen werden.

[DiffusionGemma 4 on 4x7900xtx] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der User hat DiffusionGemma 4 auf 4x AMD 7900 XTX getestet und erreicht 100 tps bei der Generierung, aber insgesamt 45-60 tps bei der Verarbeitung des Prompts. Er verwendet `vLLM` und hat die GPU- und Systemkonfiguration detailliert beschrieben.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Das Setup erreicht hohe Durchsatzraten von 100 tps bei der Generierung und 45-60 tps bei der Verarbeitung des Prompts. Die Kontextlänge von 131,072 Tokens ist sehr groß und ermöglicht komplexe Aufgaben. Die GPU-Verbrauchswerte sind moderat und passen in einen privaten Haushalt.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Verarbeitung des Prompts ist langsamer als die Generierung, was die Gesamtleistung beeinträchtigt. Die GPU-Verbrauchswerte sind moderat, aber für längere Sitzungen könnte die Kühlung und der Stromverbrauch ein Limit darstellen.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für User mit einem Budget von ca. 2,000 EUR und einem Bedarf an hoher Kontextlänge und Generierungsgeschwindigkeit empfehlenswert. Die Verarbeitung des Prompts ist langsamer, was bei kurzen Aufgaben weniger kritisch ist.

[Luce Spark: a 35B MoE on a 16 GB GPU, without the offload tax] (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der User hat Luce Spark vorgestellt, eine Methode, um 35B MoE-Modelle auf einer 16 GB GPU zu betreiben, ohne den Leistungsverlust durch Offloading. Er verwendet `dflash_server` und hat die Leistung und die Speicherverwaltung detailliert beschrieben.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Luce Spark ermöglicht es, 35B MoE-Modelle auf einer 16 GB GPU zu betreiben, ohne den Leistungsverlust durch Offloading. Die Leistung bleibt bei 119 tok/s bei voller Residenz und 100 tok/s bei 60% Residenz. Die Speicherverwaltung ist effizient und die Leistung stabil.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung sinkt bei niedriger Residenz, was für längere Aufgaben ein Limit darstellen kann. Die Speicherverwaltung ist effizient, aber für sehr komplexe Aufgaben könnte die GPU-Grenze erreicht werden.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für User mit einem RTX 3090 und einem Budget von ca. 1,000 EUR empfehlenswert. Die Leistung und die Speicherverwaltung sind gut, aber für sehr komplexe Aufgaben könnte eine GPU mit mehr VRAM in Betracht gezogen werden.

Weitere Beitraege (automatisch gefiltert):
– Benchmark DFlash Speculative Decoding + KV Cache Compression on RTX 5090 — 3.26x Speedup — zu duenne Description, keine nachbaubaren Daten

👁 0 Aufrufe 👤 0 Leser