Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist voller konkreter Berichte und Benchmarks von Community-Usern, die ihre lokalen KI-Setups dokumentieren. In dieser Woche sind insbesondere die Einträge zu DiffusionGemma 26B auf 4x7900XTX und Qwen3.6-MTP-27B auf einem Tesla V100 besonders belegt. Diese Setups bieten nützliche Einblicke in die Leistung und die praktische Anwendung von lokalen KI-Modellen. Ein Leser kann heute Abend mit diesen Beispielen anfangen, um ein funktionierendes Setup für OpenCode zu bauen.

[DiffusionGemma 26B A4B results on my 5090] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer hat DiffusionGemma 26B A4B auf einem RTX 5090 (32 GB VRAM) getestet und die Ergebnisse dokumentiert. Er verwendet `llama.cpp` PR #24423 und hat verschiedene Quantisierungen und Parameter getestet, um die besten Leistungs- und Kontext-Längenwerte zu ermitteln.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Das Setup läuft stabil mit hohen tok/s-Werten, insbesondere bei der Q6_K-Quantisierung. Die Kontext-Länge von 6,144 für Q6_K und 10,240 für Q4_K_M ist für viele Anwendungen ausreichend. Die Modelle sind gut für Tool-Calling und Agent-tauglich.

Was NICHT funktioniert / Limits (2-4 Sätze): Flash Attention ist auf dem RTX 5090 (SM120) automatisch deaktiviert, was die Kontext-Länge begrenzt. Die Leistung kann bei sehr großen Kontexten abnehmen. Die Stromverbrauchswerte und die Autarkie-Fähigkeit sind nicht spezifiziert.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer mit einem RTX 5090 und einem moderaten Budget geeignet. Die Q6_K-Quantisierung ist die beste Wahl für eine gute Balance zwischen Leistung und Kontext-Länge. Für Benutzer mit höheren Anforderungen könnte die Q4_K_M-Quantisierung interessant sein, obwohl sie etwas langsamer ist.

[Spent the weekend on the Apodex 4b, plus a quick look at the 35b mini] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer hat das Apodex-Modell in verschiedenen Größen (0.8B, 2B, 4B, 35B) auf einem RTX 3090 getestet. Er hat insbesondere das 4B-Modell in fp16 über vLLM und das 35B-Modell über transformers mit aggressiver CPU-Offload getestet. Das 4B-Modell zeigte bessere Ergebnisse in der Vermeidung von Halluzinationen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Das 4B-Modell läuft stabil und zeigte bessere Ergebnisse in der Vermeidung von Halluzinationen im Vergleich zu anderen 4B-Modellen. Es ist gut für tägliche Aufgaben und Multi-Hop-Fragen geeignet. Das 35B-Modell ist auf einem einzelnen RTX 3090 zu langsam für fortlaufende Anwendungen, aber nützlich für gelegentliche Fragen.

Was NICHT funktioniert / Limits (2-4 Sätze): Das 35B-Modell ist auf einem einzelnen RTX 3090 zu langsam und nicht für fortlaufende Anwendungen geeignet. Es gibt keine offizielle gguf-Quantisierung für das 35B-Modell, was die Verwendung erschwert.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer mit einem RTX 3090 und einem moderaten Budget geeignet. Das 4B-Modell in fp16 über vLLM ist die beste Wahl für eine gute Leistung und Vermeidung von Halluzinationen. Das 35B-Modell ist eher für gelegentliche Fragen geeignet.

[DifussionGemma 4 on 4x7900xtx] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer hat DiffusionGemma 4 auf 4x AMD Radeon RX 7900 XTX getestet und die Leistung und Kontext-Längen dokumentiert. Er verwendet vLLM und Docker für die Bereitstellung des Modells.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Das Setup erreicht hohe tok/s-Werte, insbesondere bei der Verarbeitung von großen Kontexten. Die GPU-Verwendung und der VRAM-Verbrauch sind effizient, und das Modell läuft stabil. Es ist gut für Tool-Calling und Agent-taugliche Aufgaben geeignet.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung kann bei sehr großen Kontexten abnehmen. Die Stromverbrauchswerte sind moderat, aber die Autarkie-Fähigkeit ist nicht spezifiziert. Das Setup ist für Benutzer mit mehreren GPUs geeignet, was die Kosten erhöht.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer mit mehreren AMD Radeon RX 7900 XTX-GPUs und einem höheren Budget geeignet. Es bietet eine ausgezeichnete Leistung und ist gut für Tool-Calling und Agent-taugliche Aufgaben geeignet. Die Stromverbrauchswerte sind moderat, aber die Autarkie-Fähigkeit sollte berücksichtigt werden.

[INT8 Q/DQ on Blackwell beats TRT 10 + auto-FP16 by 1.8× — practical calibration writeup] (6/10) — OpenCode-Fit: NEIN

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer hat eine INT8-Quantisierung auf einem RTX 5090 durchgeführt und die Leistung mit TRT 10 + auto-FP16 verglichen. Die INT8-Quantisierung erreichte eine 1.8-fache Leistung ohne messbaren Qualitätsverlust.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Die INT8-Quantisierung erreichte eine 1.8-fache Leistung im Vergleich zu TRT 10 + auto-FP16. Es gab keinen messbaren Qualitätsverlust, und das Modell zeigte gute Ergebnisse in der Praxis.

Was NICHT funktioniert / Limits (2-4 Sätze): Das Setup ist spezifisch für die Verwendung von NVIDIA TensorRT 11 und der 5. Generation Tensor Cores. Es ist nicht direkt anwendbar auf andere Frameworks oder GPUs. Die Autarkie-Fähigkeit und die Stromverbrauchswerte sind nicht spezifiziert.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer mit einem RTX 5090 und der Verwendung von NVIDIA TensorRT 11 geeignet. Es bietet eine ausgezeichnete Leistung, aber die Anwendung ist begrenzt auf spezifische Frameworks und GPUs. Die Autarkie-Fähigkeit sollte berücksichtigt werden.

[Qwen3.6-MTP-27B on Tesla V100 @ 55 TPS (llama.cpp) — Any way to push this higher without quality loss?] (5/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer hat Qwen3.6-MTP-27B auf einem Tesla V100 getestet und erreicht 55 tokens/sec. Er sucht nach Möglichkeiten, die Durchsatzrate zu erhöhen, ohne die Ausgabequalität zu beeinträchtigen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Das Setup erreicht eine durchschnittliche Durchsatzrate von 44-48 tok/s, was für viele Anwendungen ausreichend ist. Das Modell läuft stabil und ist gut für Tool-Calling und Agent-taugliche Aufgaben geeignet.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Durchsatzrate von 55 tok/s ist niedriger als erwartet. Es gibt Möglichkeiten, die Leistung zu verbessern, aber dies kann die Ausgabequalität beeinträchtigen. Die Kontext-Länge von 262,144 tokens kann bei kurzen Konversationen die Leistung beeinträchtigen.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer mit einem Tesla V100 und einem moderaten Budget geeignet. Es bietet eine gute Leistung, aber es gibt Möglichkeiten zur Optimierung. Die Kontext-Länge sollte angepasst werden, um die Leistung zu verbessern.

Weitere Beiträge (kurz):

– I’m brand new to running LLMs and the sheer number of tools is overwhelming — keine Hardware belegt, kein nachbaubares Setup
– How-to guide to create audiobooks? — keine Hardware belegt, kein nachbaubares Setup
– Luce Spark: a 35B MoE on a 16 GB GPU, without the offload tax — keine konkrete GPU belegt, kein nachbaubares Setup
– [[2×3090]: SymmMemCommunicator: Device capability 8.6 not supported, communicator is not available.](https://old.reddit.com/r/LocalLLaMA/comments/1u0a2dg/2x3090_symmmemcommunicator_device_capability_86/) — keine konkrete GPU belegt, kein nachbaubares Setup
– [[3090] Gemma4 QAT + MTP quick TPS numbers [TLDR 1.2-1.8x better]](https://old.reddit.com/r/Local

👁 0 Aufrufe 👤 0 Leser