Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung (4-6 Sätze): Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, funktionierende Setups von lokalen KI-Modellen. Diese Woche gibt es einige bemerkenswerte Beiträge, die detaillierte Hardware- und Software-Konfigurationen sowie Leistungsdaten liefern. Besonders hervorzuheben sind die Benchmarks von Qwen-3.6-35B auf verschiedenen GPUs und ein umfangreiches TTS-Benchmark, das 21 GPUs vergleicht. Ein Leser kann heute Abend mit diesen Informationen ein nachbaufähiges Setup für OpenCode starten.

[Update on 12x32gb sxm v100 cluster / local AI for legal drafting] (8/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Ein Rechtsanwalt berichtet über sein 12x V100-SXM2 32GB Cluster auf einem Threadripper Pro. Er beschreibt, wie er das Setup für die lokale Ausführung von KI-Modellen optimiert hat, insbesondere für die Verwendung von MoE-Modellen wie Qwen3.6-35B-A3B.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Das Setup läuft stabil mit MoE-Modellen wie Qwen3.6-35B-A3B, die bei 122B/10B-aktiven Parametern ~50 tok/s erreichen. Die Kontext-Länge von 25k+ Tokens ist sehr gut, und das Modell hält diese Leistung bei langen Kontexten. Es ist besonders gut für komplexe Aufgaben wie rechtliche Texterstellung geeignet.

Was NICHT funktioniert / Limits (2-4 Sätze): Dense-Modelle sind auf V100-GPUs zu langsam und ineffizient. Das Setup ist zu groß und teuer für einen privaten Haushalt. Es erfordert spezialisierte Hardware und ist nicht leicht nachbaubar.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist eher für professionelle Anwendungen geeignet. Für Privatanwender empfehlen wir eine kleinere Konfiguration mit 2-4 RTX 3090/4090/5090-GPUs, die ebenfalls MoE-Modelle effizient ausführen kann.

[BeeLlama v0.2.0 – major DFlash update. Single RTX 3090: Qwen 3.6 27B up to 164 tps (4.40x), Gemma 4 31B up to 177.8 tps (4.93x). Prompt processing speed near baseline.] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): BeeLlama v0.2.0 bringt erhebliche Leistungsverbesserungen für Qwen 3.6 27B und Gemma 4 31B auf einer einzelnen RTX 3090. Die Updates umfassen eine effizientere DFlash-Implementierung, verbesserte CUDA-Optimierungen und eine saubere Prefill-Handhabung.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): BeeLlama v0.2.0 erzielt erhebliche Leistungssteigerungen bei der Token-Generierung, insbesondere bei Qwen 3.6 27B und Gemma 4 31B. Die Prompt-Verarbeitung ist nahe am Baseline-Level, was die Gesamtleistung weiter verbessert. Das Setup ist ideal für OpenCode-Aufgaben und bietet eine ausgezeichnete Kosteneffizienz.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung kann abhängig von der spezifischen Aufgabe und dem Kontext variieren. Die Verarbeitung von sehr langen Kontexten kann langsamer sein, aber die meisten typischen OpenCode-Aufgaben werden gut unterstützt.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Privatanwender sehr empfehlenswert, insbesondere für die Ausführung von Qwen 3.6 27B und Gemma 4 31B. Es bietet eine ausgezeichnete Leistung bei moderaten Kosten und ist leicht nachbaubar.

[Qwen 3.6 35B GGUF: NTP vs MTP quantization results across GPUs and CPUs] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Die Autoren haben Qwen 3.6 35B in NTP- und MTP-Varianten quantisiert und auf verschiedenen GPUs und CPUs getestet. Die Ergebnisse zeigen, dass MTP eine erhebliche Leistungssteigerung auf GPUs bringt, während NTP auf CPUs besser abschneidet.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): MTP-Quantisierung bringt auf GPUs eine erhebliche Leistungssteigerung, oft um 20-40%, während NTP auf CPUs besser abschneidet. Die größeren Quantisierungen (z.B. 8-bit) sind oft genauso effizient wie kleinere, was die Wahl der Quantisierung erleichtert. Die Prompt-Verarbeitung und Token-Generierung sind bei beiden Varianten sehr gut.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung von MTP kann stark von der spezifischen Workload abhängen. Auf 16GB-GPUs und Raspberry Pi 5 kann die Leistung von MTP eingeschränkt sein. Es ist wichtig, die spezifischen Anforderungen zu berücksichtigen.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Privatanwender sehr empfehlenswert, insbesondere für die Ausführung von Qwen 3.6 35B auf GPUs. Die Wahl zwischen NTP und MTP hängt von der spezifischen Hardware und den Anforderungen ab. Für CPUs ist NTP die bessere Wahl.

[21 GPU’s benchmarked running a small TTS model (vram peak: 5GB)] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Autor hat 21 verschiedene GPUs auf vast.ai getestet, um ein kleines TTS-Modell (OmniVoice) zu benchmarken. Die Ergebnisse zeigen, wie sich die GPUs im Vergleich zueinander verhalten, insbesondere in Bezug auf die Audio-Generierungsgeschwindigkeit.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Die Benchmarks zeigen, dass moderne GPUs wie die RTX 3090 und 2080 Ti sehr gute Leistungen bei der Audio-Generierung erzielen. Die RTX 3090 ist etwa 3x schneller als die 1080 Ti, was sie zu einer excellenten Wahl für TTS-Aufgaben macht.

Was NICHT funktioniert / Limits (2-4 Sätze): Ältere GPUs wie die 1080 Ti und 980 Ti sind deutlich langsamer und bieten eine geringere Kosteneffizienz. Die Leistung kann auch von der spezifischen Workload abhängen, insbesondere bei komplexeren Modellen.

Nachbau-Empfehlung (2-4 Sätze): Für TTS-Aufgaben sind moderne GPUs wie die RTX 3090 und 2080 Ti sehr empfehlenswert. Ältere GPUs sind weniger effizient und bieten eine geringere Leistung. Die Wahl der GPU hängt von den spezifischen Anforderungen und dem Budget ab.

Weitere Beiträge (kurz):

👁 8 Aufrufe 👤 7 Leser