Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist der Ort, an dem Community-User ihre lokalen KI-Setups dokumentieren und benchmarken. In dieser Woche stehen insbesondere die Einträge von Benutzern im Fokus, die ihre Setups mit konkreten tok/s-Zahlen, Modell-Variationen und echten Erfahrungen aus mehreren Wochen Betrieb teilen. Ein Leser kann heute Abend mit konkreten Beispielen anfangen, wie er ein nachbaubares Setup für OpenCode lokal gegen Claude-Sonnet-Opus-4.6-Nähe aufbauen kann.

[Qwen 3.6 27B on 24GB VRAM setup: backend comparisons, quant choice and settings (llama.cpp, ik_llama.cpp, BeeLlama, vllm)] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Benutzer vergleicht verschiedene Backends (llama.cpp, ik_llama.cpp, BeeLlama, vllm) für das Modell Qwen 3.6 27B auf einem RTX 3090 24 GB. Ziel ist es, das beste Setup für eine hohe Leistung und einen stabilen Betrieb zu finden.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Das Setup mit ik_llama.cpp und dem Modell Qwen 3.6 27B erreicht eine hohe Leistung von 72.9 tok/s bei einer Kontext-Länge von 156k. Die q8_0 KV-Cache und die MTP-Unterstützung tragen dazu bei, dass das Setup stabil und effizient läuft.

Was NICHT funktioniert / Limits (2-4 Sätze): vLLM und club-3090 zeigten bei den Tests Probleme mit OOM-Cliffs bei hohen Kontext-Längen. llama.cpp und BeeLlama konnten die erwarteten Leistungen nicht erreichen.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für Benutzer mit einem RTX 3090 24 GB und einem Budget von ca. 1.000 EUR sehr empfehlenswert. Es bietet eine ausgezeichnete Leistung und ist für OpenCode-Workloads geeignet. Für höhere Leistungen und längere Kontexte könnten mehrere GPUs oder eine stärkere CPU in Betracht gezogen werden.

[BeeLlama v0.2.0 – major DFlash update. Single RTX 3090: Qwen 3.6 27B up to 164 tps (4.40x), Gemma 4 31B up to 177.8 tps (4.93x). Prompt processing speed near baseline.] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): BeeLlama v0.2.0 bringt erhebliche Leistungsverbesserungen für das Modell Qwen 3.6 27B und Gemma 4 31B auf einem RTX 3090. Die DFlash-Implementierung ermöglicht eine erhebliche Steigerung der tok/s-Werte.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): BeeLlama v0.2.0 erreicht bei Qwen 3.6 27B eine Leistung von 164 tok/s und bei Gemma 4 31B eine Leistung von 177.8 tok/s. Die Prompt-Verarbeitung ist nahe am Baseline-Level, was die Effizienz des Setups unterstreicht.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung von BeeLlama v0.2.0 ist stark abhängig von der Modell-Größe und der Kontext-Länge. Bei sehr langen Kontexten kann es zu Leistungsabfall kommen.

[Meet the Fleet of BlackBeard] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): BlackBeard präsentiert seine vollständige AI-HomeLab-Setup mit fünf verschiedenen Rechnern, die jeweils für unterschiedliche Aufgaben konfiguriert sind. Das Setup umfasst eine Vielzahl von GPUs und CPUs, von GTX 1070 bis hin zu RTX 5090.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Das Setup von BlackBeard bietet eine breite Palette von Rechnern für verschiedene Aufgaben, von Archivierung bis hin zu hochleistungsfähigen Inference-Setups. Die Kombination aus verschiedenen GPUs und CPUs ermöglicht eine flexible Nutzung für unterschiedliche Modelle und Workloads.

Was NICHT funktioniert / Limits (2-4 Sätze): Das Setup ist sehr umfangreich und teuer, was es für den privaten Haushalt nicht unbedingt geeignet macht. Die Stromverbrauch und die Wärmeentwicklung sind erheblich, was zusätzliche Kühlung und eine hohe Stromversorgung erfordert.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist für fortgeschrittene Benutzer mit einem hohen Budget und spezifischen Anforderungen geeignet. Für den privaten Haushalt könnten kleinere, weniger aufwendige Setups mit 1-2 GPUs und einer moderaten CPU ausreichend sein.

Weitere Beiträge (kurz):

👁 0 Aufrufe 👤 0 Leser