Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, funktionierende Setups zur lokalen Ausführung von KI-Modellen. Diese Woche gibt es besonders interessante Beiträge zu Qwen-3.6-27B, MiniMax M2.7, und verschiedenen GPU-Setups. Ein Leser kann heute Abend mit konkreten Benchmarks und Setup-Vorschlägen für Qwen-3.6-27B auf einem 3090 oder 3060 beginnen.

Benching local Qwen as a Codex validator, co-agent, and challenger (8/10) — OpenCode-Fit: JA

Worum es geht: Der Autor hat Qwen-3.6-27B lokal als Codex-Validator und Co-Agent getestet. Er hat ein Evaluierungssuite entwickelt, um verschiedene Qwen-3.6-27B-Profile zu testen, einschließlich Bartowski und Unsloth-Varianten, unterschiedliche Kontextgrößen und q8/f16 KV-Cache.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Qwen-3.6-27B läuft stabil als Codex-Validator und Co-Agent. Die besten Profile für 128k Kontext sind Bartowski-128k-f16, Bartowski-128k-q8 und Unsloth-128k-q8. Die Kontextgröße hat mehr Einfluss als die KV-Cache-Variante (f16 vs. q8).

Was NICHT funktioniert / Limits Die 65k-Profile scheitern bei Kontextgrößen über 65k. Unsloth-128k-f16 hat lokale Speicher- und Durchsatzprobleme bei langen Kontexten.

Nachbau-Empfehlung Dieses Setup ist empfehlenswert für Entwickler, die Qwen-3.6-27B als Codex-Validator und Co-Agent einsetzen möchten. Es ist kostengünstig und bietet gute Leistung bei 128k Kontext.

MiniMax M2.7 AWQ-4bit on 2x Spark vs 2x RTX 6000 96GB – performance and energy efficiency (7/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Autor vergleicht die Leistung und Energieeffizienz von MiniMax M2.7 AWQ-4bit auf 2x Spark-GPUs und 2x RTX 6000 96GB-GPUs. Er stellt Benchmarks und Energieverbrauch dar.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? MiniMax M2.7 AWQ-4bit läuft stabil auf 2x RTX 6000 96GB und erreicht 30 tok/s bei 128k Kontext. Die Energieeffizienz ist gut, aber die Kosten sind hoch.

Was NICHT funktioniert / Limits Die Spark-GPUs sind weniger leistungsfähig und energieintensiver. Parallel hochkontextuelle Anfragen führen zu Throttling und Leistungsverlust.

Nachbau-Empfehlung Dieses Setup ist für professionelle Anwendungen geeignet, aber wegen der hohen Kosten nicht für den privaten Haushalt. Für den privaten Einsatz sind günstigere Optionen wie 2x RTX 3090 zu empfehlen.

3xR9700 for semi-autonomous research and development – looking for setup/config ideas. (6/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Autor beschreibt sein Setup mit 3x R9700-GPUs und sucht nach Ideen für die Konfiguration. Er verwendet Qwen-3.6-27B auf 2x R9700-GPUs und plant, 3 agente zu betreiben.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup läuft stabil mit Qwen-3.6-27B auf 2x R9700-GPUs. Es bietet ausreichend VRAM für 128k Kontext und kann für semi-autonome Forschung und Entwicklung genutzt werden.

Was NICHT funktioniert / Limits Die PCI-Verbindung des 3. GPUs ist eine Einschränkung. Die Leistung bei verteiltem Modellbetrieb könnte beeinträchtigt sein. Eine Upgrade auf Threadripper oder PCIe-Fabric-Karte wäre sinnvoll.

Nachbau-Empfehlung Dieses Setup ist für fortgeschrittene Benutzer geeignet, die semi-autonome Forschung und Entwicklung betreiben möchten. Für den privaten Haushalt sind günstigere Optionen wie 2x RTX 3090 zu empfehlen.

Weitere Beiträge:

👁 0 Aufrufe 👤 0 Leser