Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build-Berichten und Benchmarks geprägt. Besonders hervorzuheben sind die Einträge, die detaillierte Hardware- und Software-Konfigurationen sowie praktische Zahlen zu tokens/sekunde und Kontext-Längen liefern. Diese Woche sind insbesondere die Einträge zu Qwen 3.6 27B auf RTX 3090 und die Vergleichsbewertung von MiniMax M2.7 AWQ-4bit auf Spark vs. RTX 6000 96GB besonders belegt. Ein Leser kann heute Abend mit diesen Setups beginnen, um ein funktionierendes, lokales KI-Setup aufzubauen.

[Qwen3.6-27B at 72 tok/s on RTX 3090 on Windows using native vLLM (no WSL, no Docker), portable launcher and installer] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Autor präsentiert ein Setup, das Qwen 3.6 27B auf einem RTX 3090 unter Windows laufen lässt, ohne WSL oder Docker. Es bietet eine einfache Installation und erzielt stabile Leistungsdaten.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Das Setup erreicht stabile Leistungsdaten von 72 tokens/sekunde bei kurzen Prompts und 53.4 tokens/sekunde bei einer Kontext-Länge von 127k. Die einfache Installation und der portable Launcher machen es benutzerfreundlich, ohne zusätzliche Software wie WSL oder Docker zu benötigen.

Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung bei sehr langen Kontexten (über 127k) kann durch die GPU-Beschränkungen beeinträchtigt sein. Das Setup ist spezifisch für Windows und funktioniert nicht auf AMD-GPUs oder älteren NVIDIA-Modellen.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Benutzer mit einem RTX 3090 und Windows geeignet. Es bietet eine gute Balance zwischen Leistung und Benutzerfreundlichkeit. Für Benutzer mit höheren Anforderungen oder anderen GPUs könnte eine Anpassung der Konfiguration erforderlich sein.

[MiniMax M2.7 AWQ-4bit on 2x Spark vs 2x RTX 6000 96GB – performance and energy efficiency] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht (2-4 Sätze): Der Autor vergleicht die Leistung und Energieeffizienz von MiniMax M2.7 AWQ-4bit auf einem 2x Spark-Cluster mit einem 2x RTX 6000 96GB-Setup. Die Benchmarks zeigen, dass der Spark-Cluster überraschend gut abschneidet, besonders in Bezug auf den Preis-Leistungs-Verhältnis.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Das 2x RTX 6000-Setup ist 2.7x schneller bei Prompt-Verarbeitung und 4.88x schneller bei Token-Generierung im Vergleich zum 2x Spark-Cluster. Beide Setups zeigen ähnliche Energieverbrauchswerte, was das Preis-Leistungs-Verhältnis des Spark-Clusters verbessert.

Was NICHT funktioniert / Limits (2-4 Sätze): Bei parallelen Anfragen mit hohen Kontexten treten Leistungsengpässe auf, insbesondere bei der KV-Cache-Beschränkung. Das 2x RTX 6000-Setup ist teurer, aber leistungsfähiger.

Nachbau-Empfehlung (2-4 Sätze): Das 2x Spark-Setup ist für Benutzer mit einem geringeren Budget und moderaten Leistungsanforderungen geeignet. Das 2x RTX 6000-Setup ist für Benutzer mit höheren Anforderungen und einem höheren Budget die bessere Wahl. Beide Setups sind für den privaten Einsatz tauglich, aber das 2x RTX 6000-Setup bietet bessere Skalierbarkeit.

[We are finally there: Qwen3.6-27B + agentic search; 95.7% SimpleQA on a single 3090, fully local] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht (2-4 Sätze): Der Autor berichtet über ein Setup, das Qwen 3.6 27B auf einem RTX 3090 laufen lässt und 95.7% Genauigkeit bei SimpleQA erreicht. Das Setup nutzt LDR’s langgraph_agent-Strategie und Tool-Calling.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? (3-5 Sätze): Das Setup erreicht 95.7% Genauigkeit bei SimpleQA und 77.0% bei xbench-DeepSearch. Die Verwendung von LDR’s langgraph_agent-Strategie und Tool-Calling verbessert die Leistung und Genauigkeit des Modells.

Was NICHT funktioniert / Limits (2-4 Sätze): Es besteht ein Risiko von SimpleQA-Verunreinigung bei neueren Basismodellen. Die Benchmarks sind in Chinesisch, was einen Vorteil für chinesische Modelle wie Qwen darstellt. Weitere Benchmarks wie BrowseComp oder GAIA sind noch nicht durchgeführt.

Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Benutzer geeignet, die eine hohe Genauigkeit bei SimpleQA und xbench-DeepSearch benötigen. Es ist empfehlenswert, die LDR-Strategie und Tool-Calling zu verwenden, um die Leistung zu optimieren. Für Benutzer mit anderen Anforderungen könnte eine Anpassung der Benchmarks erforderlich sein.

Weitere Beiträge (kurz):

👁 0 Aufrufe 👤 0 Leser