Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von Benutzern geprägt, die ihre lokalen KI-Setups dokumentieren und optimieren. Besonders hervorzuheben sind die Beiträge, die konkrete Hardware-Konfigurationen, Modell- und Framework-Details sowie Leistungsdaten liefern. Ein Leser kann heute Abend mit einem 27B-Modell auf einem RTX 3090 oder einem vergleichbaren Setup beginnen, um agentechnische Aufgaben zu lösen.

[Qwen3.6-27B at 72 tok/s on RTX 3090 on Windows using native vLLM (no WSL, no Docker), portable launcher and installer] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat ein einfaches, natives Setup für Windows entwickelt, um Qwen3.6-27B auf einem RTX 3090 zu laufen zu bringen. Es verwendet vLLM und erreicht 72 tok/s bei kurzen Prompts und 53.4 tok/s bei 127k Kontext.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht hohe Token-Raten bei kurzen und langen Prompts. Es ist einfach zu installieren und läuft ohne WSL oder Docker. Die Kontext-Länge von 127k bei einem einzelnen 3090 ist sehr beeindruckend.

Was NICHT funktioniert / Limits Das Setup ist spezifisch für Windows und funktioniert nicht auf AMD-GPUs oder älteren NVIDIA-Modellen. Die Stromverbrauchszahlen und die genauen Hardware-Konfigurationen sind nicht im Post belegt.

Nachbau-Empfehlung Dieses Setup ist ideal für Benutzer, die ein einfaches, natives Windows-Setup bevorzugen. Es ist kostengünstig und bietet hohe Leistung, besonders für agentechnische Aufgaben.

[We are finally there: Qwen3.6-27B + agentic search; 95.7% SimpleQA on a single 3090, fully local] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer berichtet über ein Setup, das Qwen3.6-27B auf einem RTX 3090 mit agentechnischer Suche verwendet. Es erreicht 95.7% Genauigkeit bei SimpleQA und 77% bei xbench-DeepSearch.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht sehr hohe Genauigkeiten bei SimpleQA und xbench-DeepSearch. Es nutzt agentechnische Suche und Tool-Calls, um die Leistung zu verbessern.

Was NICHT funktioniert / Limits Die genauen Token-Raten und die maximale Kontext-Länge sind nicht im Post belegt. Die Hardware-Konfiguration ist nicht vollständig dokumentiert.

Nachbau-Empfehlung Dieses Setup ist ideal für Benutzer, die eine hohe Genauigkeit bei agentechnischen Aufgaben benötigen. Es ist kostengünstig und bietet hervorragende Ergebnisse, insbesondere bei SimpleQA.

[MiniMax M2.7 AWQ-4bit on 2x Spark vs 2x RTX 6000 96GB – performance and energy efficiency] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Benutzer vergleicht die Leistung und Energieeffizienz von MiniMax M2.7 AWQ-4bit auf 2x Spark-GPUs und 2x RTX 6000 96GB. Das Setup erreicht 2.7x höhere Token-Raten auf den RTX 6000, aber die Energieverbrauchsdifferenz ist gering.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Die RTX 6000-GPUs bieten signifikant höhere Token-Raten und sind 2.7x schneller als die Spark-GPUs. Die Energieeffizienz ist vergleichbar.

Was NICHT funktioniert / Limits Die Spark-GPUs sind bei parallelen Anfragen mit hohen Kontexten langsamer. Die genauen Token-Raten und die maximale Kontext-Länge sind nicht im Post belegt.

Nachbau-Empfehlung Dieses Setup ist ideal für Benutzer, die eine hohe Leistung und Energieeffizienz benötigen. Es ist jedoch teurer als alternative Optionen und eignet sich eher für professionelle Anwendungen.

[3xR9700 for semi-autonomous research and development – looking for setup/config ideas.] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Benutzer beschreibt sein Setup mit 3x R9700-GPUs und einer 9950X CPU. Er verwendet Qwen 3.6 27B auf den GPUs und llama.cpp mit Vulkan-Treibern. Das Setup ist für semi-autonome Forschung und Entwicklung konzipiert.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup läuft stabil und kann Qwen 3.6 27B auf den GPUs ausführen. Es ist für semi-autonome Forschung und Entwicklung geeignet, insbesondere für agentechnische Aufgaben.

Was NICHT funktioniert / Limits Die PCI-Verbindungen sind eine Einschränkung, insbesondere für die dritte GPU. Die genauen Token-Raten und die maximale Kontext-Länge sind nicht im Post belegt.

Nachbau-Empfehlung Dieses Setup ist ideal für Benutzer, die eine hohe Kontext-Länge und stabile Leistung benötigen. Es ist jedoch teurer und erfordert spezifische Hardware-Konfigurationen.

Weitere Beiträge:

– Doesn’t look like there are any recent Linux distro suggestions. What’s your favorite and why? — keine Hardware belegt, kein nachbaubares Setup
– What could they mean by „warmed steady-state“? — keine Hardware belegt, reine Frage ohne Lösung
– Need advice on Qwen 3.6 27B INT4 quantization — keine Hardware belegt, reine Frage ohne Lösung
– Need help/pointers setting up 3090 on Linux…(second 3090 incoming) — keine Hardware belegt, reine Frage ohne Lösung
– 5070 Ti —> 3090 move. Worth it? — keine Hardware belegt, reine Frage ohne Lösung
– What’s your tps on 3090 + Qwen 3.6 27B in real tasks? — keine Hardware belegt, reine Frage ohne Lösung
– I hate this group but not literally — keine Hardware belegt, reine Frage ohne Lösung

👁 1 Aufrufe 👤 1 Leser