Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von Benutzern geprägt, die ihre lokalen KI-Setups dokumentieren und optimieren. Besonders hervorzuheben sind die Beiträge, die konkrete Hardware-Konfigurationen, Modell- und Framework-Details sowie Leistungsdaten liefern. Ein Leser kann heute Abend mit einem 27B-Modell auf einem RTX 3090 oder einem vergleichbaren Setup beginnen, um agentechnische Aufgaben zu lösen.
[Qwen3.6-27B at 72 tok/s on RTX 3090 on Windows using native vLLM (no WSL, no Docker), portable launcher and installer] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer hat ein einfaches, natives Setup für Windows entwickelt, um Qwen3.6-27B auf einem RTX 3090 zu laufen zu bringen. Es verwendet vLLM und erreicht 72 tok/s bei kurzen Prompts und 53.4 tok/s bei 127k Kontext.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM (patched version)“ |
| Modell + Quant | „Qwen3.6-27B Q4_K GGUF“ |
| Kontext-Laenge | „127k (single GPU), 160k (2x 3090)“ |
| tok/s (single) | „72 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? Das Setup erreicht hohe Token-Raten bei kurzen und langen Prompts. Es ist einfach zu installieren und läuft ohne WSL oder Docker. Die Kontext-Länge von 127k bei einem einzelnen 3090 ist sehr beeindruckend.
Was NICHT funktioniert / Limits Das Setup ist spezifisch für Windows und funktioniert nicht auf AMD-GPUs oder älteren NVIDIA-Modellen. Die Stromverbrauchszahlen und die genauen Hardware-Konfigurationen sind nicht im Post belegt.
Nachbau-Empfehlung Dieses Setup ist ideal für Benutzer, die ein einfaches, natives Windows-Setup bevorzugen. Es ist kostengünstig und bietet hohe Leistung, besonders für agentechnische Aufgaben.
[We are finally there: Qwen3.6-27B + agentic search; 95.7% SimpleQA on a single 3090, fully local] (8/10) — OpenCode-Fit: JA
Worum es geht: Der Benutzer berichtet über ein Setup, das Qwen3.6-27B auf einem RTX 3090 mit agentechnischer Suche verwendet. Es erreicht 95.7% Genauigkeit bei SimpleQA und 77% bei xbench-DeepSearch.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „Ollama backend“ |
| Modell + Quant | „Qwen3.6-27B“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? Das Setup erreicht sehr hohe Genauigkeiten bei SimpleQA und xbench-DeepSearch. Es nutzt agentechnische Suche und Tool-Calls, um die Leistung zu verbessern.
Was NICHT funktioniert / Limits Die genauen Token-Raten und die maximale Kontext-Länge sind nicht im Post belegt. Die Hardware-Konfiguration ist nicht vollständig dokumentiert.
Nachbau-Empfehlung Dieses Setup ist ideal für Benutzer, die eine hohe Genauigkeit bei agentechnischen Aufgaben benötigen. Es ist kostengünstig und bietet hervorragende Ergebnisse, insbesondere bei SimpleQA.
[MiniMax M2.7 AWQ-4bit on 2x Spark vs 2x RTX 6000 96GB – performance and energy efficiency] (7/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Benutzer vergleicht die Leistung und Energieeffizienz von MiniMax M2.7 AWQ-4bit auf 2x Spark-GPUs und 2x RTX 6000 96GB. Das Setup erreicht 2.7x höhere Token-Raten auf den RTX 6000, aber die Energieverbrauchsdifferenz ist gering.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „2x RTX 6000 96GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM Latest (vllm/vllm-openai:latest)“ |
| Modell + Quant | „MiniMax M2.7 AWQ-4bit“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „2.7x faster on RTX 6000“ |
| tok/s (batched) | „4.88x faster on RTX 6000“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „2x RTX 6000: ~$20K“ |
| Autarkie-Fit | „BEDINGT“ |
Was funktioniert konkret? Die RTX 6000-GPUs bieten signifikant höhere Token-Raten und sind 2.7x schneller als die Spark-GPUs. Die Energieeffizienz ist vergleichbar.
Was NICHT funktioniert / Limits Die Spark-GPUs sind bei parallelen Anfragen mit hohen Kontexten langsamer. Die genauen Token-Raten und die maximale Kontext-Länge sind nicht im Post belegt.
Nachbau-Empfehlung Dieses Setup ist ideal für Benutzer, die eine hohe Leistung und Energieeffizienz benötigen. Es ist jedoch teurer als alternative Optionen und eignet sich eher für professionelle Anwendungen.
[3xR9700 for semi-autonomous research and development – looking for setup/config ideas.] (6/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Benutzer beschreibt sein Setup mit 3x R9700-GPUs und einer 9950X CPU. Er verwendet Qwen 3.6 27B auf den GPUs und llama.cpp mit Vulkan-Treibern. Das Setup ist für semi-autonome Forschung und Entwicklung konzipiert.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „3x R9700“ |
| CPU / Mainboard | „9950X + ASUS ProArt X870E“ |
| RAM | „96 GB“ |
| PSU | „1300W Taichi T1300“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp“ |
| Modell + Quant | „Qwen 3.6 27B Q8“ |
| Kontext-Laenge | „27B (2x GPUs), 96GB VRAM“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |
Was funktioniert konkret? Das Setup läuft stabil und kann Qwen 3.6 27B auf den GPUs ausführen. Es ist für semi-autonome Forschung und Entwicklung geeignet, insbesondere für agentechnische Aufgaben.
Was NICHT funktioniert / Limits Die PCI-Verbindungen sind eine Einschränkung, insbesondere für die dritte GPU. Die genauen Token-Raten und die maximale Kontext-Länge sind nicht im Post belegt.
Nachbau-Empfehlung Dieses Setup ist ideal für Benutzer, die eine hohe Kontext-Länge und stabile Leistung benötigen. Es ist jedoch teurer und erfordert spezifische Hardware-Konfigurationen.
Weitere Beiträge:
– Doesn’t look like there are any recent Linux distro suggestions. What’s your favorite and why? — keine Hardware belegt, kein nachbaubares Setup
– What could they mean by „warmed steady-state“? — keine Hardware belegt, reine Frage ohne Lösung
– Need advice on Qwen 3.6 27B INT4 quantization — keine Hardware belegt, reine Frage ohne Lösung
– Need help/pointers setting up 3090 on Linux…(second 3090 incoming) — keine Hardware belegt, reine Frage ohne Lösung
– 5070 Ti —> 3090 move. Worth it? — keine Hardware belegt, reine Frage ohne Lösung
– What’s your tps on 3090 + Qwen 3.6 27B in real tasks? — keine Hardware belegt, reine Frage ohne Lösung
– I hate this group but not literally — keine Hardware belegt, reine Frage ohne Lösung