Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build-Berichten und Benchmarks geprägt. Besonders hervorzuheben sind die Einträge, die detaillierte Hardware- und Software-Konfigurationen sowie praktische Zahlen zu tokens/sekunde und Kontext-Längen liefern. Diese Woche sind insbesondere die Einträge zu Qwen 3.6 27B auf RTX 3090 und die Vergleichsbewertung von MiniMax M2.7 AWQ-4bit auf Spark vs. RTX 6000 96GB besonders belegt. Ein Leser kann heute Abend mit diesen Setups beginnen, um ein funktionierendes, lokales KI-Setup aufzubauen.
[Qwen3.6-27B at 72 tok/s on RTX 3090 on Windows using native vLLM (no WSL, no Docker), portable launcher and installer] (8/10) — OpenCode-Fit: JA

Worum es geht (2-4 Sätze): Der Autor präsentiert ein Setup, das Qwen 3.6 27B auf einem RTX 3090 unter Windows laufen lässt, ohne WSL oder Docker. Es bietet eine einfache Installation und erzielt stabile Leistungsdaten.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM (patched) |
| Modell + Quant | Qwen3.6-27B INT4 |
| Kontext-Laenge | 127k (single GPU), 160k (PP=2) |
| tok/s (single) | 72 tok/s (short prompt), 64.5 tok/s (long prompt), 53.4 tok/s (127k ctx) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Das Setup erreicht stabile Leistungsdaten von 72 tokens/sekunde bei kurzen Prompts und 53.4 tokens/sekunde bei einer Kontext-Länge von 127k. Die einfache Installation und der portable Launcher machen es benutzerfreundlich, ohne zusätzliche Software wie WSL oder Docker zu benötigen.
Was NICHT funktioniert / Limits (2-4 Sätze): Die Leistung bei sehr langen Kontexten (über 127k) kann durch die GPU-Beschränkungen beeinträchtigt sein. Das Setup ist spezifisch für Windows und funktioniert nicht auf AMD-GPUs oder älteren NVIDIA-Modellen.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Benutzer mit einem RTX 3090 und Windows geeignet. Es bietet eine gute Balance zwischen Leistung und Benutzerfreundlichkeit. Für Benutzer mit höheren Anforderungen oder anderen GPUs könnte eine Anpassung der Konfiguration erforderlich sein.
[MiniMax M2.7 AWQ-4bit on 2x Spark vs 2x RTX 6000 96GB – performance and energy efficiency] (7/10) — OpenCode-Fit: BEDINGT

Worum es geht (2-4 Sätze): Der Autor vergleicht die Leistung und Energieeffizienz von MiniMax M2.7 AWQ-4bit auf einem 2x Spark-Cluster mit einem 2x RTX 6000 96GB-Setup. Die Benchmarks zeigen, dass der Spark-Cluster überraschend gut abschneidet, besonders in Bezug auf den Preis-Leistungs-Verhältnis.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 2x RTX 6000 96GB, 2x Spark |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM Latest (vllm/vllm-openai:latest) |
| Modell + Quant | MiniMax M2.7 AWQ-4bit |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | 2.7x schneller auf RTX 6000, 4.88x schneller auf Token-Generierung |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | sehr ähnlich bei beiden Setups |
| Rohkosten | 2x RTX 6000: ~$20K, 2x Spark: ~$7K |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? (3-5 Sätze): Das 2x RTX 6000-Setup ist 2.7x schneller bei Prompt-Verarbeitung und 4.88x schneller bei Token-Generierung im Vergleich zum 2x Spark-Cluster. Beide Setups zeigen ähnliche Energieverbrauchswerte, was das Preis-Leistungs-Verhältnis des Spark-Clusters verbessert.
Was NICHT funktioniert / Limits (2-4 Sätze): Bei parallelen Anfragen mit hohen Kontexten treten Leistungsengpässe auf, insbesondere bei der KV-Cache-Beschränkung. Das 2x RTX 6000-Setup ist teurer, aber leistungsfähiger.
Nachbau-Empfehlung (2-4 Sätze): Das 2x Spark-Setup ist für Benutzer mit einem geringeren Budget und moderaten Leistungsanforderungen geeignet. Das 2x RTX 6000-Setup ist für Benutzer mit höheren Anforderungen und einem höheren Budget die bessere Wahl. Beide Setups sind für den privaten Einsatz tauglich, aber das 2x RTX 6000-Setup bietet bessere Skalierbarkeit.
[We are finally there: Qwen3.6-27B + agentic search; 95.7% SimpleQA on a single 3090, fully local] (9/10) — OpenCode-Fit: JA
Worum es geht (2-4 Sätze): Der Autor berichtet über ein Setup, das Qwen 3.6 27B auf einem RTX 3090 laufen lässt und 95.7% Genauigkeit bei SimpleQA erreicht. Das Setup nutzt LDR’s langgraph_agent-Strategie und Tool-Calling.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | LDR (langgraph_agent) |
| Modell + Quant | Qwen3.6-27B |
| Kontext-Laenge | nicht im Post belegt |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? (3-5 Sätze): Das Setup erreicht 95.7% Genauigkeit bei SimpleQA und 77.0% bei xbench-DeepSearch. Die Verwendung von LDR’s langgraph_agent-Strategie und Tool-Calling verbessert die Leistung und Genauigkeit des Modells.
Was NICHT funktioniert / Limits (2-4 Sätze): Es besteht ein Risiko von SimpleQA-Verunreinigung bei neueren Basismodellen. Die Benchmarks sind in Chinesisch, was einen Vorteil für chinesische Modelle wie Qwen darstellt. Weitere Benchmarks wie BrowseComp oder GAIA sind noch nicht durchgeführt.
Nachbau-Empfehlung (2-4 Sätze): Dieses Setup ist besonders für Benutzer geeignet, die eine hohe Genauigkeit bei SimpleQA und xbench-DeepSearch benötigen. Es ist empfehlenswert, die LDR-Strategie und Tool-Calling zu verwenden, um die Leistung zu optimieren. Für Benutzer mit anderen Anforderungen könnte eine Anpassung der Benchmarks erforderlich sein.
Weitere Beiträge (kurz):
– Building on a LLM Quants Testing Site/Ressource – Sharing a few insights from first month, so you can share your thoughts and wishes for the future. — keine Hardware belegt, kein nachbaubares Setup
– What a time to be alive from 1tk/sec to 20-100tk/sec for huge models — keine Hardware belegt, kein nachbaubares Setup
– Doesn’t look like there are any recent Linux distro suggestions. What’s your favorite and why? — keine Hardware belegt, kein nachbaubares Setup
– What could they mean by „warmed steady-state“? — keine Hardware belegt, kein nachbaubares Setup
– Need advice on Qwen 3.6 27B INT4 quantization — keine Hardware belegt, kein nachbaubares Setup
– Need help/pointers setting up 3090 on Linux…(second 3090 incoming) — keine Hardware belegt, kein nachbaubares Setup
– 5070 Ti —> 3090 move. Worth it? — keine Hardware belegt, kein nachbaubares Setup
– What’s your tps on 3090 + Qwen 3.6 27B in real tasks? — keine Hardware belegt, kein nachbaubares Setup