Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build- und Benchmark-Reports geprägt, die verschiedene GPU-Setup-Konfigurationen und Modelle im Einsatz zeigen. Besonders hervorzuheben sind die Benchmarks von Qwen3.6-35B-A3B auf verschiedenen GPUs sowie die Vergleiche zwischen RTX 3090, 4090, 5090 und Mac M5 Max. Ein Leser kann heute Abend mit einem Setup beginnen, das auf einem 3090 oder 4090 basiert und Qwen3.6-35B-A3B verwendet.
[RTX 3090 vs 4090 vs 5090 vs Mac M5 Max: Qwen3.6-35B-A3B Local AI Benchmark using llama.cpp] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Beitrag vergleicht die Leistung von Qwen3.6-35B-A3B auf verschiedenen GPUs, darunter RTX 3090, 4090, 5090 und Mac M5 Max, unter Verwendung von llama.cpp. Es werden tok/s-Raten, Kontext-Längen und andere relevante Metriken dargestellt.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 3090, RTX 4090, RTX 5090, Mac M5 Max |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp |
| Modell + Quant | Qwen3.6-35B-A3B Q8_K_XL |
| Kontext-Laenge | 256k (KV-Cache OK) |
| tok/s (single) | RTX 5090: ~220–240 t/s, RTX 4090: ~168–180 t/s, RTX 3090: ~137–144 t/s, Mac M5 Max: ~81–95 t/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Qwen3.6-35B-A3B läuft stabil auf allen getesteten GPUs, wobei die RTX 5090 die höchsten tok/s-Raten erzielt. Die Kontext-Länge von 256k ist für die meisten Anwendungen ausreichend.
Was NICHT funktioniert / Limits Die Leistung des Mac M5 Max ist im Vergleich zu den NVIDIA-GPUs deutlich geringer, was bei ressourcenintensiven Aufgaben zu Einschränkungen führen kann.
Nachbau-Empfehlung Dieses Setup ist besonders für Benutzer geeignet, die eine hohe Leistung bei moderaten Kosten erzielen möchten. Die RTX 4090 oder 5090 sind empfehlenswert, je nach Budget. Der Mac M5 Max ist eher für Benutzer mit besonderen Anforderungen an die Portabilität geeignet.
[Deploying Gemma 4 26B A4B on a single RTX 5090 — ~196 tok/s with AWQ + vLLM on RunPod Serverless] (7/10) — OpenCode-Fit: BEDINGT
Worum es geht: Der Beitrag beschreibt, wie Gemma 4 26B A4B auf einem RTX 5090 mit vLLM und AWQ-Quantisierung eingesetzt wird. Es werden tok/s-Raten, Kontext-Längen und andere relevante Metriken dargestellt.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | RTX 5090 32GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM |
| Modell + Quant | Gemma 4 26B A4B AWQ 4-bit |
| Kontext-Laenge | 96k (model supports 256k native) |
| tok/s (single) | ~196 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |
Was funktioniert konkret? Gemma 4 26B A4B läuft stabil auf einem RTX 5090 mit AWQ-Quantisierung, wobei eine tok/s-Rate von ~196 erzielt wird. Die Kontext-Länge von 96k ist für die meisten Anwendungen ausreichend.
Was NICHT funktioniert / Limits NVFP4 MoE auf Gemma 4 ist derzeit nicht auf stabilen vLLM-Versionen verfügbar, was die Leistung leicht einschränkt. Die Kontext-Länge von 96k ist bei sehr großen Kontexten möglicherweise zu kurz.
Nachbau-Empfehlung Dieses Setup ist besonders für Benutzer geeignet, die eine hohe Leistung bei moderaten Kosten erzielen möchten. Die Verwendung von AWQ-Quantisierung ist eine gute Wahl, um die VRAM-Einsparungen zu maximieren. Es ist jedoch zu beachten, dass NVFP4 MoE derzeit nicht stabil auf vLLM unterstützt wird.
[Qwen 3.6 vs 6 other models across 5 agent frameworks on M3 Ultra] (8/10) — OpenCode-Fit: JA
Worum es geht: Der Beitrag vergleicht die Leistung von Qwen 3.6 und anderen Modellen in verschiedenen Agent-Frameworks auf einem Apple M3 Ultra. Es werden tok/s-Raten, Kontext-Längen und die Kompatibilität mit verschiedenen Frameworks dargestellt.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | Apple M3 Ultra 256GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 256GB unified memory |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | Hermes Agent, PydanticAI, LangChain, smolagents, OpenClaude/Anthropic SDK |
| Modell + Quant | Qwen 3.6 35B (4bit) |
| Kontext-Laenge | 262k (KV-Cache OK) |
| tok/s (single) | ~100 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Qwen 3.6 35B läuft stabil auf einem Apple M3 Ultra und erzielt eine tok/s-Rate von ~100. Die Kontext-Länge von 262k ist für die meisten Anwendungen ausreichend. Die Kompatibilität mit verschiedenen Agent-Frameworks ist sehr hoch.
Was NICHT funktioniert / Limits Die Leistung von Nicht-Qwen-Modellen ist variabler und hängt stark vom verwendeten Framework ab. Die Kontext-Länge von 262k ist bei sehr großen Kontexten möglicherweise zu kurz.
Nachbau-Empfehlung Dieses Setup ist besonders für Benutzer geeignet, die eine hohe Leistung und eine hohe Kompatibilität mit verschiedenen Agent-Frameworks erzielen möchten. Der Apple M3 Ultra ist eine ausgezeichnete Wahl für solche Anwendungen, insbesondere wenn eine hohe Kontext-Länge und eine hohe tok/s-Rate erforderlich sind.
Weitere Beiträge:
– Am I going about this RAG Perplexity-on-crack Jarvis project the wrong way? — keine Hardware belegt, kein nachbaubares Setup
– 5070 Ti (New) vs 3090 (Used) to pair with 4070 for local LLMs? — keine konkreten Zahlen, eher eine Frage
– Current recommended model for local openclaw — keine konkreten Zahlen, eher eine Frage
– Should I switch from Qwen 3.5 27B (dense) to Qwen 3.6 35B-A3B for tool calls & vision? Need Docker config review + VRAM advice — keine konkreten Zahlen, eher eine Frage
– Reachy Mini, amazing to build with the kid, painful experience with the applications — keine konkreten Zahlen, eher eine Frage
– Anyone tried using a Thunderbolt connection between a Mac studio M3 Ultra and an Nvidia PC for LLM inference? — keine konkreten Zahlen, eher eine Frage
– [[New Model] micro-kiki-v3 — Qwen3.5-35B-A3B + 35 domain LoRAs + router + negotiator + Aeon memory for embedded engineering](https://old.reddit.com/r/LocalLLaMA/comments/1solmgf/new_model_microkikiv3_qwen3535ba3b_35_domain/) — keine konkreten Zahlen, eher eine Frage
– Abliterlitics: Benchmark and Tensor Analysis Comparing Qwen 3/3.5 with HauhauCS / Heretic / Huihui models — keine konkreten Zahlen, eher eine Frage
– Best French to English model that will easily run on a 3090? — keine konkreten Zahlen, eher eine Frage