Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build-Berichten und Benchmarks geprägt. Die Community dokumentiert ihre Erfahrungen mit lokalen KI-Setups, oft mit genauen tok/s-Zahlen und Modell-Variationen. Besonders hervorzuheben sind die Einträge, die funktionierende Setups mit konkreten Zahlen und Hardware-Spezifikationen liefern. Ein Leser kann heute Abend mit einem 3090-Setup oder einem Mac Studio M3 Ultra beginnen, um Qwen3.6-27B oder ähnliche Modelle lokal zu betreiben.
[Qwen3.6 27B NVFP4 + MTP on a single RTX 5090: 200k context working in vLLM] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer hat Qwen3.6 27B NVFP4 auf einem einzelnen RTX 5090 getestet und die Leistungszahlen dokumentiert. Das Setup erreicht eine Kontext-Länge von 200k Tokens und liefert stabile Ergebnisse.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5090 32GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | vLLM 0.20.1.dev0+g88d34c640.d20260502 |
| Modell + Quant | Qwen3.6-27B NVFP4 |
| Kontext-Laenge | 200k (KV-Cache OK) |
| tok/s (single) | 200k context, 200 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Das Setup erreicht eine Kontext-Länge von 200k Tokens und liefert stabile Leistung mit 200 Tokens pro Sekunde. Es ist gut geeignet für OpenCode-Aufgaben und kann lokal betrieben werden.
Was NICHT funktioniert / Limits Die Kontext-Länge von 200k Tokens ist die maximale validierte Länge. Das Setup ist für ein einzelnes Modell optimiert und könnte bei mehreren parallelen Streams limitiert sein.
Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem RTX 5090 und einem Budget von ca. 1.500 EUR empfehlenswert. Es bietet eine ausgezeichnete Leistung für OpenCode-Aufgaben und ist autarkie-tauglich.
[I Ralph-looped Opus overnight. It reduced my local model switching with cold backfilling context of 135k+ on llama.cpp from ~165s -> 5s! TL;DR – USE SLOTS!] (7/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer hat eine Methode namens „Ralph-loop“ verwendet, um die Modell-Wechselzeiten bei großen Kontexten auf einem einzelnen RTX 3090 Ti von ca. 165 Sekunden auf 5 Sekunden zu reduzieren. Dies wurde durch die Verwendung von Slots und speziellen PRs für llama.cpp erreicht.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 3090 Ti 24GB |
| CPU / Mainboard | Ryzen 9950x |
| RAM | 96GB DDR5 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp (mit PRs #20819 und #20822) |
| Modell + Quant | Qwen3.6-27B, Qwen3-coder-30B, Gemma-4-31B, GPT-OSS-20B, Qwen3.6-35B, Nemotron-Cascade-2-30B, Qwen3.6-27B, Qwen3-coder-30B, Ministral-8B, Nemotron-Nano-4B, Qwen3-4B |
| Kontext-Laenge | 135k+ (KV-Cache OK) |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Die Methode „Ralph-loop“ reduziert die Modell-Wechselzeiten bei großen Kontexten erheblich. Die KV-Cache-Technologie ermöglicht es, den Kontext bei Modell-Wechseln zu behalten, was die Leistungsignifikant verbessert.
Was NICHT funktioniert / Limits Die Methode erfordert spezielle PRs und eine stabile KV-Cache-Technologie. Es ist möglicherweise nicht für alle Modelle und Frameworks anwendbar.
Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem RTX 3090 Ti und einem Budget von ca. 1.000 EUR empfehlenswert. Es erfordert technisches Know-how, um die PRs zu integrieren, aber die Leistungssteigerung ist beachtlich.
[Benching local Qwen as a Codex validator, co-agent, and challenger] (7/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer hat Qwen3.6 27B lokal als Codex-Validator, Co-Agent und Challenger getestet. Die Tests zeigen, dass Qwen3.6 27B in vielen Fällen nützlich ist, insbesondere bei der Überprüfung von Codex-Generierungen.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | 1x RTX 5090 32GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp |
| Modell + Quant | Qwen3.6-27B GGUF (Bartowski-128k-f16, Bartowski-128k-q8, Unsloth-128k-q8) |
| Kontext-Laenge | 128k (KV-Cache OK) |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |
Was funktioniert konkret? Qwen3.6 27B zeigt gute Ergebnisse als Codex-Validator und Co-Agent. Es kann effektiv überbauen, UI/Design-Probleme erkennen und lange Kontexte verarbeiten.
Was NICHT funktioniert / Limits Die 65k-Profile scheitern bei Kontexten über 65k Tokens. Die q8 KV-Cache-Technologie zeigt keine signifikanten Genauigkeitsverluste, aber die Kontext-Länge ist entscheidend.
Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem RTX 5090 und einem Budget von ca. 1.500 EUR empfehlenswert. Es ist gut geeignet für die Überprüfung und Ergänzung von Codex-Generierungen.
Weitere Beitraege (automatisch gefiltert):
– Building on a LLM Quants Testing Site/Ressource – Sharing a few insights from first month, so you can share your thoughts and wishes for the future. — keine Hardware belegt, kein nachbaubares Setup