Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build-Berichten und Benchmarks geprägt. Die Community dokumentiert ihre Erfahrungen mit lokalen KI-Setups, oft mit genauen tok/s-Zahlen und Modell-Variationen. Besonders hervorzuheben sind die Einträge, die funktionierende Setups mit konkreten Zahlen und Hardware-Spezifikationen liefern. Ein Leser kann heute Abend mit einem 3090-Setup oder einem Mac Studio M3 Ultra beginnen, um Qwen3.6-27B oder ähnliche Modelle lokal zu betreiben.

[Qwen3.6 27B NVFP4 + MTP on a single RTX 5090: 200k context working in vLLM] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Qwen3.6 27B NVFP4 auf einem einzelnen RTX 5090 getestet und die Leistungszahlen dokumentiert. Das Setup erreicht eine Kontext-Länge von 200k Tokens und liefert stabile Ergebnisse.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup erreicht eine Kontext-Länge von 200k Tokens und liefert stabile Leistung mit 200 Tokens pro Sekunde. Es ist gut geeignet für OpenCode-Aufgaben und kann lokal betrieben werden.

Was NICHT funktioniert / Limits Die Kontext-Länge von 200k Tokens ist die maximale validierte Länge. Das Setup ist für ein einzelnes Modell optimiert und könnte bei mehreren parallelen Streams limitiert sein.

Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem RTX 5090 und einem Budget von ca. 1.500 EUR empfehlenswert. Es bietet eine ausgezeichnete Leistung für OpenCode-Aufgaben und ist autarkie-tauglich.

[I Ralph-looped Opus overnight. It reduced my local model switching with cold backfilling context of 135k+ on llama.cpp from ~165s -> 5s! TL;DR – USE SLOTS!] (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat eine Methode namens „Ralph-loop“ verwendet, um die Modell-Wechselzeiten bei großen Kontexten auf einem einzelnen RTX 3090 Ti von ca. 165 Sekunden auf 5 Sekunden zu reduzieren. Dies wurde durch die Verwendung von Slots und speziellen PRs für llama.cpp erreicht.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Die Methode „Ralph-loop“ reduziert die Modell-Wechselzeiten bei großen Kontexten erheblich. Die KV-Cache-Technologie ermöglicht es, den Kontext bei Modell-Wechseln zu behalten, was die Leistungsignifikant verbessert.

Was NICHT funktioniert / Limits Die Methode erfordert spezielle PRs und eine stabile KV-Cache-Technologie. Es ist möglicherweise nicht für alle Modelle und Frameworks anwendbar.

Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem RTX 3090 Ti und einem Budget von ca. 1.000 EUR empfehlenswert. Es erfordert technisches Know-how, um die PRs zu integrieren, aber die Leistungssteigerung ist beachtlich.

[Benching local Qwen as a Codex validator, co-agent, and challenger] (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat Qwen3.6 27B lokal als Codex-Validator, Co-Agent und Challenger getestet. Die Tests zeigen, dass Qwen3.6 27B in vielen Fällen nützlich ist, insbesondere bei der Überprüfung von Codex-Generierungen.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Qwen3.6 27B zeigt gute Ergebnisse als Codex-Validator und Co-Agent. Es kann effektiv überbauen, UI/Design-Probleme erkennen und lange Kontexte verarbeiten.

Was NICHT funktioniert / Limits Die 65k-Profile scheitern bei Kontexten über 65k Tokens. Die q8 KV-Cache-Technologie zeigt keine signifikanten Genauigkeitsverluste, aber die Kontext-Länge ist entscheidend.

Nachbau-Empfehlung Dieses Setup ist für Benutzer mit einem RTX 5090 und einem Budget von ca. 1.500 EUR empfehlenswert. Es ist gut geeignet für die Überprüfung und Ergänzung von Codex-Generierungen.

Weitere Beitraege (automatisch gefiltert):
– Building on a LLM Quants Testing Site/Ressource – Sharing a few insights from first month, so you can share your thoughts and wishes for the future. — keine Hardware belegt, kein nachbaubares Setup

👁 1 Aufrufe 👤 1 Leser