Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist der Ort, an dem Community-User ihre lokalen KI-Setups dokumentieren und benchmarken. Diese Woche sind insbesondere die Einträge zu den RTX 5060 Ti und RTX 5090 besonders belegt. Mit konkreten tok/s-Zahlen, Modell-Variationen und echten Erfahrungen aus mehreren Wochen Betrieb bieten sie wertvolle Einblicke in funktionierende, nachbaubare Setups. Ein Leser kann heute Abend mit einem dieser Setups anfangen, um OpenCode lokal gegen Claude-Sonnet-Opus-ähnliche Workloads zu laufen.

[club-5060ti: practical RTX 5060 Ti local LLM notes and configs] (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der User hat ein kleines öffentliches Repo für RTX 5060 Ti 16GB local LLM-Setups erstellt. Es enthält detaillierte Anleitungen und Konfigurationen für verschiedene Modelle und Frameworks, darunter vLLM und llama.cpp.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 2x RTX 5060 Ti 16GB |
| CPU / Mainboard | Dual Xeon E5-2680 v4, Dell 0GWHMW Board |
| RAM | 128 GB DDR4-2133 |
| PSU | 1600W Titanium + Add2PSU 850W |
| Chassis / Kuehlung | Dell Precision Tower 7810 |
| Framework + Version | vLLM 0.6.3, llama.cpp b4200 |
| Modell + Quant | Qwen3.6 27B Q4/Q6, Qwen3.6 35B A3B |
| Kontext-Länge | 65536 (safe), 204800 (direct long-context) |
| tok/s (single) | 65 tok/s (Qwen3.6 27B Q4) |
| tok/s (batched) | 215 tok/s (aggregate bei 8 streams) |
| Strom (full load) | ~1200 W gemessen |
| Rohkosten | ca. 4.800 EUR (Gebraucht 2026-04) |
| Autarkie-Fit | JA |

Was funktioniert konkret? Das Setup läuft stabil mit Qwen3.6 27B in Q4- und Q6-Konfigurationen. Die Kontext-Länge von 65536 ist sicher, während 204800 direkt als long-context möglich ist. Die tok/s-Zahlen sind gut, und das Setup ist autarkie-tauglich.

Was NICHT funktioniert / Limits: Bei sehr hohen Kontext-Längen (204800) kann es zu OOM-Fehlern kommen, wenn nicht genug VRAM verfügbar ist. Die Performance bei Q6-Konfigurationen ist etwas besser, aber Q4 reicht für die meisten Aufgaben aus.

Nachbau-Empfehlung: Dieses Setup ist empfehlenswert, insbesondere für Benutzer mit einem Budget von ca. 4.800 EUR. Es bietet eine gute Balance zwischen Performance und Autarkie. Die detaillierten Konfigurationen im Repo erleichtern den Nachbau.


[Building the QWEN3.6 – Codex Bridge Furthe + Kindergarten Harness Reality Check] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht: Der User hat ein Harness für das Laufen von Qwen3.6 auf Codex entwickelt. Es wird eine detaillierte Analyse der Funktionalität und der Performance durchgeführt, einschließlich Tool-Calling und Kontext-Verarbeitung.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 5090 |
| CPU / Mainboard | nicht im Post belegt |
| RAM | nicht im Post belegt |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp, tbg-ollama-swap |
| Modell + Quant | Qwen3.6 27B |
| Kontext-Länge | 122k (max) |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? Das Harness ermöglicht das Laufen von Qwen3.6 auf Codex mit Tool-Calling und Kontext-Verarbeitung. Es bietet eine hohe Transparenz und Kontrolle über den Prozess.

Was NICHT funktioniert / Limits: Die Performance-Zahlen und der Stromverbrauch sind nicht detailliert dokumentiert. Das Setup ist komplex und erfordert technisches Know-how.

Nachbau-Empfehlung: Dieses Setup ist bedingt empfehlenswert, insbesondere für fortgeschrittene Benutzer, die Tool-Calling und Kontext-Verarbeitung benötigen. Es erfordert technisches Know-how und ist weniger geeignet für Anfänger.


Weitere Beiträge:

Advice for creating a best model table — keine Hardware belegt, kein nachbaubares Setup
China modded GPU (eg. 4090 48gb) –> I’m gonna figure it out. IS THERE NO ONE ELSE CURIOUS?? — keine konkreten Benchmarks, eher Forschungsfrage
Is there a big gap between Q4 and Q6 on Qwen3.6? — keine konkreten Benchmarks, eher Diskussion
Simpler self hosted alt to Open WebUI — keine konkreten Benchmarks, eher Software-Präsentation
Meet Mindflow, the free local mindmap with local AI dev by some quantitized models 😛 — keine konkreten Benchmarks, eher Software-Präsentation
very slow tok/s with Gemma 4 31B on a 5090?! — keine konkreten Benchmarks, eher Problem-Frage
How many of you tried BeeLlama.cpp? How’s it? Agentic coding possible with 8GB VRAM? — keine konkreten Benchmarks, eher Diskussion
Are harnesses like OpenClaw and Hermes really necessary? — keine konkreten Benchmarks, eher Diskussion

Weitere Beitraege (automatisch gefiltert):
[Benchmark — zu duenne Description, keine nachbaubaren Daten
[FOLLOW UP — zu duenne Description, keine nachbaubaren Daten

👁 1 Aufrufe 👤 1 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert