Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, nachbaubare Setups zur lokalen KI-Inferenz. Diese Woche sind besonders die Einträge zu Gemma4 26B-A4B auf einem RTX 4090, TinyGPU auf Apple Silicon mit RTX 5070 Ti, und ein agenstisches Coding-Loop auf einem RTX 3090 hervorzuheben. Leser, die ein funktionierendes Setup für OpenCode-ähnliche Workloads suchen, finden hier praxisnahe Beispiele.

[Findings: Gemma4 26B-A4B fine-tuning on a single RTX 4090 — 10 patches, benchmark, PCIELink path #1] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag beschreibt, wie Gemma4 26B-A4B auf einem RTX 4090 (24GB VRAM) trainiert wurde. Es werden die notwendigen Patches und Benchmarks detailliert dokumentiert.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Das Setup ermöglicht das Training von Gemma4 26B-A4B auf einem einzelnen RTX 4090. Die Benchmarks zeigen, dass die Schrittzeit bei verschiedenen Sequenzlängen fast konstant bleibt, was die Effizienz des Setups unterstreicht.

Was NICHT funktioniert / Limits Die CPU-Offload-Buffer und die PCIe-Übertragung sind die Hauptengpässe. Das Setup ist nicht optimal für sehr lange Kontexte oder sehr große Modelle.

Nachbau-Empfehlung Dieses Setup ist für fortgeschrittene Nutzer geeignet, die mit Patches und Custom-Builds vertraut sind. Es ist besonders für Trainingsaufgaben auf großen Modellen empfehlenswert.

[TinyGPU on Apple Silicon + RTX 5070 Ti: my real Qwen benchmarks vs Ollama/Metal] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Beitrag vergleicht TinyGPU auf einem Apple Silicon Mac mit einem externen RTX 5070 Ti gegen Ollama, das auf der internen Apple GPU läuft. Es werden Benchmarks für verschiedene Modelle durchgeführt.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? TinyGPU funktioniert auf Apple Silicon mit einem externen RTX 5070 Ti. Die Benchmarks zeigen, dass Qwen3:0.6b auf TinyGPU schneller als auf CPU läuft, aber Ollama auf der internen Apple GPU ist für Qwen3.5:9b schneller.

Was NICHT funktioniert / Limits TinyGPU ist noch nicht so reif wie Ollama und hat Probleme mit der GPU-Verbindung über Thunderbolt. Die Performance ist für größere Modelle noch nicht konkurrenzfähig.

Nachbau-Empfehlung Dieses Setup ist für Nutzer geeignet, die Apple Silicon und eine externe GPU verwenden möchten. Es ist besonders für kleinere Modelle und Experimente empfehlenswert, aber für größere Modelle ist Ollama auf der internen GPU vorzuziehen.

[Running a full agentic coding loop locally on a 3090. Here’s what actually works in 2026.] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag beschreibt ein funktionierendes Setup für einen agenstischen Coding-Loop auf einem RTX 3090. Es werden verschiedene Modelle und ihre Performance im Vergleich getestet.

Reales Setup (komplette Fakten-Tabelle):

Was funktioniert konkret? Qwen2.5-Coder 32B Q4_K_M liefert die beste Performance auf einem RTX 3090 mit 24GB VRAM. Es erzeugt 18 tok/s und liefert stabile Codequalität. DeepSeek-Coder-V3 Q4 halluciniert weniger, ist aber langsamer.

Was NICHT funktioniert / Limits 70B-Modelle sind auf einem einzelnen RTX 3090 zu langsam für agenstische Loops. Der Kontext-Management ist der Hauptengpass.

Nachbau-Empfehlung Dieses Setup ist für Nutzer geeignet, die einen agenstischen Coding-Loop auf einem einzelnen GPU-Setup betreiben möchten. Es ist besonders für Qwen2.5-Coder 32B Q4_K_M empfehlenswert, da es eine gute Balance zwischen Performance und Codequalität bietet.

Weitere Beiträge:

👁 4 Aufrufe 👤 4 Leser