Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fa

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für konkrete, nachbaubare Setups zur lokalen KI-Inferenz. Diese Woche sind besonders die Einträge zu Gemma4 26B-A4B auf einem RTX 4090, TinyGPU auf Apple Silicon mit RTX 5070 Ti, und ein agenstisches Coding-Loop auf einem RTX 3090 hervorzuheben. Leser, die ein funktionierendes Setup für OpenCode-ähnliche Workloads suchen, finden hier praxisnahe Beispiele.

[Findings: Gemma4 26B-A4B fine-tuning on a single RTX 4090 — 10 patches, benchmark, PCIELink path #1] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Beitrag beschreibt, wie Gemma4 26B-A4B auf einem RTX 4090 (24GB VRAM) trainiert wurde. Es werden die notwendigen Patches und Benchmarks detailliert dokumentiert.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 4090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „60GB system RAM“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „bitsandbytes, transformers, peft (Patches)“ |
| Modell + Quant | „Gemma4 26B-A4B“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Das Setup ermöglicht das Training von Gemma4 26B-A4B auf einem einzelnen RTX 4090. Die Benchmarks zeigen, dass die Schrittzeit bei verschiedenen Sequenzlängen fast konstant bleibt, was die Effizienz des Setups unterstreicht.

Was NICHT funktioniert / Limits Die CPU-Offload-Buffer und die PCIe-Übertragung sind die Hauptengpässe. Das Setup ist nicht optimal für sehr lange Kontexte oder sehr große Modelle.

Nachbau-Empfehlung Dieses Setup ist für fortgeschrittene Nutzer geeignet, die mit Patches und Custom-Builds vertraut sind. Es ist besonders für Trainingsaufgaben auf großen Modellen empfehlenswert.


[TinyGPU on Apple Silicon + RTX 5070 Ti: my real Qwen benchmarks vs Ollama/Metal] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht: Der Beitrag vergleicht TinyGPU auf einem Apple Silicon Mac mit einem externen RTX 5070 Ti gegen Ollama, das auf der internen Apple GPU läuft. Es werden Benchmarks für verschiedene Modelle durchgeführt.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 5070 Ti 16GB“ |
| CPU / Mainboard | „Apple Silicon Mac“ |
| RAM | „60GB system RAM“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „TinyGPU, Ollama 0.20.7“ |
| Modell + Quant | „Qwen3:0.6b, Qwen3.5:9b“ |
| Kontext-Laenge | „nicht im Post belegt“ |
| tok/s (single) | „47.14 tok/s (Qwen3:0.6b), 3.11 tok/s (Qwen3.5:9b)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |

Was funktioniert konkret? TinyGPU funktioniert auf Apple Silicon mit einem externen RTX 5070 Ti. Die Benchmarks zeigen, dass Qwen3:0.6b auf TinyGPU schneller als auf CPU läuft, aber Ollama auf der internen Apple GPU ist für Qwen3.5:9b schneller.

Was NICHT funktioniert / Limits TinyGPU ist noch nicht so reif wie Ollama und hat Probleme mit der GPU-Verbindung über Thunderbolt. Die Performance ist für größere Modelle noch nicht konkurrenzfähig.

Nachbau-Empfehlung Dieses Setup ist für Nutzer geeignet, die Apple Silicon und eine externe GPU verwenden möchten. Es ist besonders für kleinere Modelle und Experimente empfehlenswert, aber für größere Modelle ist Ollama auf der internen GPU vorzuziehen.


[Running a full agentic coding loop locally on a 3090. Here’s what actually works in 2026.] (9/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Beitrag beschreibt ein funktionierendes Setup für einen agenstischen Coding-Loop auf einem RTX 3090. Es werden verschiedene Modelle und ihre Performance im Vergleich getestet.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | „1x RTX 3090 24GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp, Ollama“ |
| Modell + Quant | „Qwen2.5-Coder 32B Q4_K_M, DeepSeek-Coder-V3 Q4, Llama 3.3 70B Q3_K_M“ |
| Kontext-Laenge | „8k, 32k“ |
| tok/s (single) | „18 tok/s (Qwen2.5-Coder 32B Q4), 11 tok/s (DeepSeek-Coder-V3 Q4), 70B models at Q3 are too slow“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |

Was funktioniert konkret? Qwen2.5-Coder 32B Q4_K_M liefert die beste Performance auf einem RTX 3090 mit 24GB VRAM. Es erzeugt 18 tok/s und liefert stabile Codequalität. DeepSeek-Coder-V3 Q4 halluciniert weniger, ist aber langsamer.

Was NICHT funktioniert / Limits 70B-Modelle sind auf einem einzelnen RTX 3090 zu langsam für agenstische Loops. Der Kontext-Management ist der Hauptengpass.

Nachbau-Empfehlung Dieses Setup ist für Nutzer geeignet, die einen agenstischen Coding-Loop auf einem einzelnen GPU-Setup betreiben möchten. Es ist besonders für Qwen2.5-Coder 32B Q4_K_M empfehlenswert, da es eine gute Balance zwischen Performance und Codequalität bietet.


Weitere Beiträge:

Gemma4 26b & E4B are crazy good, and replaced Qwen for me! — keine Hardware belegt, kein nachbaubares Setup
Please help me pick the right Qwen3.5-27B format/quant for RTX5090 — keine Hardware belegt, kein nachbaubares Setup
Anyone here actually using a Mac Studio Ultra (512GB RAM) for local LLM work? Feels like overkill for my use case — keine Hardware belegt, kein nachbaubares Setup
Minimax M2.7 on Q3_K_S or Smaller Model with greater precision? — keine Hardware belegt, kein nachbaubares Setup
Upgrade paths for my 256g ddr4 ram + 4x24g vram system — keine Hardware belegt, kein nachbaubares Setup
Pondering on improving prompt processing on Mac Studios via eGPU (RTX 5090) with new Apple-NVIDIA drivers. — keine Hardware belegt, kein nachbaubares Setup
Running on cpu 🙂 — keine Hardware belegt, kein nachbaubares Setup
Recommendations for a tiered local AI setup? (5090 + Mini PC + Obsidian) — keine Hardware belegt, kein nachbaubares Setup

👁 4 Aufrufe 👤 4 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert