Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist derzeit von konkreten Build-Berichten und Benchmarks geprägt. Die Community dokumentiert ihre Erfahrungen mit verschiedenen GPU-Setups und Modellen, oft mit genauen tok/s-Zahlen und Kontext-Längen. Besonders hervorzuheben sind die Benchmarks von RTX 3090 vs. Intel Arc Pro B70, die Erfahrungen mit Qwen3.6-27B und -35B, sowie die Optimierung von Sampling-Parametern. Ein Leser kann heute Abend mit diesen konkreten Setups und Benchmarks beginnen, um ein funktionierendes lokales KI-Setup aufzubauen.
[Nvidia RTX 3090 vs Intel Arc Pro B70 llama.cpp Benchmarks] (8/10) — OpenCode-Fit: BEDINGT

Worum es geht: Der Benutzer vergleicht die Performance von RTX 3090 und Intel Arc Pro B70 bei der Ausführung von llama.cpp. Es werden verschiedene Modelle und Quantisierungen getestet, und die Ergebnisse in tok/s und time-to-first-token aufgezeigt.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „RTX 3090 24GB, Intel Arc Pro B70“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp (compiled on 4/21/2026)“ |
| Modell + Quant | „TheBloke/Llama-2-7B-GGUF:Q4_K_M, unsloth/gemma-4-E2B-it-GGUF:Q4_K_XL, unsloth/gemma-4-26B-A4B-it-GGUF:Q4_K_M, unsloth/gemma-4-31B-it-GGUF:Q4_K_XL, ggml-org/Qwen2.5-Coder-7B-Q8_0-GGUF:Q8_0, ggml-org/Qwen3-Coder-30B-A3B-Instruct-Q8_0-GGUF:Q8_0, Qwen/Qwen3-8B-GGUF:Q8_0, unsloth/Qwen3.5-4B-GGUF:Q4_K_XL, unsloth/Qwen3.5-35B-A3B-GGUF:Q4_K_M, unsloth/Qwen3.6-35B-A3B-GGUF:Q4_K_M“ |
| Kontext-Laenge | „512, 128“ |
| tok/s (single) | „4550.27 ± 10.90 (RTX 3090), 1236.65 ± 3.19 (Arc Pro B70), 1178.54 ± 5.74 (Arc Pro B70 SYCL)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „BEDINGT“ |
Was funktioniert konkret? Die Benchmarks zeigen, dass der RTX 3090 in den meisten Fällen deutlich bessere tok/s-Werte erzielt als der Intel Arc Pro B70. Die SYCL-Implementierung des Arc Pro B70 kann in einigen Fällen die Performance verbessern, aber sie erreicht den RTX 3090 nicht.
Was NICHT funktioniert / Limits: Der Arc Pro B70 fällt in vielen Benchmarks deutlich hinter dem RTX 3090 zurück. Die SYCL-Implementierung kann die Performance teilweise verbessern, aber sie ist nicht immer konsistent.
Nachbau-Empfehlung: Für ein stabiles und performantes lokales KI-Setup ist der RTX 3090 die bessere Wahl. Der Arc Pro B70 kann als Alternative in Betracht gezogen werden, aber die Performance-Vorteile sind begrenzt.
[Qwen3.6-27b builds a chat interface for Gemma-4-E4B (Text, Image, Audio)] (9/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer hat Qwen3.6-27b (BF16) auf 2x Pro 6k und Gemma-4-E4B (BF16) auf RTX 5090 eingerichtet, um eine chat-basierte Schnittstelle zu erstellen. Es wird beschrieben, wie Qwen3.6-27b erfolgreich verschiedene Aufgaben löst, darunter Planung, Code-Erstellung und Fehlerbehebung.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „2x Pro 6k, RTX 5090 32GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „vLLM“ |
| Modell + Quant | „Qwen3.6-27b (BF16), Gemma-4-E4B (BF16)“ |
| Kontext-Laenge | „40k tokens“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? Qwen3.6-27b kann komplexe Aufgaben wie Planung, Code-Erstellung und Fehlerbehebung erfolgreich lösen. Die Kombination mit Gemma-4-E4B ermöglicht eine vielseitige Nutzung, einschließlich Text, Bild und Audio.
Was NICHT funktioniert / Limits: Die Performance von Qwen3.6-27b ist in kreativen Aufgaben weniger stark als bei spezifischen Codierungsaufgaben. Die Kombination mit Gemma-4-E4B kann die Allgemeinleistung verbessern, aber es gibt immer noch Raum für Verbesserungen.
Nachbau-Empfehlung: Dieses Setup ist für Benutzer geeignet, die ein vielseitiges und performantes lokales KI-Setup für Codierung und kreative Aufgaben suchen. Es ist besonders empfehlenswert für den privaten Einsatz in einem Haushalt.
[Qwen3.6 35B + the right coding scaffold got my local setup to 9/10 on real Go tasks] (9/10) — OpenCode-Fit: JA
Worum es geht: Der Benutzer testet, ob eine Kombination von lokalen Modellen, Scaffolding, Repair Loops und Routing-Policies auf privater Hardware nahe an die Leistung von frontier coding models herankommt. Das Setup erreicht 9/10 bei realen Go-Aufgaben.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „RTX 5090 32GB, RTX Pro 6000 96GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „Ollama, vLLM“ |
| Modell + Quant | „Qwen3.6 35B A3B Q4_K_M, Qwen3-Coder 30B, Qwen3-Coder-Next 80B“ |
| Kontext-Laenge | „200k“ |
| tok/s (single) | „nicht im Post belegt“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? Die Kombination von Qwen3.6 35B mit dem „little-coder“ Scaffold ermöglicht es, 9/10 realer Go-Aufgaben erfolgreich zu lösen. Die Aufgaben umfassen CLI-Änderungen, Dependency-Enforcement, Versionierungsdateien, Clock-Abstraktionen, Error-Taxonomie, SQLite-Primitives, Migrations und Baseline-Schema-Work.
Was NICHT funktioniert / Limits: Einige Aufgaben, insbesondere deterministische Fake-Clock/Ticker-Aufgaben und SQLite-Aufgaben, scheitern gelegentlich. Die Performance kann durch die Verwendung von Qwen3-Coder-Next 80B weiter verbessert werden.
Nachbau-Empfehlung: Dieses Setup ist besonders empfehlenswert für Benutzer, die eine hohe Leistung in realen Codierungsaufgaben benötigen. Es ist gut geeignet für den privaten Einsatz und kann leicht angepasst werden, um spezifische Anforderungen zu erfüllen.
[Qwen 3.6 is actually useful for vibe-coding, and way cheaper than Claude] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer beschreibt, wie Qwen3.6-27B und Qwen3.6-35B erfolgreich für „vibe-coding“ eingesetzt werden können. Er vergleicht die Kosten und Performance mit Claude und betont die Vorteile des lokalen Setups.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „2x RTX 3090“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama-server, Ollama“ |
| Modell + Quant | „Qwen3.6-27B-A3B (Q4), Qwen3.6-35B-A3B (Q4)“ |
| Kontext-Laenge | „200k“ |
| tok/s (single) | „50 tok/s (Qwen3.6-27B)“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? Qwen3.6-27B und Qwen3.6-35B können erfolgreich für „vibe-coding“ eingesetzt werden. Die Performance reicht aus, um komplexe Aufgaben wie die Erstellung eines vollständigen Servers in Rust zu lösen. Die Kosten sind deutlich geringer als bei der Nutzung von Claude.
Was NICHT funktioniert / Limits: Die Performance von Qwen3.6-35B ist etwas langsamer als die von Qwen3.6-27B, aber beide Modelle sind für den täglichen Einsatz geeignet. Die Kontext-Länge von 200k ist ausreichend, kann aber je nach Aufgabe angepasst werden.
Nachbau-Empfehlung: Dieses Setup ist besonders empfehlenswert für Benutzer, die eine kostengünstige und performante Lösung für „vibe-coding“ suchen. Es ist gut geeignet für den privaten Einsatz und kann leicht angepasst werden, um spezifische Anforderungen zu erfüllen.
[Tried Qwen3.6-27B-UD-Q6_K_XL.gguf with CloudeCode, well I can’t believe but it is usable] (8/10) — OpenCode-Fit: JA

Worum es geht: Der Benutzer beschreibt, wie er Qwen3.6-27B-UD-Q6_K_XL.gguf auf einem RTX 5090 mit 200k Kontext-Länge erfolgreich für Codierungsaufgaben verwendet. Er betont, dass das Modell überraschend gut funktioniert und nahe an die Leistung von Opus 4.7 herankommt.
Reales Setup (komplette Fakten-Tabelle):
| Feld | Wert |
|—|—|
| GPU(s) | „RTX 5090 32GB“ |
| CPU / Mainboard | „nicht im Post belegt“ |
| RAM | „nicht im Post belegt“ |
| PSU | „nicht im Post belegt“ |
| Chassis / Kuehlung | „nicht im Post belegt“ |
| Framework + Version | „llama.cpp“ |
| Modell + Quant | „Qwen3.6-27B-UD-Q6_K_XL.gguf“ |
| Kontext-Laenge | „200k“ |
| tok/s (single) | „50 tok/s“ |
| tok/s (batched) | „nicht im Post belegt“ |
| Strom (full load) | „nicht im Post belegt“ |
| Rohkosten | „nicht im Post belegt“ |
| Autarkie-Fit | „JA“ |
Was funktioniert konkret? Qwen3.6-27B-UD-Q6_K_XL.gguf kann komplexe Codierungsaufgaben erfolgreich lösen. Die Performance ist gut, und das Modell kann komplexe Aufgaben wie die Erstellung von Plänen und die Implementierung von Code-Blöcken lösen.
Was NICHT funktioniert / Limits: Die Performance ist noch nicht auf dem Niveau von Opus 4.7, aber es ist ein großer Fortschritt im Vergleich zu früheren Modellen. Die Kontext-Länge von 200k ist ausreichend, kann aber je nach Aufgabe angepasst werden.
Nachbau-Empfehlung: Dieses Setup ist besonders empfehlenswert für Benutzer, die eine performante und zuverlässige Lösung für Codierungsaufgaben suchen. Es ist gut geeignet für den privaten Einsatz und kann leicht angepasst werden, um spezifische Anforderungen zu erfüllen.
[Capacity vs Speed trade-off: 1.1TB Mac Unified Memory vs. RTX 6000 Pros] (7/10) — OpenCode-Fit: BEDINGT
Worum es geht: Der Benutzer vergleicht die Vorteile und Nachteile von 1.1TB Mac Unified Memory und RTX 6000 Pros. Er beschreibt