Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fav

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Quelle für echte, nachbaubare Setups zur lokalen KI-Inferenz. Diese Woche stehen insbesondere die Performance-Optimierungen von Qwen3.6-27B auf 2x RTX 3090, die Vorteile des RTX Pro 4500 Blackwell und die Erfahrungen mit dem Qwen3.6-35B-A3B auf einem Laptop-RTX 4060 im Fokus. Mit diesen Beispielen kann ein Leser heute Abend direkt loslegen, um ein funktionierendes Setup aufzubauen.

[Qwen3.6-27B on 2x3090s: llama.cpp vs vLLM, all the flags, and the MTP acceptance/inference speed/context] (8/10) — OpenCode-Fit: JA

Zum Original

Vorschau

Worum es geht: Der Benutzer hat Qwen3.6-27B auf 2x RTX 3090 mit verschiedenen Backends (llama.cpp und vLLM) und Quantisierungen getestet. Er dokumentiert die Flags, die er verwendet, und die erzielten Leistungsdaten.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 2x RTX 3090 24GB |
| CPU / Mainboard | Threadripper 1950X, Gigabyte X399 Designare EX |
| RAM | 30GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp, vLLM |
| Modell + Quant | Qwen3.6-27B Q6_K, Q8_0, INT4, INT8 |
| Kontext-Laenge | 131k, 32k, 64k |
| tok/s (single) | 43.1 (llama.cpp Q6_K), 44.2 (llama.cpp Q8_0), 51.6 (vLLM INT8), 53.7 (vLLM INT4) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Qwen3.6-27B läuft stabil auf 2x RTX 3090 mit verschiedenen Backends und Quantisierungen. Die besten Ergebnisse erzielte der Benutzer mit vLLM INT4, wobei er 53.7 tok/s und eine hohe Akzeptanzrate von 75% erreichte. Die Kontextlänge von 64k ist für viele Anwendungen ausreichend.

Was NICHT funktioniert / Limits: Die Performance von llama.cpp ist etwas niedriger als die von vLLM, insbesondere bei der Kontextlänge von 32k. Die GPU-Auslastung bei llama.cpp ist auch geringer.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem Budget von ca. 4.000 EUR empfehlenswert. Es bietet eine gute Balance zwischen Performance und Kosten. Für höhere Anforderungen kann man auf vLLM mit INT4-Quantisierung setzen.


[RTX Pro 4500 Blackwell Performance Numbers] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat den RTX Pro 4500 Blackwell 32GB mit seinem vorherigen RTX 5060 Ti 16GB verglichen. Er dokumentiert die Leistungsverbesserungen bei verschiedenen Modellen und Quantisierungen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX Pro 4500 Blackwell 32GB |
| CPU / Mainboard | AMD Ryzen 7 7700, Corsair Vengeance RGB DDR5 5600MHz 32GB (2×16) |
| RAM | 32GB DDR5-5600 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp, vLLM |
| Modell + Quant | Qwen3.6-27B IQ4_XS, Qwen3.6-35B.A3B MXFP4, Gemma4-26B.A4B MXFP4 |
| Kontext-Laenge | 512, 128 |
| tok/s (single) | 25.13 (Qwen3.6-27B), 159.81 (Qwen3.6-35B.A3B), 144.74 (Gemma4-26B.A4B) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Der RTX Pro 4500 Blackwell 32GB bietet erhebliche Leistungsverbesserungen gegenüber dem RTX 5060 Ti 16GB, insbesondere bei Modellen, die mehr als 16GB VRAM benötigen. Die Token-Generierung ist 1.8-2.6 mal schneller, und das Laden von Modellen in die VRAM ist um das Doppelte schneller.

Was NICHT funktioniert / Limits: Die Leistung von Modellen, die in 16GB VRAM passen, steigt nur um 1.6-1.8 mal. Die GPU-Auslastung bei kleineren Modellen ist nicht so stark verbessert.

Nachbau-Empfehlung: Dieses Setup ist besonders für Benutzer mit einem Budget von ca. 6.000 EUR empfehlenswert, die hohe VRAM-Kapazität und Leistung benötigen. Es ist ideal für komplexe Modelle und längere Kontextlängen.


[Running Qwen3.6-35B-A3B on a laptop RTX 4060 (8GB) — what worked, what didn’t, and a surprising speculative-decoding result] (7/10) — OpenCode-Fit: BEDINGT

Zum Original

Worum es geht: Der Benutzer hat Qwen3.6-35B-A3B auf einem Laptop-RTX 4060 (8GB) getestet und verschiedene Optimierungen dokumentiert. Er beschreibt, was geholfen hat und was nicht, und teilt eine überraschende Erkenntnis über spekulatives Decoding.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 4060 Laptop 8GB |
| CPU / Mainboard | i7-13620H, 32GB DDR5-5600 dual-channel |
| RAM | 32GB DDR5-5600 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp b9484, CUDA build |
| Modell + Quant | Qwen3.6-35B-A3B Q4_K_M |
| Kontext-Laenge | 65536 |
| tok/s (single) | ~39 tok/s |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? Der Benutzer konnte Qwen3.6-35B-A3B auf einem Laptop-RTX 4060 (8GB) laufen lassen, wobei spekulatives Decoding eine Leistungssteigerung von 26% brachte. Die Flags `–no-mmap` und das Freihalten von VRAM-Headroom waren entscheidend für die Performance.

Was NICHT funktioniert / Limits: TurboQuant, Flash Attention und i-quants brachten keine Vorteile. Die CPU war der Hauptbottleneck, und das Schließen von CPU-intensiven Anwendungen wie Discord und Browser-Tabellen verbesserte die Performance erheblich.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem Budget von ca. 2.000 EUR und einem Laptop-RTX 4060 empfehlenswert. Es ist ideal für die Ausführung von kleineren Modellen und kurzen Kontextlängen. Für höhere Anforderungen sollte man auf eine stärkere CPU und mehr VRAM setzen.


[I accidentally crippled my 4x RTX 3090 LLM rig with a hidden PCIe 2.0 x4 slot and fixing it doubled Mistral 128B performance] (7/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Benutzer hat festgestellt, dass eine seiner 4x RTX 3090 in einem PCIe 2.0 x4-Slot steckte, was die Performance erheblich beeinträchtigte. Nach dem Umstellen der GPU-Slots konnten die Leistungsprobleme behoben werden.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | 4x RTX 3090 24GB |
| CPU / Mainboard | Threadripper 1950X, Gigabyte X399 Designare EX |
| RAM | 128GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp NCCL build, vLLM |
| Modell + Quant | Qwen3.6-27B BF16, Mistral Medium 3.5 128B Q4_K GGUF |
| Kontext-Laenge | 260K, 131K |
| tok/s (single) | ~78-80 tok/s (Qwen3.6-27B), ~24.7 tok/s (Mistral 128B) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Nach dem Umstellen der GPU-Slots auf die korrekten PCIe-Gen3 x8/x16-Slots konnten die Leistungsprobleme behoben werden. Die Token-Generierung von Qwen3.6-27B stieg auf ~78-80 tok/s, und Mistral 128B erreichte ~24.7 tok/s.

Was NICHT funktioniert / Limits: Die ursprüngliche Konfiguration mit einem GPU in einem PCIe 2.0 x4-Slot führte zu erheblichen Performance-Einschränkungen. Die GPU-Auslastung war niedrig, und die Token-Generierung war deutlich langsamer.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem Budget von ca. 8.000 EUR empfehlenswert. Es ist wichtig, die PCIe-Slots genau zu überprüfen und sicherzustellen, dass alle GPUs in den korrekten Slots stecken. Dies vermeidet Leistungsprobleme und maximiert die Auslastung der Hardware.


[The Gap Between Claude and Local: Can a Self-Hosted Coding Agent Compete?] (6/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht: Der Benutzer vergleicht die Leistung eines selbstgehosteten lokalen Modells (Qwen3.6-27B) mit Claude Opus 4.7 bei der Implementierung eines E2E-Test-Suites für eine Web-App. Er dokumentiert die Herausforderungen und die Ergebnisse.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 4090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 32GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | OpenCode, Claude Code |
| Modell + Quant | Qwen3.6-27B, Claude Opus 4.7 |
| Kontext-Laenge | 131k, 1M |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? Das lokale Modell konnte eine E2E-Test-Suite implementieren, aber Claude Opus 4.7 zeigte bessere Ergebnisse, insbesondere bei der Kontextlänge und der Akzeptanzrate. Lokale Modelle sind für einfache Aufgaben geeignet, aber für komplexe Projekte ist Claude derzeit überlegen.

Was NICHT funktioniert / Limits: Die lokale Implementierung musste mehrfach manuell korrigiert werden, und die Kontextlänge war begrenzt. Claude konnte ohne Compaction arbeiten und mehr Tests implementieren.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer mit einem Budget von ca. 4.000 EUR und einfachen Anwendungen empfehlenswert. Für komplexe Projekte und längere Kontextlängen ist Claude derzeit die bessere Wahl.


Weitere Beiträge:

Does anyone know what PCIe mode was used for these benchmarks? — keine Hardware belegt, reine Problem-Frage ohne Lösung
Qwen 3.6 27B MTP – Adding spec-type and spec-draft-n-max is dropping tps and reducing GPU utilization — keine funktionierendes Setup belegt
Strange bug using llama.cpp server — keine funktionierendes Setup belegt
I implemented KVarN in my llama.cpp fork and ran KLD benchmarks. It’s promising! — keine funktionierendes Setup belegt
Here is my llama.cpp NVFP4/MXFP6 GGUF quantizer tool — keine funktionierendes Setup belegt
– [BeeLlama v0.3.1 – latest llama.cpp with extras! DFlash, MTP, q6_0 cache, TurboQuant. Single RTX 3090: Qwen 3.6 27B & Gemma 4 31B up to 177.8 tps (4.93x over baseline)](https://old.reddit.com

👁 1 Aufrufe 👤 1 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert