Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

# Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check ![Reddit r/LocalLLaMA: Reale Builds & Benchmarks](https://www.redditstatic.com/shreddit/assets/fav

Reddit r/LocalLLaMA: Reale Builds & Benchmarks: Funktionierende lokale KI-Setups im Realitäts-Check

Reddit r/LocalLLaMA: Reale Builds & Benchmarks

Kurzfassung: Reddit r/LocalLLaMA: Reale Builds & Benchmarks ist eine Community, die sich mit realen Builds und Benchmarks von lokalen KI-Setups beschäftigt. Diese Woche sind besonders die Einträge zu lokalen Inferenz-Setups auf Smartphones, der Performance von Qwen-Modellen auf verschiedenen GPUs und der Vergleich von lokalen Modellen mit Cloud-Diensten wie Claude hervorzuheben. Ein Leser kann heute Abend mit konkreten Setup-Vorschlägen und Benchmarks anfangen, die ihm helfen, ein funktionierendes, autarkes Setup aufzubauen.

[Galaxy Z Fold6 als lokaler Inferenz-Node — llama.cpp/Vulkan, Homelab-Telemetrie, SHA-256-Modell-Verifikation] (6/10) — OpenCode-Fit: NEIN

Zum Original

Vorschau

Worum es geht: Der Autor hat eine Android-App namens Pocket Node entwickelt, die llama.cpp-Inferenz direkt auf einem Galaxy Z Fold6 durchführt. Die App lädt ein GGUF-Modell (SmolLM3 Q4_0, ~1.1B Parameter) über Vulkan/OpenCL, streamt Tokens in eine native Jetpack Compose UI und verifiziert das Modell über SHA-256.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | Galaxy Z Fold6 (integrierte GPU) |
| CPU / Mainboard | Galaxy Z Fold6 (integrierte CPU) |
| RAM | 12 GB |
| PSU | integrierte Batterie |
| Chassis / Kuehlung | Galaxy Z Fold6 (integrierte Kühlung) |
| Framework + Version | llama.cpp via JNI, Vulkan/OpenCL backend |
| Modell + Quant | SmolLM3 Q4_0 (1.1B) |
| Kontext-Laenge | 2048 (begrenzt durch Geräteleistung) |
| tok/s (single) | 1-2 tok/s (begrenzt durch Geräteleistung) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | NEIN |

Was funktioniert konkret? Die App lädt das Modell, führt Inferenz durch und verifiziert die Integrität des Modells. Sie ist für kurze Aufgaben wie Klassifikation und kurze Chat-Antworten geeignet.

Was NICHT funktioniert / Limits: Das Setup ist nicht für längere Aufgaben oder große Kontexte geeignet. Die Batterie und die Thermale Belastung des Geräts begrenzen die Dauer der Inferenz. Es gibt keine persistente Speicherung oder RAG, und die API ist nur über Tailscale verfügbar.

Nachbau-Empfehlung: Dieses Setup ist eher für Experimente und kurze Aufgaben geeignet. Für ernsthafte Anwendungen mit längerer Kontextlänge und höherer Leistung sind stärkere Geräte wie Desktop-GPUs oder Mac Studio erforderlich.


[The Gap Between Claude and Local: Can a Self-Hosted Coding Agent Compete?] (8/10) — OpenCode-Fit: BEDINGT

Zum Original

Vorschau

Worum es geht: Der Autor vergleicht die Leistung eines lokalen KI-Modells (Qwen 27B q4_k_M) mit dem Cloud-Dienst Claude Opus 4.7. Er testet beide Agenten anhand der Implementierung eines Playwright E2E-Test-Suites für eine Laravel 12 + Livewire-Webanwendung.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 4090 24GB |
| CPU / Mainboard | nicht im Post belegt |
| RAM | 16GB (Monitore und Apps verbrauchen 1.5-4GB) |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp |
| Modell + Quant | Qwen 27B q4_k_M |
| Kontext-Laenge | 163k (begrenzt durch VRAM) |
| tok/s (single) | nicht im Post belegt |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | BEDINGT |

Was funktioniert konkret? Der lokale Agent kann komplexe Aufgaben wie die Implementierung von E2E-Tests durchführen, aber er erreicht nicht die Leistung und Kontextlänge von Claude. Der lokale Agent schafft 140 Tests, während Claude 203 Tests implementieren kann.

Was NICHT funktioniert / Limits: Der lokale Agent benötigt mehr manuelle Eingriffe und hat Schwierigkeiten mit langen Kontexten. Die Leistung sinkt, wenn der Kontext kompakt gemacht werden muss, und der Agent kann manchmal falsche Routen und Selektoren erzeugen.

Nachbau-Empfehlung: Dieses Setup ist für fortgeschrittene Benutzer geeignet, die eine hohe Kontrolle über ihre Modelle haben wollen. Für tägliche Aufgaben mit hohen Anforderungen an Kontext und Leistung ist ein Cloud-Dienst wie Claude immer noch der bessere Weg.


[RTX Pro 4500 Blackwell Performance Numbers] (8/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Autor vergleicht die Leistung des RTX Pro 4500 Blackwell 32GB mit der des RTX 5060 Ti 16GB. Er zeigt, dass der RTX Pro 4500 Blackwell bei dichten Modellen die Leistung verdoppelt und bei MoE-Modellen sogar um das 2.6-fache schneller ist.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX Pro 4500 Blackwell 32GB |
| CPU / Mainboard | AMD Ryzen 7 7700 |
| RAM | 32GB DDR5 5600MHz (2×16) |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | llama.cpp |
| Modell + Quant | Qwen 3.6 27B IQ4_XS, Gemma 4 31B |
| Kontext-Laenge | 512 (pp512), 128 (tg128) |
| tok/s (single) | 45.19 tok/s (Qwen 3.6 27B) |
| tok/s (batched) | 2022.54 tok/s (Qwen 3.6 27B) |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? Der RTX Pro 4500 Blackwell 32GB bietet eine erhebliche Leistungssteigerung im Vergleich zum RTX 5060 Ti 16GB, insbesondere bei MoE-Modellen. Die Inferenz-Geschwindigkeit ist bis zu 2.6-fach höher, und das Modell passt vollständig in die VRAM, was die Leistung weiter verbessert.

Was NICHT funktioniert / Limits: Die Leistung von dichten Modellen, die in 16GB VRAM passen, ist nur um das 1.6-1.8-fache höher. Die Kosten für den RTX Pro 4500 Blackwell sind höher als für den RTX 5060 Ti 16GB.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer geeignet, die eine hohe Leistung und große Kontextlängen benötigen. Der RTX Pro 4500 Blackwell 32GB ist eine ausgezeichnete Wahl für leistungshungrige Anwendungen.


[BeeLlama v0.3.1 – latest llama.cpp with extras! DFlash, MTP, q6_0 cache, TurboQuant. Single RTX 3090: Qwen 3.6 27B & Gemma 4 31B up to 177.8 tps (4.93x over baseline)] (9/10) — OpenCode-Fit: JA

Zum Original

Worum es geht: Der Autor stellt die neueste Version von BeeLlama vor, einer erweiterten Version von llama.cpp. BeeLlama v0.3.1 unterstützt DFlash, MTP, q6_0 Cache und TurboQuant. Die Benchmarks zeigen, dass Qwen 3.6 27B und Gemma 4 31B auf einer RTX 3090 24GB bis zu 177.8 tps erreichen.

Reales Setup (komplette Fakten-Tabelle):

| Feld | Wert |
|—|—|
| GPU(s) | RTX 3090 24GB |
| CPU / Mainboard | AMD Ryzen 7 5700X3D |
| RAM | 32GB DDR4 |
| PSU | nicht im Post belegt |
| Chassis / Kuehlung | nicht im Post belegt |
| Framework + Version | BeeLlama v0.3.1 (llama.cpp) |
| Modell + Quant | Qwen 3.6 27B Q5_K_S, Gemma 4 31B Q5_K_S |
| Kontext-Laenge | 512 (pp512), 128 (tg128) |
| tok/s (single) | 177.8 tps (Qwen 3.6 27B) |
| tok/s (batched) | nicht im Post belegt |
| Strom (full load) | nicht im Post belegt |
| Rohkosten | nicht im Post belegt |
| Autarkie-Fit | JA |

Was funktioniert konkret? BeeLlama v0.3.1 bietet erhebliche Leistungssteigerungen durch DFlash, MTP und q6_0 Cache. Die Benchmarks zeigen, dass Qwen 3.6 27B und Gemma 4 31B auf einer RTX 3090 24GB bis zu 177.8 tps erreichen, was eine Steigerung von 4.93-fach über die Baseline darstellt.

Was NICHT funktioniert / Limits: Die Leistung von DFlash und MTP hängt von der spezifischen Konfiguration ab. Die Benchmarks wurden auf einer RTX 3090 24GB durchgeführt, und die Leistung auf anderen GPUs kann variieren.

Nachbau-Empfehlung: Dieses Setup ist für Benutzer geeignet, die maximale Leistung und erweiterte Funktionen wie DFlash und MTP benötigen. Die RTX 3090 24GB ist eine ausgezeichnete Wahl für leistungshungrige Anwendungen, und BeeLlama v0.3.1 bietet eine breite Palette von Optimierungen.


Weitere Beiträge:

llama-server router: a model pinned to one GPU still grabs a CUDA context on every card, so it OOMs when my others are full. Am I missing a flag or is this just how it is? — keine funktionierendes Setup belegt
Context, memory, and RAM/VRAM — keine funktionierendes Setup belegt
Does anyone know what PCIe mode was used for these benchmarks? — keine funktionierendes Setup belegt
Qwen 3.6 27B MTP – Adding spec-type and spec-draft-n-max is dropping tps and reducing GPU utilization — keine funktionierendes Setup belegt
Strange bug using llama.cpp server — keine funktionierendes Setup belegt
I implemented KVarN in my llama.cpp fork and ran KLD benchmarks. It’s promising! — keine funktionierendes Setup belegt
Running Qwen3.6-35B-A3B on a laptop RTX 4060 (8GB) — what worked, what didn’t, and a surprising speculative-decoding result — zu duenne Description, keine nachbaubaren Daten

👁 2 Aufrufe 👤 2 Leser

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert