MLX-Community: Apple Silicon für lokale KI-Agenten
Das MLX-Projekt von Apple ist aktuell in vollem Schwung, insbesondere im Bereich der lokalen KI-Agenten auf Apple Silicon. Die Community arbeitet intensiv an der Verbesserung der Modell-Unterstützung, der Performance und der Integration in verteilte Systeme. Für Entwickler, die OpenCode-Workloads auf lokalen Apple-Geräten ausführen möchten, bieten sich interessante Entwicklungen und Projekte.
MLX Community Projects (5/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): Diese Diskussion bietet eine Übersicht über verschiedene Community-Projekte, die MLX nutzen, aber spezifische Benchmarks oder Hardware-Tests fehlen.
Hardware: nicht im Post belegt
Modell: nicht im Post belegt
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: nicht im Post belegt
Investment-Empfehlung: nicht aus Titel ableitbar
Kontext (2-3 Saetze): Der Leser sollte diese Diskussion durchklicken, um eine Vielzahl von Projekten zu entdecken, die MLX auf Apple Silicon nutzen. Es gibt Projekte für Textgenerierung, RAG-Anwendungen, Fine-Tuning und mehr. Für den Kauf eines Mac Studio oder eines Clusters bietet diese Diskussion jedoch keine spezifischen Benchmarks oder Hardware-Empfehlungen.
4-bit `gather_qmm` weight-reuse GEMM tops out ~80 GB/s at small MoE M on M5 Pro – is tile tuning of `gather_qmm_rhs_nax` feasible? (8/10) — OpenCode-Fit: NEIN
Verdict (1 Satz): Diese technische Diskussion zeigt, dass die Performance von 4-bit MoE-Modellen auf M5 Pro durch die Weight-Reuse-GEMM begrenzt ist, was für den Kauf eines Mac Studio relevant sein kann.
Hardware: M5 Pro
Modell: MoE-Modelle
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single-Node
Investment-Empfehlung: Der Leser sollte die Performance-Begrenzungen bei 4-bit MoE-Modellen auf M5 Pro berücksichtigen, wenn er hohe Performance anstrebt.
Kontext (2-3 Saetze): Der Leser sollte diese Diskussion lesen, um die technischen Details der Performance-Begrenzungen bei 4-bit MoE-Modellen auf M5 Pro zu verstehen. Es wird erklärt, dass die Weight-Reuse-GEMM bei kleinem M (Anzahl der Reihen, die wiederverwendet werden) auf ~80 GB/s begrenzt ist, was für die Wahl der Hardware bei MoE-Modellen relevant sein kann.
mlx-chronos: benchmark suite and leaderboard for MLX inference engines (9/10) — OpenCode-Fit: JA
Verdict (1 Satz): mlx-chronos bietet eine Benchmark-Suite und einen Leaderboard, um die Performance verschiedener MLX-Inferenz-Engines auf Apple Silicon zu vergleichen, was für den Kauf eines Mac Studio oder eines Clusters sehr nützlich ist.
Hardware: nicht im Post belegt
Modell: verschiedene Modelle
tok/s-Claim: TTFT, request throughput, sustained throughput
Cluster-Bezug: Single-Node
Investment-Empfehlung: Der Leser sollte die Benchmarks in mlx-chronos nutzen, um die Performance verschiedener Mac-Konfigurationen zu vergleichen und eine fundierte Kaufentscheidung zu treffen.
Kontext (2-3 Saetze): Der Leser sollte diese Diskussion lesen, um die mlx-chronos Benchmark-Suite zu entdecken, die TTFT, request throughput, sustained throughput, System-RAM-Peak, thermische und Stromverbrauchsinformationen misst. Die öffentliche Leaderboard-Website bietet eine gute Übersicht über die Performance verschiedener MLX-Inferenz-Engines auf Apple Silicon.
Mixed-stack home lab: ~7× throughput meshing MLX/oMLX + LM Studio + llama.cpp + vLLM (8/10) — OpenCode-Fit: JA
Verdict (1 Satz): llm-swarm-router ermöglicht es, MLX-Inferenz auf einem gemischten Home-Lab-Setup zu koordinieren, was die Throughput-Performance um das 7-fache steigern kann.
Hardware: 2× Linux, 3× Apple Silicon Macs
Modell: verschiedene Modelle
tok/s-Claim: ~7× throughput
Cluster-Bezug: Multi-Node
Investment-Empfehlung: Der Leser sollte llm-swarm-router in Betracht ziehen, um die Performance eines gemischten Home-Lab-Setups zu optimieren, insbesondere wenn er sowohl Apple Silicon als auch Linux-Geräte nutzt.
Kontext (2-3 Saetze): Der Leser sollte diese Diskussion lesen, um llm-swarm-router zu entdecken, eine Mesh-Koordinator-Software, die MLX-Inferenz auf einem gemischten Home-Lab-Setup koordiniert. Es ermöglicht die Auto-Entdeckung von Backends, die Meshing über mDNS und die Exposition einer stabilen OpenAI-/v1 + Anthropic Messages API.
WCER: run a Mixture-of-Experts using only the experts your workload uses (7/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): WCER ermöglicht es, die Speicherverwendung von MoE-Modellen zu reduzieren, indem nur die tatsächlich genutzten Experten im Speicher gehalten werden, was für den Kauf eines Mac Studio relevant sein kann.
Hardware: nicht im Post belegt
Modell: MoE-Modelle
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single-Node
Investment-Empfehlung: Der Leser sollte WCER in Betracht ziehen, um die Speicherverwendung von MoE-Modellen zu optimieren, insbesondere wenn er speicherintensive Modelle auf einem Mac Studio ausführen möchte.
Kontext (2-3 Saetze): Der Leser sollte diese Diskussion lesen, um WCER zu entdecken, eine Methode, die die Speicherverwendung von MoE-Modellen reduziert, indem nur die tatsächlich genutzten Experten im Speicher gehalten werden. Es bietet eine Möglichkeit, die Speicherverwendung zu optimieren, ohne die Modellqualität zu beeinträchtigen.
docker_mlx_cpp — Give any Docker container Metal GPU access (107 ops) (7/10) — OpenCode-Fit: BEDINGT
Verdict (1 Satz): docker_mlx_cpp ermöglicht es, Docker-Containern auf Apple Silicon den Zugriff auf die Metal-GPU zu ermöglichen, was für den Betrieb von MLX-Modellen in Containern sehr nützlich sein kann.
Hardware: M5, 24GB
Modell: verschiedene Modelle
tok/s-Claim: nicht im Post belegt
Cluster-Bezug: Single-Node
Investment-Empfehlung: Der Leser sollte docker_mlx_cpp in Betracht ziehen, um Docker-Containern auf Apple Silicon den Zugriff auf die Metal-GPU zu ermöglichen, was die Flexibilität des Setups erhöht.
Kontext (2-3 Saetze): Der Leser sollte diese Diskussion lesen, um docker_mlx_cpp zu entdecken, ein Tool, das Docker-Containern auf Apple Silicon den Zugriff auf die Metal-GPU ermöglicht. Es bietet 107 GPU-Operationen, LLM-Inferenz, VLM, Audio, Bildgenerierung, Embeddings und Training, was die Flexibilität des Setups erheblich erhöht.
Weitere Diskussionen:
– Patterns for capturing intermediate layer outputs (forward hooks equivalent)
– Question about metal gemm
– The module ‚mlx.core.metal‘ has no attribute ‚device_info‘?
– Can you stop gradients for part of a tensor?
– MacProvider — making mlx-lm endpoints addressable over the internet, with verifiable inference
– metal RWKV
– Sparse array primitives and linalg for MLX
– RFC: Read-only Metal storage export view for evaluated arrays