Apple M4 Ultra — What LLMs Can It Run?

Specifications

VRAM

256 GB

Memory Bandwidth

1092 GB/s

Architecture

Apple Silicon

Generation

FP16 TFLOPS

Vendor

APPLE

Check prices for Apple M4 Ultra

Check price on Amazon

Runs Great(102)

Full GPU inference at good speed

Aya Expanse 32B

32B · Q4_K_M · 19 GB

~46 tok/s

Aya Expanse 8B

8B · Q4_K_M · 4.9 GB

~178.3 tok/s

BGE Large EN v1.5

0.335B · FP16 · 0.67 GB

~1629.9 tok/s

CodeLlama 13B

13B · Q4_K_M · 7.9 GB

~110.6 tok/s

CodeLlama 34B

34B · Q4_K_M · 20 GB

~43.7 tok/s

CodeLlama 7B

7B · Q4_K_M · 4.2 GB

~208 tok/s

Codestral 22B

22B · Q4_K_M · 13 GB

~67.2 tok/s

Command R 35B

35B · Q4_K_M · 20 GB

~43.7 tok/s

Command R+ 104B

104B · Q3_K_M · 48 GB

~15.7 tok/s

Command R7B

7B · Q4_K_M · 4.5 GB

~194.1 tok/s

DeepSeek Coder V2 Lite 16B

16B · Q4_K_M · 9.5 GB

~92 tok/s

DeepSeek R1 Distill Llama 70B

70B · Q3_K_M · 33 GB

~22.8 tok/s

DeepSeek R1 Distill Llama 8B

8B · Q4_K_M · 4.9 GB

~178.3 tok/s

DeepSeek R1 Distill Qwen 1.5B

1.5B · Q4_K_M · 1 GB

~873.6 tok/s

DeepSeek R1 Distill Qwen 14B

14B · Q4_K_M · 8.7 GB

~100.4 tok/s

DeepSeek R1 Distill Qwen 32B

32B · Q3_K_M · 15 GB

~50.2 tok/s

DeepSeek R1 Distill Qwen 7B

7B · Q4_K_M · 4.7 GB

~185.9 tok/s

Devstral 2 123B

123B · Q4_K_M · 61.5 GB

~14.2 tok/s

Devstral Small 2 24B

24B · Q4_K_M · 12 GB

~72.8 tok/s

Gemma 2 27B

27B · Q3_K_M · 13 GB

~57.9 tok/s

Gemma 2 2B

2B · Q4_K_M · 1.5 GB

~582.4 tok/s

Gemma 2 9B

9B · Q4_K_M · 5.5 GB

~158.8 tok/s

Gemma 3 12B

12B · Q4_K_M · 7.3 GB

~119.7 tok/s

Gemma 3 1B

1B · Q4_K_M · 0.7 GB

~1248 tok/s

Gemma 3 27B

27B · Q4_K_M · 16 GB

~54.6 tok/s

Gemma 3 4B

4B · Q4_K_M · 2.5 GB

~349.4 tok/s

Gemma 3n E2B

2B · Q4_K_M · 1 GB

~873.6 tok/s

Gemma 3n E4B

4B · Q4_K_M · 2 GB

~436.8 tok/s

Gemma 4 26B A4B

26B · Q3_K_M · 13.3 GB

~56.6 tok/s

Gemma 4 31B

31B · Q3_K_M · 14.5 GB

~51.9 tok/s

Gemma 4 E2B

2.3B · Q4_K_M · 2.7 GB

~323.6 tok/s

Gemma 4 E4B

4.5B · Q4_K_M · 4.1 GB

~213.1 tok/s

GLM 4.7

355B · Q4_K_M · 177.5 GB

~4.9 tok/s

GPT-OSS 120B

120B · Q4_K_M · 60 GB

~14.6 tok/s

GPT-OSS 20B

20B · Q4_K_M · 10 GB

~87.4 tok/s

Hermes 3 Llama 3.1 70B

70B · Q4_K_M · 40 GB

~21.8 tok/s

Hermes 3 Llama 3.1 8B

8B · Q4_K_M · 4.9 GB

~178.3 tok/s

InternLM 2.5 20B

20B · Q4_K_M · 12 GB

~72.8 tok/s

InternLM 2.5 7B

7B · Q4_K_M · 4.7 GB

~185.9 tok/s

Llama 3.1 405B

405B · Q2_K · 145 GB

~4.7 tok/s

Llama 3.1 70B

70B · Q2_K · 25 GB

~27.3 tok/s

Llama 3.1 8B

8B · Q3_K_M · 3.9 GB

~193.1 tok/s

Llama 3.1 Nemotron 70B

70B · Q4_K_M · 40 GB

~21.8 tok/s

Llama 3.1 Nemotron Ultra 253B

253B · Q4_K_M · 126.5 GB

~6.9 tok/s

Llama 3.2 1B

1.24B · Q4_K_M · 0.75 GB

~1164.8 tok/s

Llama 3.2 3B

3.21B · Q4_K_M · 2 GB

~436.8 tok/s

Llama 3.3 70B

70B · Q3_K_M · 33 GB

~22.8 tok/s

Llama 4 Maverick 17B (128E)

17B · Q4_K_M · 230 GB

~3.8 tok/s

Llama 4 Scout 17B (16E)

17B · Q4_K_M · 60 GB

~14.6 tok/s

MiMo V2 Flash

309B · Q4_K_M · 154.5 GB

~5.7 tok/s

MiniMax M2.5

230B · Q4_K_M · 115 GB

~7.6 tok/s

Mistral 7B v0.3

7B · Q3_K_M · 3.5 GB

~215.2 tok/s

Mistral Nemo 12B

12B · Q4_K_M · 7.3 GB

~119.7 tok/s

Mistral Small 24B

24B · Q4_K_M · 14 GB

~62.4 tok/s

Mistral Small 3.1 24B

24B · Q4_K_M · 12.6 GB

~69.3 tok/s

Mixtral 8x22B

141B · Q3_K_M · 62 GB

~12.1 tok/s

Mixtral 8x7B

46.7B · Q3_K_M · 21 GB

~35.9 tok/s

mxbai-embed-large

0.335B · FP16 · 0.67 GB

~1629.9 tok/s

Nemotron Mini 4B

4B · Q4_K_M · 2.5 GB

~349.4 tok/s

Nomic Embed Text v1.5

0.137B · FP16 · 0.27 GB

~4044.4 tok/s

Phi-3 Medium 14B

14B · Q4_K_M · 8.2 GB

~106.5 tok/s

Phi-3 Mini 3.8B

3.8B · Q4_K_M · 2.3 GB

~379.8 tok/s

Phi-4 14B

14B · Q4_K_M · 8.2 GB

~106.5 tok/s

Phi-4 Mini 3.8B

3.8B · Q4_K_M · 2.3 GB

~379.8 tok/s

Phi-4 Reasoning 14B

14B · Q4_K_M · 7 GB

~124.8 tok/s

Phi-4 Reasoning Plus 14B

14B · Q4_K_M · 7 GB

~124.8 tok/s

Qwen 2.5 0.5B

0.5B · Q4_K_M · 0.4 GB

~2184 tok/s

Qwen 2.5 1.5B

1.5B · Q4_K_M · 1 GB

~873.6 tok/s

Qwen 2.5 14B

14B · Q4_K_M · 8.7 GB

~100.4 tok/s

Qwen 2.5 32B

32B · Q3_K_M · 15 GB

~50.2 tok/s

Qwen 2.5 3B

3B · Q4_K_M · 1.9 GB

~459.8 tok/s

Qwen 2.5 72B

72B · Q2_K · 27 GB

~25.3 tok/s

Qwen 2.5 7B

7B · Q3_K_M · 3.7 GB

~203.5 tok/s

Qwen 2.5 Coder 32B

32B · Q4_K_M · 19 GB

~46 tok/s

Qwen 2.5 Coder 7B

7B · Q4_K_M · 4.7 GB

~185.9 tok/s

Qwen3 0.6B

0.6B · Q4_K_M · 0.3 GB

~2912 tok/s

Qwen3 1.7B

1.7B · Q4_K_M · 0.9 GB

~970.7 tok/s

Qwen3 14B

14B · Q4_K_M · 7 GB

~124.8 tok/s

Qwen3 235B A22B

235B · Q4_K_M · 117.5 GB

~7.4 tok/s

Qwen3 30B A3B

30B · Q4_K_M · 15 GB

~58.2 tok/s

Qwen3 32B

32B · Q4_K_M · 16 GB

~54.6 tok/s

Qwen3 4B

4B · Q4_K_M · 2 GB

~436.8 tok/s

Qwen3 8B

8B · Q4_K_M · 4 GB

~218.4 tok/s

Qwen3 Coder 30B A3B

30B · Q4_K_M · 15 GB

~58.2 tok/s

Qwen3 Coder Next 80B A3B

80B · Q4_K_M · 40 GB

~21.8 tok/s

Qwen3.5 27B

27B · Q4_K_M · 13.5 GB

~64.7 tok/s

Qwen3.5 35B A3B

35B · Q4_K_M · 17.5 GB

~49.9 tok/s

Qwen3.5 4B

4B · Q4_K_M · 2 GB

~436.8 tok/s

Qwen3.5 9B

9B · Q4_K_M · 4.5 GB

~194.1 tok/s

Qwen3.6 35B A3B

35B · Q4_K_M · 17.5 GB

~49.9 tok/s

QwQ 32B

32B · Q3_K_M · 15 GB

~50.2 tok/s

SmolLM3 3B

3B · Q4_K_M · 1.5 GB

~582.4 tok/s

Snowflake Arctic Embed L

0.335B · FP16 · 0.67 GB

~1629.9 tok/s

Stable Code 3B

3B · Q4_K_M · 1.8 GB

~485.3 tok/s

StableLM 2 1.6B

1.6B · Q4_K_M · 1 GB

~873.6 tok/s

StarCoder2 15B

15B · Q4_K_M · 9 GB

~97.1 tok/s

StarCoder2 3B

3B · Q4_K_M · 1.8 GB

~485.3 tok/s

StarCoder2 7B

7B · Q4_K_M · 4.2 GB

~208 tok/s

Step 3.5 Flash

196B · Q4_K_M · 98 GB

~8.9 tok/s

Yi 1.5 34B

34B · Q4_K_M · 20 GB

~43.7 tok/s

Yi 1.5 6B

6B · Q4_K_M · 3.7 GB

~236.1 tok/s

Yi 1.5 9B

9B · Q4_K_M · 5.5 GB

~158.8 tok/s

Runs with Limits(2)

Partial GPU offload, hybrid, or CPU-only — expect slower speeds

DeepSeek R1 671B

671B · Q2_K · 240 GB

~2 tok/s

DeepSeek V3 671B

671B · Q2_K · 240 GB

~2 tok/s

Can't Run(4)

Insufficient VRAM and RAM for these models

DeepSeek V3.2

685B · Q4_K_M · 342.5 GB

GLM 5

744B · Q4_K_M · 372 GB

Kimi K2.5

1000B · Q4_K_M · 500 GB

Mistral Large 3 675B

675B · Q4_K_M · 337.5 GB