Apple M1 Ultra — What LLMs Can It Run?

Specifications

VRAM

128 GB

Memory Bandwidth

800 GB/s

Architecture

Apple Silicon

Generation

FP16 TFLOPS

Vendor

APPLE

Check prices for Apple M1 Ultra

Check price on Amazon

Runs Great(95)

Full GPU inference at good speed

Aya Expanse 32B

32B · Q4_K_M · 19 GB

~33.7 tok/s

Aya Expanse 8B

8B · Q4_K_M · 4.9 GB

~130.6 tok/s

BGE Large EN v1.5

0.335B · FP16 · 0.67 GB

~1194 tok/s

CodeLlama 13B

13B · Q4_K_M · 7.9 GB

~81 tok/s

CodeLlama 34B

34B · Q4_K_M · 20 GB

~32 tok/s

CodeLlama 7B

7B · Q4_K_M · 4.2 GB

~152.4 tok/s

Codestral 22B

22B · Q4_K_M · 13 GB

~49.2 tok/s

Command R 35B

35B · Q4_K_M · 20 GB

~32 tok/s

Command R+ 104B

104B · Q3_K_M · 48 GB

~11.5 tok/s

Command R7B

7B · Q4_K_M · 4.5 GB

~142.2 tok/s

DeepSeek Coder V2 Lite 16B

16B · Q4_K_M · 9.5 GB

~67.4 tok/s

DeepSeek R1 Distill Llama 70B

70B · Q3_K_M · 33 GB

~16.7 tok/s

DeepSeek R1 Distill Llama 8B

8B · Q4_K_M · 4.9 GB

~130.6 tok/s

DeepSeek R1 Distill Qwen 1.5B

1.5B · Q4_K_M · 1 GB

~640 tok/s

DeepSeek R1 Distill Qwen 14B

14B · Q4_K_M · 8.7 GB

~73.6 tok/s

DeepSeek R1 Distill Qwen 32B

32B · Q3_K_M · 15 GB

~36.8 tok/s

DeepSeek R1 Distill Qwen 7B

7B · Q4_K_M · 4.7 GB

~136.2 tok/s

Devstral 2 123B

123B · Q4_K_M · 61.5 GB

~10.4 tok/s

Devstral Small 2 24B

24B · Q4_K_M · 12 GB

~53.3 tok/s

Gemma 2 27B

27B · Q3_K_M · 13 GB

~42.4 tok/s

Gemma 2 2B

2B · Q4_K_M · 1.5 GB

~426.7 tok/s

Gemma 2 9B

9B · Q4_K_M · 5.5 GB

~116.4 tok/s

Gemma 3 12B

12B · Q4_K_M · 7.3 GB

~87.7 tok/s

Gemma 3 1B

1B · Q4_K_M · 0.7 GB

~914.3 tok/s

Gemma 3 27B

27B · Q4_K_M · 16 GB

~40 tok/s

Gemma 3 4B

4B · Q4_K_M · 2.5 GB

~256 tok/s

Gemma 3n E2B

2B · Q4_K_M · 1 GB

~640 tok/s

Gemma 3n E4B

4B · Q4_K_M · 2 GB

~320 tok/s

Gemma 4 26B A4B

26B · Q3_K_M · 13.3 GB

~41.5 tok/s

Gemma 4 31B

31B · Q3_K_M · 14.5 GB

~38 tok/s

Gemma 4 E2B

2.3B · Q4_K_M · 2.7 GB

~237 tok/s

Gemma 4 E4B

4.5B · Q4_K_M · 4.1 GB

~156.1 tok/s

GPT-OSS 120B

120B · Q4_K_M · 60 GB

~10.7 tok/s

GPT-OSS 20B

20B · Q4_K_M · 10 GB

~64 tok/s

Hermes 3 Llama 3.1 70B

70B · Q4_K_M · 40 GB

~16 tok/s

Hermes 3 Llama 3.1 8B

8B · Q4_K_M · 4.9 GB

~130.6 tok/s

InternLM 2.5 20B

20B · Q4_K_M · 12 GB

~53.3 tok/s

InternLM 2.5 7B

7B · Q4_K_M · 4.7 GB

~136.2 tok/s

Llama 3.1 70B

70B · Q2_K · 25 GB

~20 tok/s

Llama 3.1 8B

8B · Q3_K_M · 3.9 GB

~141.5 tok/s

Llama 3.1 Nemotron 70B

70B · Q4_K_M · 40 GB

~16 tok/s

Llama 3.2 1B

1.24B · Q4_K_M · 0.75 GB

~853.3 tok/s

Llama 3.2 3B

3.21B · Q4_K_M · 2 GB

~320 tok/s

Llama 3.3 70B

70B · Q3_K_M · 33 GB

~16.7 tok/s

Llama 4 Scout 17B (16E)

17B · Q4_K_M · 60 GB

~10.7 tok/s

Mistral 7B v0.3

7B · Q3_K_M · 3.5 GB

~157.6 tok/s

Mistral Nemo 12B

12B · Q4_K_M · 7.3 GB

~87.7 tok/s

Mistral Small 24B

24B · Q4_K_M · 14 GB

~45.7 tok/s

Mistral Small 3.1 24B

24B · Q4_K_M · 12.6 GB

~50.8 tok/s

Mixtral 8x22B

141B · Q3_K_M · 62 GB

~8.9 tok/s

Mixtral 8x7B

46.7B · Q3_K_M · 21 GB

~26.3 tok/s

mxbai-embed-large

0.335B · FP16 · 0.67 GB

~1194 tok/s

Nemotron Mini 4B

4B · Q4_K_M · 2.5 GB

~256 tok/s

Nomic Embed Text v1.5

0.137B · FP16 · 0.27 GB

~2963 tok/s

Phi-3 Medium 14B

14B · Q4_K_M · 8.2 GB

~78 tok/s

Phi-3 Mini 3.8B

3.8B · Q4_K_M · 2.3 GB

~278.3 tok/s

Phi-4 14B

14B · Q4_K_M · 8.2 GB

~78 tok/s

Phi-4 Mini 3.8B

3.8B · Q4_K_M · 2.3 GB

~278.3 tok/s

Phi-4 Reasoning 14B

14B · Q4_K_M · 7 GB

~91.4 tok/s

Phi-4 Reasoning Plus 14B

14B · Q4_K_M · 7 GB

~91.4 tok/s

Qwen 2.5 0.5B

0.5B · Q4_K_M · 0.4 GB

~1600 tok/s

Qwen 2.5 1.5B

1.5B · Q4_K_M · 1 GB

~640 tok/s

Qwen 2.5 14B

14B · Q4_K_M · 8.7 GB

~73.6 tok/s

Qwen 2.5 32B

32B · Q3_K_M · 15 GB

~36.8 tok/s

Qwen 2.5 3B

3B · Q4_K_M · 1.9 GB

~336.8 tok/s

Qwen 2.5 72B

72B · Q2_K · 27 GB

~18.5 tok/s

Qwen 2.5 7B

7B · Q3_K_M · 3.7 GB

~149.1 tok/s

Qwen 2.5 Coder 32B

32B · Q4_K_M · 19 GB

~33.7 tok/s

Qwen 2.5 Coder 7B

7B · Q4_K_M · 4.7 GB

~136.2 tok/s

Qwen3 0.6B

0.6B · Q4_K_M · 0.3 GB

~2133.3 tok/s

Qwen3 1.7B

1.7B · Q4_K_M · 0.9 GB

~711.1 tok/s

Qwen3 14B

14B · Q4_K_M · 7 GB

~91.4 tok/s

Qwen3 30B A3B

30B · Q4_K_M · 15 GB

~42.7 tok/s

Qwen3 32B

32B · Q4_K_M · 16 GB

~40 tok/s

Qwen3 4B

4B · Q4_K_M · 2 GB

~320 tok/s

Qwen3 8B

8B · Q4_K_M · 4 GB

~160 tok/s

Qwen3 Coder 30B A3B

30B · Q4_K_M · 15 GB

~42.7 tok/s

Qwen3 Coder Next 80B A3B

80B · Q4_K_M · 40 GB

~16 tok/s

Qwen3.5 27B

27B · Q4_K_M · 13.5 GB

~47.4 tok/s

Qwen3.5 35B A3B

35B · Q4_K_M · 17.5 GB

~36.6 tok/s

Qwen3.5 4B

4B · Q4_K_M · 2 GB

~320 tok/s

Qwen3.5 9B

9B · Q4_K_M · 4.5 GB

~142.2 tok/s

Qwen3.6 35B A3B

35B · Q4_K_M · 17.5 GB

~36.6 tok/s

QwQ 32B

32B · Q3_K_M · 15 GB

~36.8 tok/s

SmolLM3 3B

3B · Q4_K_M · 1.5 GB

~426.7 tok/s

Snowflake Arctic Embed L

0.335B · FP16 · 0.67 GB

~1194 tok/s

Stable Code 3B

3B · Q4_K_M · 1.8 GB

~355.6 tok/s

StableLM 2 1.6B

1.6B · Q4_K_M · 1 GB

~640 tok/s

StarCoder2 15B

15B · Q4_K_M · 9 GB

~71.1 tok/s

StarCoder2 3B

3B · Q4_K_M · 1.8 GB

~355.6 tok/s

StarCoder2 7B

7B · Q4_K_M · 4.2 GB

~152.4 tok/s

Step 3.5 Flash

196B · Q4_K_M · 98 GB

~6.5 tok/s

Yi 1.5 34B

34B · Q4_K_M · 20 GB

~32 tok/s

Yi 1.5 6B

6B · Q4_K_M · 3.7 GB

~173 tok/s

Yi 1.5 9B

9B · Q4_K_M · 5.5 GB

~116.4 tok/s

Can't Run(13)

Insufficient VRAM and RAM for these models

DeepSeek R1 671B

671B · Q2_K · 240 GB

DeepSeek V3 671B

671B · Q2_K · 240 GB

DeepSeek V3.2

685B · Q4_K_M · 342.5 GB

GLM 4.7

355B · Q4_K_M · 177.5 GB

GLM 5

744B · Q4_K_M · 372 GB

Kimi K2.5

1000B · Q4_K_M · 500 GB

Llama 3.1 405B

405B · Q2_K · 145 GB

Llama 3.1 Nemotron Ultra 253B

253B · Q4_K_M · 126.5 GB

Llama 4 Maverick 17B (128E)

17B · Q4_K_M · 230 GB

MiMo V2 Flash

309B · Q4_K_M · 154.5 GB

MiniMax M2.5

230B · Q4_K_M · 115 GB

Mistral Large 3 675B

675B · Q4_K_M · 337.5 GB

Qwen3 235B A22B

235B · Q4_K_M · 117.5 GB