Apple M1 — What LLMs Can It Run?

Specifications

VRAM

16 GB

Memory Bandwidth

68 GB/s

Architecture

Apple Silicon

Generation

FP16 TFLOPS

5.5

Vendor

APPLE

Check prices for Apple M1

Check price on Amazon

Runs Great(61)

Full GPU inference at good speed

Aya Expanse 8B

8B · Q4_K_M · 4.9 GB

~11.1 tok/s

BGE Large EN v1.5

0.335B · FP16 · 0.67 GB

~101.5 tok/s

CodeLlama 13B

13B · Q4_K_M · 7.9 GB

~6.9 tok/s

CodeLlama 7B

7B · Q4_K_M · 4.2 GB

~13 tok/s

Command R7B

7B · Q4_K_M · 4.5 GB

~12.1 tok/s

DeepSeek Coder V2 Lite 16B

16B · Q4_K_M · 9.5 GB

~5.7 tok/s

DeepSeek R1 Distill Llama 8B

8B · Q4_K_M · 4.9 GB

~11.1 tok/s

DeepSeek R1 Distill Qwen 1.5B

1.5B · Q4_K_M · 1 GB

~54.4 tok/s

DeepSeek R1 Distill Qwen 14B

14B · Q4_K_M · 8.7 GB

~6.3 tok/s

DeepSeek R1 Distill Qwen 7B

7B · Q4_K_M · 4.7 GB

~11.6 tok/s

Devstral Small 2 24B

24B · Q4_K_M · 12 GB

~4.5 tok/s

Gemma 2 2B

2B · Q4_K_M · 1.5 GB

~36.3 tok/s

Gemma 2 9B

9B · Q4_K_M · 5.5 GB

~9.9 tok/s

Gemma 3 12B

12B · Q4_K_M · 7.3 GB

~7.5 tok/s

Gemma 3 1B

1B · Q4_K_M · 0.7 GB

~77.7 tok/s

Gemma 3 4B

4B · Q4_K_M · 2.5 GB

~21.8 tok/s

Gemma 3n E2B

2B · Q4_K_M · 1 GB

~54.4 tok/s

Gemma 3n E4B

4B · Q4_K_M · 2 GB

~27.2 tok/s

Gemma 4 E2B

2.3B · Q4_K_M · 2.7 GB

~20.1 tok/s

Gemma 4 E4B

4.5B · Q4_K_M · 4.1 GB

~13.3 tok/s

GPT-OSS 20B

20B · Q4_K_M · 10 GB

~5.4 tok/s

Hermes 3 Llama 3.1 8B

8B · Q4_K_M · 4.9 GB

~11.1 tok/s

InternLM 2.5 20B

20B · Q4_K_M · 12 GB

~4.5 tok/s

InternLM 2.5 7B

7B · Q4_K_M · 4.7 GB

~11.6 tok/s

Llama 3.1 8B

8B · Q3_K_M · 3.9 GB

~12 tok/s

Llama 3.2 1B

1.24B · Q4_K_M · 0.75 GB

~72.5 tok/s

Llama 3.2 3B

3.21B · Q4_K_M · 2 GB

~27.2 tok/s

Mistral 7B v0.3

7B · Q3_K_M · 3.5 GB

~13.4 tok/s

Mistral Nemo 12B

12B · Q4_K_M · 7.3 GB

~7.5 tok/s

Mistral Small 3.1 24B

24B · Q4_K_M · 12.6 GB

~4.3 tok/s

mxbai-embed-large

0.335B · FP16 · 0.67 GB

~101.5 tok/s

Nemotron Mini 4B

4B · Q4_K_M · 2.5 GB

~21.8 tok/s

Nomic Embed Text v1.5

0.137B · FP16 · 0.27 GB

~251.9 tok/s

Phi-3 Medium 14B

14B · Q4_K_M · 8.2 GB

~6.6 tok/s

Phi-3 Mini 3.8B

3.8B · Q4_K_M · 2.3 GB

~23.7 tok/s

Phi-4 14B

14B · Q4_K_M · 8.2 GB

~6.6 tok/s

Phi-4 Mini 3.8B

3.8B · Q4_K_M · 2.3 GB

~23.7 tok/s

Phi-4 Reasoning 14B

14B · Q4_K_M · 7 GB

~7.8 tok/s

Phi-4 Reasoning Plus 14B

14B · Q4_K_M · 7 GB

~7.8 tok/s

Qwen 2.5 0.5B

0.5B · Q4_K_M · 0.4 GB

~136 tok/s

Qwen 2.5 1.5B

1.5B · Q4_K_M · 1 GB

~54.4 tok/s

Qwen 2.5 14B

14B · Q4_K_M · 8.7 GB

~6.3 tok/s

Qwen 2.5 3B

3B · Q4_K_M · 1.9 GB

~28.6 tok/s

Qwen 2.5 7B

7B · Q3_K_M · 3.7 GB

~12.7 tok/s

Qwen 2.5 Coder 7B

7B · Q4_K_M · 4.7 GB

~11.6 tok/s

Qwen3 0.6B

0.6B · Q4_K_M · 0.3 GB

~181.3 tok/s

Qwen3 1.7B

1.7B · Q4_K_M · 0.9 GB

~60.4 tok/s

Qwen3 14B

14B · Q4_K_M · 7 GB

~7.8 tok/s

Qwen3 4B

4B · Q4_K_M · 2 GB

~27.2 tok/s

Qwen3 8B

8B · Q4_K_M · 4 GB

~13.6 tok/s

Qwen3.5 4B

4B · Q4_K_M · 2 GB

~27.2 tok/s

Qwen3.5 9B

9B · Q4_K_M · 4.5 GB

~12.1 tok/s

SmolLM3 3B

3B · Q4_K_M · 1.5 GB

~36.3 tok/s

Snowflake Arctic Embed L

0.335B · FP16 · 0.67 GB

~101.5 tok/s

Stable Code 3B

3B · Q4_K_M · 1.8 GB

~30.2 tok/s

StableLM 2 1.6B

1.6B · Q4_K_M · 1 GB

~54.4 tok/s

StarCoder2 15B

15B · Q4_K_M · 9 GB

~6 tok/s

StarCoder2 3B

3B · Q4_K_M · 1.8 GB

~30.2 tok/s

StarCoder2 7B

7B · Q4_K_M · 4.2 GB

~13 tok/s

Yi 1.5 6B

6B · Q4_K_M · 3.7 GB

~14.7 tok/s

Yi 1.5 9B

9B · Q4_K_M · 5.5 GB

~9.9 tok/s

Runs with Limits(29)

Partial GPU offload, hybrid, or CPU-only — expect slower speeds

Aya Expanse 32B

32B · Q4_K_M · 19 GB

~2 tok/s

CodeLlama 34B

34B · Q4_K_M · 20 GB

~1 tok/s

Codestral 22B

22B · Q4_K_M · 13 GB

~2.9 tok/s

Command R 35B

35B · Q4_K_M · 20 GB

~1 tok/s

Command R+ 104B

104B · Q3_K_M · 48 GB

~1 tok/s

DeepSeek R1 Distill Llama 70B

70B · Q3_K_M · 33 GB

~1 tok/s

DeepSeek R1 Distill Qwen 32B

32B · Q3_K_M · 15 GB

~2 tok/s

Gemma 2 27B

27B · Q3_K_M · 13 GB

~2.5 tok/s

Gemma 3 27B

27B · Q4_K_M · 16 GB

~2 tok/s

Gemma 4 26B A4B

26B · Q3_K_M · 13.3 GB

~2.4 tok/s

Gemma 4 31B

31B · Q3_K_M · 14.5 GB

~2 tok/s

Hermes 3 Llama 3.1 70B

70B · Q4_K_M · 40 GB

~1 tok/s

Llama 3.1 70B

70B · Q2_K · 25 GB

~1 tok/s

Llama 3.1 Nemotron 70B

70B · Q4_K_M · 40 GB

~1 tok/s

Llama 3.3 70B

70B · Q3_K_M · 33 GB

~1 tok/s

Mistral Small 24B

24B · Q4_K_M · 14 GB

~2.7 tok/s

Mixtral 8x7B

46.7B · Q3_K_M · 21 GB

~1 tok/s

Qwen 2.5 32B

32B · Q3_K_M · 15 GB

~2 tok/s

Qwen 2.5 72B

72B · Q2_K · 27 GB

~1 tok/s

Qwen 2.5 Coder 32B

32B · Q4_K_M · 19 GB

~2 tok/s

Qwen3 30B A3B

30B · Q4_K_M · 15 GB

~2 tok/s

Qwen3 32B

32B · Q4_K_M · 16 GB

~2 tok/s

Qwen3 Coder 30B A3B

30B · Q4_K_M · 15 GB

~2 tok/s

Qwen3 Coder Next 80B A3B

80B · Q4_K_M · 40 GB

~1 tok/s

Qwen3.5 27B

27B · Q4_K_M · 13.5 GB

~2.8 tok/s

Qwen3.5 35B A3B

35B · Q4_K_M · 17.5 GB

~2 tok/s

Qwen3.6 35B A3B

35B · Q4_K_M · 17.5 GB

~2 tok/s

QwQ 32B

32B · Q3_K_M · 15 GB

~2 tok/s

Yi 1.5 34B

34B · Q4_K_M · 20 GB

~1 tok/s

Can't Run(18)

Insufficient VRAM and RAM for these models

DeepSeek R1 671B

671B · Q2_K · 240 GB

DeepSeek V3 671B

671B · Q2_K · 240 GB

DeepSeek V3.2

685B · Q4_K_M · 342.5 GB

Devstral 2 123B

123B · Q4_K_M · 61.5 GB

GLM 4.7

355B · Q4_K_M · 177.5 GB

GLM 5

744B · Q4_K_M · 372 GB

GPT-OSS 120B

120B · Q4_K_M · 60 GB

Kimi K2.5

1000B · Q4_K_M · 500 GB

Llama 3.1 405B

405B · Q2_K · 145 GB

Llama 3.1 Nemotron Ultra 253B

253B · Q4_K_M · 126.5 GB

Llama 4 Maverick 17B (128E)

17B · Q4_K_M · 230 GB

Llama 4 Scout 17B (16E)

17B · Q4_K_M · 60 GB

MiMo V2 Flash

309B · Q4_K_M · 154.5 GB

MiniMax M2.5

230B · Q4_K_M · 115 GB

Mistral Large 3 675B

675B · Q4_K_M · 337.5 GB

Mixtral 8x22B

141B · Q3_K_M · 62 GB

Qwen3 235B A22B

235B · Q4_K_M · 117.5 GB

Step 3.5 Flash

196B · Q4_K_M · 98 GB