Skip to main content

Specifications

VRAM

16 GB

Memory Bandwidth

68 GB/s

Architecture

Apple Silicon

Generation

M1

FP16 TFLOPS

5.5

Vendor

APPLE

Check prices for Apple M1

Runs Great(61)

Full GPU inference at good speed

Aya Expanse 8B

8B · Q4_K_M · 4.9 GB

~11.1 tok/s

BGE Large EN v1.5

0.335B · FP16 · 0.67 GB

~101.5 tok/s

CodeLlama 13B

13B · Q4_K_M · 7.9 GB

~6.9 tok/s

CodeLlama 7B

7B · Q4_K_M · 4.2 GB

~13 tok/s

Command R7B

7B · Q4_K_M · 4.5 GB

~12.1 tok/s

DeepSeek Coder V2 Lite 16B

16B · Q4_K_M · 9.5 GB

~5.7 tok/s

DeepSeek R1 Distill Llama 8B

8B · Q4_K_M · 4.9 GB

~11.1 tok/s

DeepSeek R1 Distill Qwen 1.5B

1.5B · Q4_K_M · 1 GB

~54.4 tok/s

DeepSeek R1 Distill Qwen 14B

14B · Q4_K_M · 8.7 GB

~6.3 tok/s

DeepSeek R1 Distill Qwen 7B

7B · Q4_K_M · 4.7 GB

~11.6 tok/s

Devstral Small 2 24B

24B · Q4_K_M · 12 GB

~4.5 tok/s

Gemma 2 2B

2B · Q4_K_M · 1.5 GB

~36.3 tok/s

Gemma 2 9B

9B · Q4_K_M · 5.5 GB

~9.9 tok/s

Gemma 3 12B

12B · Q4_K_M · 7.3 GB

~7.5 tok/s

Gemma 3 1B

1B · Q4_K_M · 0.7 GB

~77.7 tok/s

Gemma 3 4B

4B · Q4_K_M · 2.5 GB

~21.8 tok/s

Gemma 3n E2B

2B · Q4_K_M · 1 GB

~54.4 tok/s

Gemma 3n E4B

4B · Q4_K_M · 2 GB

~27.2 tok/s

Gemma 4 E2B

2.3B · Q4_K_M · 2.7 GB

~20.1 tok/s

Gemma 4 E4B

4.5B · Q4_K_M · 4.1 GB

~13.3 tok/s

GPT-OSS 20B

20B · Q4_K_M · 10 GB

~5.4 tok/s

Hermes 3 Llama 3.1 8B

8B · Q4_K_M · 4.9 GB

~11.1 tok/s

InternLM 2.5 20B

20B · Q4_K_M · 12 GB

~4.5 tok/s

InternLM 2.5 7B

7B · Q4_K_M · 4.7 GB

~11.6 tok/s

Llama 3.1 8B

8B · Q3_K_M · 3.9 GB

~12 tok/s

Llama 3.2 1B

1.24B · Q4_K_M · 0.75 GB

~72.5 tok/s

Llama 3.2 3B

3.21B · Q4_K_M · 2 GB

~27.2 tok/s

Mistral 7B v0.3

7B · Q3_K_M · 3.5 GB

~13.4 tok/s

Mistral Nemo 12B

12B · Q4_K_M · 7.3 GB

~7.5 tok/s

Mistral Small 3.1 24B

24B · Q4_K_M · 12.6 GB

~4.3 tok/s

mxbai-embed-large

0.335B · FP16 · 0.67 GB

~101.5 tok/s

Nemotron Mini 4B

4B · Q4_K_M · 2.5 GB

~21.8 tok/s

Nomic Embed Text v1.5

0.137B · FP16 · 0.27 GB

~251.9 tok/s

Phi-3 Medium 14B

14B · Q4_K_M · 8.2 GB

~6.6 tok/s

Phi-3 Mini 3.8B

3.8B · Q4_K_M · 2.3 GB

~23.7 tok/s

Phi-4 14B

14B · Q4_K_M · 8.2 GB

~6.6 tok/s

Phi-4 Mini 3.8B

3.8B · Q4_K_M · 2.3 GB

~23.7 tok/s

Phi-4 Reasoning 14B

14B · Q4_K_M · 7 GB

~7.8 tok/s

Phi-4 Reasoning Plus 14B

14B · Q4_K_M · 7 GB

~7.8 tok/s

Qwen 2.5 0.5B

0.5B · Q4_K_M · 0.4 GB

~136 tok/s

Qwen 2.5 1.5B

1.5B · Q4_K_M · 1 GB

~54.4 tok/s

Qwen 2.5 14B

14B · Q4_K_M · 8.7 GB

~6.3 tok/s

Qwen 2.5 3B

3B · Q4_K_M · 1.9 GB

~28.6 tok/s

Qwen 2.5 7B

7B · Q3_K_M · 3.7 GB

~12.7 tok/s

Qwen 2.5 Coder 7B

7B · Q4_K_M · 4.7 GB

~11.6 tok/s

Qwen3 0.6B

0.6B · Q4_K_M · 0.3 GB

~181.3 tok/s

Qwen3 1.7B

1.7B · Q4_K_M · 0.9 GB

~60.4 tok/s

Qwen3 14B

14B · Q4_K_M · 7 GB

~7.8 tok/s

Qwen3 4B

4B · Q4_K_M · 2 GB

~27.2 tok/s

Qwen3 8B

8B · Q4_K_M · 4 GB

~13.6 tok/s

Qwen3.5 4B

4B · Q4_K_M · 2 GB

~27.2 tok/s

Qwen3.5 9B

9B · Q4_K_M · 4.5 GB

~12.1 tok/s

SmolLM3 3B

3B · Q4_K_M · 1.5 GB

~36.3 tok/s

Snowflake Arctic Embed L

0.335B · FP16 · 0.67 GB

~101.5 tok/s

Stable Code 3B

3B · Q4_K_M · 1.8 GB

~30.2 tok/s

StableLM 2 1.6B

1.6B · Q4_K_M · 1 GB

~54.4 tok/s

StarCoder2 15B

15B · Q4_K_M · 9 GB

~6 tok/s

StarCoder2 3B

3B · Q4_K_M · 1.8 GB

~30.2 tok/s

StarCoder2 7B

7B · Q4_K_M · 4.2 GB

~13 tok/s

Yi 1.5 6B

6B · Q4_K_M · 3.7 GB

~14.7 tok/s

Yi 1.5 9B

9B · Q4_K_M · 5.5 GB

~9.9 tok/s

Runs with Limits(29)

Partial GPU offload, hybrid, or CPU-only — expect slower speeds

Can't Run(18)

Insufficient VRAM and RAM for these models