NVIDIA GeForce RTX 4080 Laptop — What LLMs Can It Run?

Specifications

VRAM

12 GB

Memory Bandwidth

432 GB/s

Architecture

Ada Lovelace

Generation

RTX 40 Laptop

FP16 TFLOPS

Vendor

NVIDIA

CUDA Cores

7,424

Tensor Cores

232

Check prices for NVIDIA GeForce RTX 4080 Laptop

Check price on Amazon

Runs Great(56)

Full GPU inference at good speed

Aya Expanse 8B

8B · Q4_K_M · 4.9 GB

~70.5 tok/s

BGE Large EN v1.5

0.335B · FP16 · 0.67 GB

~644.8 tok/s

CodeLlama 13B

13B · Q4_K_M · 7.9 GB

~43.7 tok/s

CodeLlama 7B

7B · Q4_K_M · 4.2 GB

~82.3 tok/s

Command R7B

7B · Q4_K_M · 4.5 GB

~76.8 tok/s

DeepSeek R1 Distill Llama 8B

8B · Q4_K_M · 4.9 GB

~70.5 tok/s

DeepSeek R1 Distill Qwen 1.5B

1.5B · Q4_K_M · 1 GB

~345.6 tok/s

DeepSeek R1 Distill Qwen 14B

14B · Q4_K_M · 8.7 GB

~39.7 tok/s

DeepSeek R1 Distill Qwen 7B

7B · Q4_K_M · 4.7 GB

~73.5 tok/s

Gemma 2 2B

2B · Q4_K_M · 1.5 GB

~230.4 tok/s

Gemma 2 9B

9B · Q4_K_M · 5.5 GB

~62.8 tok/s

Gemma 3 12B

12B · Q4_K_M · 7.3 GB

~47.3 tok/s

Gemma 3 1B

1B · Q4_K_M · 0.7 GB

~493.7 tok/s

Gemma 3 4B

4B · Q4_K_M · 2.5 GB

~138.2 tok/s

Gemma 3n E2B

2B · Q4_K_M · 1 GB

~345.6 tok/s

Gemma 3n E4B

4B · Q4_K_M · 2 GB

~172.8 tok/s

Gemma 4 E2B

2.3B · Q4_K_M · 2.7 GB

~128 tok/s

Gemma 4 E4B

4.5B · Q4_K_M · 4.1 GB

~84.3 tok/s

Hermes 3 Llama 3.1 8B

8B · Q4_K_M · 4.9 GB

~70.5 tok/s

InternLM 2.5 7B

7B · Q4_K_M · 4.7 GB

~73.5 tok/s

Llama 3.1 8B

8B · Q3_K_M · 3.9 GB

~76.4 tok/s

Llama 3.2 1B

1.24B · Q4_K_M · 0.75 GB

~460.8 tok/s

Llama 3.2 3B

3.21B · Q4_K_M · 2 GB

~172.8 tok/s

Mistral 7B v0.3

7B · Q3_K_M · 3.5 GB

~85.1 tok/s

Mistral Nemo 12B

12B · Q4_K_M · 7.3 GB

~47.3 tok/s

mxbai-embed-large

0.335B · FP16 · 0.67 GB

~644.8 tok/s

Nemotron Mini 4B

4B · Q4_K_M · 2.5 GB

~138.2 tok/s

Nomic Embed Text v1.5

0.137B · FP16 · 0.27 GB

~1600 tok/s

Phi-3 Medium 14B

14B · Q4_K_M · 8.2 GB

~42.1 tok/s

Phi-3 Mini 3.8B

3.8B · Q4_K_M · 2.3 GB

~150.3 tok/s

Phi-4 14B

14B · Q4_K_M · 8.2 GB

~42.1 tok/s

Phi-4 Mini 3.8B

3.8B · Q4_K_M · 2.3 GB

~150.3 tok/s

Phi-4 Reasoning 14B

14B · Q4_K_M · 7 GB

~49.4 tok/s

Phi-4 Reasoning Plus 14B

14B · Q4_K_M · 7 GB

~49.4 tok/s

Qwen 2.5 0.5B

0.5B · Q4_K_M · 0.4 GB

~864 tok/s

Qwen 2.5 1.5B

1.5B · Q4_K_M · 1 GB

~345.6 tok/s

Qwen 2.5 14B

14B · Q4_K_M · 8.7 GB

~39.7 tok/s

Qwen 2.5 3B

3B · Q4_K_M · 1.9 GB

~181.9 tok/s

Qwen 2.5 7B

7B · Q3_K_M · 3.7 GB

~80.5 tok/s

Qwen 2.5 Coder 7B

7B · Q4_K_M · 4.7 GB

~73.5 tok/s

Qwen3 0.6B

0.6B · Q4_K_M · 0.3 GB

~1152 tok/s

Qwen3 1.7B

1.7B · Q4_K_M · 0.9 GB

~384 tok/s

Qwen3 14B

14B · Q4_K_M · 7 GB

~49.4 tok/s

Qwen3 4B

4B · Q4_K_M · 2 GB

~172.8 tok/s

Qwen3 8B

8B · Q4_K_M · 4 GB

~86.4 tok/s

Qwen3.5 4B

4B · Q4_K_M · 2 GB

~172.8 tok/s

Qwen3.5 9B

9B · Q4_K_M · 4.5 GB

~76.8 tok/s

SmolLM3 3B

3B · Q4_K_M · 1.5 GB

~230.4 tok/s

Snowflake Arctic Embed L

0.335B · FP16 · 0.67 GB

~644.8 tok/s

Stable Code 3B

3B · Q4_K_M · 1.8 GB

~192 tok/s

StableLM 2 1.6B

1.6B · Q4_K_M · 1 GB

~345.6 tok/s

StarCoder2 15B

15B · Q4_K_M · 9 GB

~38.4 tok/s

StarCoder2 3B

3B · Q4_K_M · 1.8 GB

~192 tok/s

StarCoder2 7B

7B · Q4_K_M · 4.2 GB

~82.3 tok/s

Yi 1.5 6B

6B · Q4_K_M · 3.7 GB

~93.4 tok/s

Yi 1.5 9B

9B · Q4_K_M · 5.5 GB

~62.8 tok/s

Runs with Limits(34)

Partial GPU offload, hybrid, or CPU-only — expect slower speeds

Aya Expanse 32B

32B · Q4_K_M · 19 GB

~6 tok/s

CodeLlama 34B

34B · Q4_K_M · 20 GB

~6 tok/s

Codestral 22B

22B · Q4_K_M · 13 GB

~9 tok/s

Command R 35B

35B · Q4_K_M · 20 GB

~6 tok/s

Command R+ 104B

104B · Q3_K_M · 48 GB

~2 tok/s

DeepSeek Coder V2 Lite 16B

16B · Q4_K_M · 9.5 GB

~25.5 tok/s

DeepSeek R1 Distill Llama 70B

70B · Q3_K_M · 33 GB

~3 tok/s

DeepSeek R1 Distill Qwen 32B

32B · Q3_K_M · 15 GB

~7 tok/s

Devstral Small 2 24B

24B · Q4_K_M · 12 GB

~10 tok/s

Gemma 2 27B

27B · Q3_K_M · 13 GB

~8 tok/s

Gemma 3 27B

27B · Q4_K_M · 16 GB

~7 tok/s

Gemma 4 26B A4B

26B · Q3_K_M · 13.3 GB

~8 tok/s

Gemma 4 31B

31B · Q3_K_M · 14.5 GB

~7 tok/s

GPT-OSS 20B

20B · Q4_K_M · 10 GB

~24.2 tok/s

Hermes 3 Llama 3.1 70B

70B · Q4_K_M · 40 GB

~3 tok/s

InternLM 2.5 20B

20B · Q4_K_M · 12 GB

~10 tok/s

Llama 3.1 70B

70B · Q2_K · 25 GB

~4 tok/s

Llama 3.1 Nemotron 70B

70B · Q4_K_M · 40 GB

~3 tok/s

Llama 3.3 70B

70B · Q3_K_M · 33 GB

~3 tok/s

Mistral Small 24B

24B · Q4_K_M · 14 GB

~8 tok/s

Mistral Small 3.1 24B

24B · Q4_K_M · 12.6 GB

~9 tok/s

Mixtral 8x7B

46.7B · Q3_K_M · 21 GB

~5 tok/s

Qwen 2.5 32B

32B · Q3_K_M · 15 GB

~7 tok/s

Qwen 2.5 72B

72B · Q2_K · 27 GB

~3 tok/s

Qwen 2.5 Coder 32B

32B · Q4_K_M · 19 GB

~6 tok/s

Qwen3 30B A3B

30B · Q4_K_M · 15 GB

~8 tok/s

Qwen3 32B

32B · Q4_K_M · 16 GB

~7 tok/s

Qwen3 Coder 30B A3B

30B · Q4_K_M · 15 GB

~8 tok/s

Qwen3 Coder Next 80B A3B

80B · Q4_K_M · 40 GB

~3 tok/s

Qwen3.5 27B

27B · Q4_K_M · 13.5 GB

~9 tok/s

Qwen3.5 35B A3B

35B · Q4_K_M · 17.5 GB

~7 tok/s

Qwen3.6 35B A3B

35B · Q4_K_M · 17.5 GB

~7 tok/s

QwQ 32B

32B · Q3_K_M · 15 GB

~7 tok/s

Yi 1.5 34B

34B · Q4_K_M · 20 GB

~6 tok/s

Can't Run(18)

Insufficient VRAM and RAM for these models

DeepSeek R1 671B

671B · Q2_K · 240 GB

DeepSeek V3 671B

671B · Q2_K · 240 GB

DeepSeek V3.2

685B · Q4_K_M · 342.5 GB

Devstral 2 123B

123B · Q4_K_M · 61.5 GB

GLM 4.7

355B · Q4_K_M · 177.5 GB

GLM 5

744B · Q4_K_M · 372 GB

GPT-OSS 120B

120B · Q4_K_M · 60 GB

Kimi K2.5

1000B · Q4_K_M · 500 GB

Llama 3.1 405B

405B · Q2_K · 145 GB

Llama 3.1 Nemotron Ultra 253B

253B · Q4_K_M · 126.5 GB

Llama 4 Maverick 17B (128E)

17B · Q4_K_M · 230 GB

Llama 4 Scout 17B (16E)

17B · Q4_K_M · 60 GB

MiMo V2 Flash

309B · Q4_K_M · 154.5 GB

MiniMax M2.5

230B · Q4_K_M · 115 GB

Mistral Large 3 675B

675B · Q4_K_M · 337.5 GB

Mixtral 8x22B

141B · Q3_K_M · 62 GB

Qwen3 235B A22B

235B · Q4_K_M · 117.5 GB

Step 3.5 Flash

196B · Q4_K_M · 98 GB