GPU Detail
NVIDIA GeForce RTX 5090
What LLMs can this GPU run? Here's the full breakdown.
We classify models by practical runtime fit (full GPU, constrained, or not viable) so you can decide whether to keep your current setup or upgrade.
Specifications
VRAM
32 GB
Memory Bandwidth
1792 GB/s
Architecture
Blackwell
Generation
RTX 50
FP16 TFLOPS
209
Vendor
NVIDIA
CUDA Cores
21,760
Tensor Cores
680
Check prices for NVIDIA GeForce RTX 5090
Full GPU inference at good speed
Aya Expanse 32B
32B · Q4_K_M · 19 GB
~75.5 tok/s
Aya Expanse 8B
8B · Q4_K_M · 4.9 GB
~292.6 tok/s
BGE Large EN v1.5
0.335B · FP16 · 0.67 GB
~2674.6 tok/s
CodeLlama 13B
13B · Q4_K_M · 7.9 GB
~181.5 tok/s
CodeLlama 34B
34B · Q4_K_M · 20 GB
~71.7 tok/s
CodeLlama 7B
7B · Q4_K_M · 4.2 GB
~341.3 tok/s
Codestral 22B
22B · Q4_K_M · 13 GB
~110.3 tok/s
Command R 35B
35B · Q4_K_M · 20 GB
~71.7 tok/s
Command R7B
7B · Q4_K_M · 4.5 GB
~318.6 tok/s
DeepSeek Coder V2 Lite 16B
16B · Q4_K_M · 9.5 GB
~150.9 tok/s
DeepSeek R1 Distill Llama 8B
8B · Q4_K_M · 4.9 GB
~292.6 tok/s
DeepSeek R1 Distill Qwen 1.5B
1.5B · Q4_K_M · 1 GB
~1433.6 tok/s
DeepSeek R1 Distill Qwen 14B
14B · Q4_K_M · 8.7 GB
~164.8 tok/s
DeepSeek R1 Distill Qwen 32B
32B · Q3_K_M · 15 GB
~82.4 tok/s
DeepSeek R1 Distill Qwen 7B
7B · Q4_K_M · 4.7 GB
~305 tok/s
Devstral Small 2 24B
24B · Q4_K_M · 12 GB
~119.5 tok/s
Gemma 2 27B
27B · Q3_K_M · 13 GB
~95.1 tok/s
Gemma 2 2B
2B · Q4_K_M · 1.5 GB
~955.7 tok/s
Gemma 2 9B
9B · Q4_K_M · 5.5 GB
~260.7 tok/s
Gemma 3 12B
12B · Q4_K_M · 7.3 GB
~196.4 tok/s
Gemma 3 1B
1B · Q4_K_M · 0.7 GB
~2048 tok/s
Gemma 3 27B
27B · Q4_K_M · 16 GB
~89.6 tok/s
Gemma 3 4B
4B · Q4_K_M · 2.5 GB
~573.4 tok/s
Gemma 3n E2B
2B · Q4_K_M · 1 GB
~1433.6 tok/s
Gemma 3n E4B
4B · Q4_K_M · 2 GB
~716.8 tok/s
Gemma 4 26B A4B
26B · Q3_K_M · 13.3 GB
~92.9 tok/s
Gemma 4 31B
31B · Q3_K_M · 14.5 GB
~85.2 tok/s
Gemma 4 E2B
2.3B · Q4_K_M · 2.7 GB
~531 tok/s
Gemma 4 E4B
4.5B · Q4_K_M · 4.1 GB
~349.7 tok/s
GPT-OSS 20B
20B · Q4_K_M · 10 GB
~143.4 tok/s
Hermes 3 Llama 3.1 8B
8B · Q4_K_M · 4.9 GB
~292.6 tok/s
InternLM 2.5 20B
20B · Q4_K_M · 12 GB
~119.5 tok/s
InternLM 2.5 7B
7B · Q4_K_M · 4.7 GB
~305 tok/s
Llama 3.1 70B
70B · Q2_K · 25 GB
~44.8 tok/s
Llama 3.1 8B
8B · Q3_K_M · 3.9 GB
~316.9 tok/s
Llama 3.2 1B
1.24B · Q4_K_M · 0.75 GB
~1911.5 tok/s
Llama 3.2 3B
3.21B · Q4_K_M · 2 GB
~716.8 tok/s
Mistral 7B v0.3
7B · Q3_K_M · 3.5 GB
~353.1 tok/s
Mistral Nemo 12B
12B · Q4_K_M · 7.3 GB
~196.4 tok/s
Mistral Small 24B
24B · Q4_K_M · 14 GB
~102.4 tok/s
Mistral Small 3.1 24B
24B · Q4_K_M · 12.6 GB
~113.8 tok/s
Mixtral 8x7B
46.7B · Q3_K_M · 21 GB
~58.9 tok/s
mxbai-embed-large
0.335B · FP16 · 0.67 GB
~2674.6 tok/s
Nemotron Mini 4B
4B · Q4_K_M · 2.5 GB
~573.4 tok/s
Nomic Embed Text v1.5
0.137B · FP16 · 0.27 GB
~6637 tok/s
Phi-3 Medium 14B
14B · Q4_K_M · 8.2 GB
~174.8 tok/s
Phi-3 Mini 3.8B
3.8B · Q4_K_M · 2.3 GB
~623.3 tok/s
Phi-4 14B
14B · Q4_K_M · 8.2 GB
~174.8 tok/s
Phi-4 Mini 3.8B
3.8B · Q4_K_M · 2.3 GB
~623.3 tok/s
Phi-4 Reasoning 14B
14B · Q4_K_M · 7 GB
~204.8 tok/s
Phi-4 Reasoning Plus 14B
14B · Q4_K_M · 7 GB
~204.8 tok/s
Qwen 2.5 0.5B
0.5B · Q4_K_M · 0.4 GB
~3584 tok/s
Qwen 2.5 1.5B
1.5B · Q4_K_M · 1 GB
~1433.6 tok/s
Qwen 2.5 14B
14B · Q4_K_M · 8.7 GB
~164.8 tok/s
Qwen 2.5 32B
32B · Q3_K_M · 15 GB
~82.4 tok/s
Qwen 2.5 3B
3B · Q4_K_M · 1.9 GB
~754.5 tok/s
Qwen 2.5 7B
7B · Q3_K_M · 3.7 GB
~334 tok/s
Qwen 2.5 Coder 32B
32B · Q4_K_M · 19 GB
~75.5 tok/s
Qwen 2.5 Coder 7B
7B · Q4_K_M · 4.7 GB
~305 tok/s
Qwen3 0.6B
0.6B · Q4_K_M · 0.3 GB
~4778.7 tok/s
Qwen3 1.7B
1.7B · Q4_K_M · 0.9 GB
~1592.9 tok/s
Qwen3 14B
14B · Q4_K_M · 7 GB
~204.8 tok/s
Qwen3 30B A3B
30B · Q4_K_M · 15 GB
~95.6 tok/s
Qwen3 32B
32B · Q4_K_M · 16 GB
~89.6 tok/s
Qwen3 4B
4B · Q4_K_M · 2 GB
~716.8 tok/s
Qwen3 8B
8B · Q4_K_M · 4 GB
~358.4 tok/s
Qwen3 Coder 30B A3B
30B · Q4_K_M · 15 GB
~95.6 tok/s
Qwen3.5 27B
27B · Q4_K_M · 13.5 GB
~106.2 tok/s
Qwen3.5 35B A3B
35B · Q4_K_M · 17.5 GB
~81.9 tok/s
Qwen3.5 4B
4B · Q4_K_M · 2 GB
~716.8 tok/s
Qwen3.5 9B
9B · Q4_K_M · 4.5 GB
~318.6 tok/s
Qwen3.6 35B A3B
35B · Q4_K_M · 17.5 GB
~81.9 tok/s
QwQ 32B
32B · Q3_K_M · 15 GB
~82.4 tok/s
SmolLM3 3B
3B · Q4_K_M · 1.5 GB
~955.7 tok/s
Snowflake Arctic Embed L
0.335B · FP16 · 0.67 GB
~2674.6 tok/s
Stable Code 3B
3B · Q4_K_M · 1.8 GB
~796.4 tok/s
StableLM 2 1.6B
1.6B · Q4_K_M · 1 GB
~1433.6 tok/s
StarCoder2 15B
15B · Q4_K_M · 9 GB
~159.3 tok/s
StarCoder2 3B
3B · Q4_K_M · 1.8 GB
~796.4 tok/s
StarCoder2 7B
7B · Q4_K_M · 4.2 GB
~341.3 tok/s
Yi 1.5 34B
34B · Q4_K_M · 20 GB
~71.7 tok/s
Yi 1.5 6B
6B · Q4_K_M · 3.7 GB
~387.5 tok/s
Yi 1.5 9B
9B · Q4_K_M · 5.5 GB
~260.7 tok/s
Partial GPU offload, hybrid, or CPU-only — expect slower speeds
Command R+ 104B
104B · Q3_K_M · 48 GB
~8 tok/s
DeepSeek R1 Distill Llama 70B
70B · Q3_K_M · 33 GB
~12 tok/s
Hermes 3 Llama 3.1 70B
70B · Q4_K_M · 40 GB
~11 tok/s
Llama 3.1 Nemotron 70B
70B · Q4_K_M · 40 GB
~11 tok/s
Llama 3.3 70B
70B · Q3_K_M · 33 GB
~12 tok/s
Qwen 2.5 72B
72B · Q2_K · 27 GB
~29.1 tok/s
Qwen3 Coder Next 80B A3B
80B · Q4_K_M · 40 GB
~11 tok/s
Insufficient VRAM and RAM for these models
DeepSeek R1 671B
671B · Q2_K · 240 GB
DeepSeek V3 671B
671B · Q2_K · 240 GB
DeepSeek V3.2
685B · Q4_K_M · 342.5 GB
Devstral 2 123B
123B · Q4_K_M · 61.5 GB
GLM 4.7
355B · Q4_K_M · 177.5 GB
GLM 5
744B · Q4_K_M · 372 GB
GPT-OSS 120B
120B · Q4_K_M · 60 GB
Kimi K2.5
1000B · Q4_K_M · 500 GB
Llama 3.1 405B
405B · Q2_K · 145 GB
Llama 3.1 Nemotron Ultra 253B
253B · Q4_K_M · 126.5 GB
Llama 4 Maverick 17B (128E)
17B · Q4_K_M · 230 GB
Llama 4 Scout 17B (16E)
17B · Q4_K_M · 60 GB
MiMo V2 Flash
309B · Q4_K_M · 154.5 GB
MiniMax M2.5
230B · Q4_K_M · 115 GB
Mistral Large 3 675B
675B · Q4_K_M · 337.5 GB
Mixtral 8x22B
141B · Q3_K_M · 62 GB
Qwen3 235B A22B
235B · Q4_K_M · 117.5 GB
Step 3.5 Flash
196B · Q4_K_M · 98 GB