Skip to main content

Specifications

VRAM

32 GB

Memory Bandwidth

1792 GB/s

Architecture

Blackwell

Generation

RTX 50

FP16 TFLOPS

209

Vendor

NVIDIA

CUDA Cores

21,760

Tensor Cores

680

Check prices for NVIDIA GeForce RTX 5090

Runs Great(83)

Full GPU inference at good speed

Aya Expanse 32B

32B · Q4_K_M · 19 GB

~75.5 tok/s

Aya Expanse 8B

8B · Q4_K_M · 4.9 GB

~292.6 tok/s

BGE Large EN v1.5

0.335B · FP16 · 0.67 GB

~2674.6 tok/s

CodeLlama 13B

13B · Q4_K_M · 7.9 GB

~181.5 tok/s

CodeLlama 34B

34B · Q4_K_M · 20 GB

~71.7 tok/s

CodeLlama 7B

7B · Q4_K_M · 4.2 GB

~341.3 tok/s

Codestral 22B

22B · Q4_K_M · 13 GB

~110.3 tok/s

Command R 35B

35B · Q4_K_M · 20 GB

~71.7 tok/s

Command R7B

7B · Q4_K_M · 4.5 GB

~318.6 tok/s

DeepSeek Coder V2 Lite 16B

16B · Q4_K_M · 9.5 GB

~150.9 tok/s

DeepSeek R1 Distill Llama 8B

8B · Q4_K_M · 4.9 GB

~292.6 tok/s

DeepSeek R1 Distill Qwen 1.5B

1.5B · Q4_K_M · 1 GB

~1433.6 tok/s

DeepSeek R1 Distill Qwen 14B

14B · Q4_K_M · 8.7 GB

~164.8 tok/s

DeepSeek R1 Distill Qwen 32B

32B · Q3_K_M · 15 GB

~82.4 tok/s

DeepSeek R1 Distill Qwen 7B

7B · Q4_K_M · 4.7 GB

~305 tok/s

Devstral Small 2 24B

24B · Q4_K_M · 12 GB

~119.5 tok/s

Gemma 2 27B

27B · Q3_K_M · 13 GB

~95.1 tok/s

Gemma 2 2B

2B · Q4_K_M · 1.5 GB

~955.7 tok/s

Gemma 2 9B

9B · Q4_K_M · 5.5 GB

~260.7 tok/s

Gemma 3 12B

12B · Q4_K_M · 7.3 GB

~196.4 tok/s

Gemma 3 1B

1B · Q4_K_M · 0.7 GB

~2048 tok/s

Gemma 3 27B

27B · Q4_K_M · 16 GB

~89.6 tok/s

Gemma 3 4B

4B · Q4_K_M · 2.5 GB

~573.4 tok/s

Gemma 3n E2B

2B · Q4_K_M · 1 GB

~1433.6 tok/s

Gemma 3n E4B

4B · Q4_K_M · 2 GB

~716.8 tok/s

Gemma 4 26B A4B

26B · Q3_K_M · 13.3 GB

~92.9 tok/s

Gemma 4 31B

31B · Q3_K_M · 14.5 GB

~85.2 tok/s

Gemma 4 E2B

2.3B · Q4_K_M · 2.7 GB

~531 tok/s

Gemma 4 E4B

4.5B · Q4_K_M · 4.1 GB

~349.7 tok/s

GPT-OSS 20B

20B · Q4_K_M · 10 GB

~143.4 tok/s

Hermes 3 Llama 3.1 8B

8B · Q4_K_M · 4.9 GB

~292.6 tok/s

InternLM 2.5 20B

20B · Q4_K_M · 12 GB

~119.5 tok/s

InternLM 2.5 7B

7B · Q4_K_M · 4.7 GB

~305 tok/s

Llama 3.1 70B

70B · Q2_K · 25 GB

~44.8 tok/s

Llama 3.1 8B

8B · Q3_K_M · 3.9 GB

~316.9 tok/s

Llama 3.2 1B

1.24B · Q4_K_M · 0.75 GB

~1911.5 tok/s

Llama 3.2 3B

3.21B · Q4_K_M · 2 GB

~716.8 tok/s

Mistral 7B v0.3

7B · Q3_K_M · 3.5 GB

~353.1 tok/s

Mistral Nemo 12B

12B · Q4_K_M · 7.3 GB

~196.4 tok/s

Mistral Small 24B

24B · Q4_K_M · 14 GB

~102.4 tok/s

Mistral Small 3.1 24B

24B · Q4_K_M · 12.6 GB

~113.8 tok/s

Mixtral 8x7B

46.7B · Q3_K_M · 21 GB

~58.9 tok/s

mxbai-embed-large

0.335B · FP16 · 0.67 GB

~2674.6 tok/s

Nemotron Mini 4B

4B · Q4_K_M · 2.5 GB

~573.4 tok/s

Nomic Embed Text v1.5

0.137B · FP16 · 0.27 GB

~6637 tok/s

Phi-3 Medium 14B

14B · Q4_K_M · 8.2 GB

~174.8 tok/s

Phi-3 Mini 3.8B

3.8B · Q4_K_M · 2.3 GB

~623.3 tok/s

Phi-4 14B

14B · Q4_K_M · 8.2 GB

~174.8 tok/s

Phi-4 Mini 3.8B

3.8B · Q4_K_M · 2.3 GB

~623.3 tok/s

Phi-4 Reasoning 14B

14B · Q4_K_M · 7 GB

~204.8 tok/s

Phi-4 Reasoning Plus 14B

14B · Q4_K_M · 7 GB

~204.8 tok/s

Qwen 2.5 0.5B

0.5B · Q4_K_M · 0.4 GB

~3584 tok/s

Qwen 2.5 1.5B

1.5B · Q4_K_M · 1 GB

~1433.6 tok/s

Qwen 2.5 14B

14B · Q4_K_M · 8.7 GB

~164.8 tok/s

Qwen 2.5 32B

32B · Q3_K_M · 15 GB

~82.4 tok/s

Qwen 2.5 3B

3B · Q4_K_M · 1.9 GB

~754.5 tok/s

Qwen 2.5 7B

7B · Q3_K_M · 3.7 GB

~334 tok/s

Qwen 2.5 Coder 32B

32B · Q4_K_M · 19 GB

~75.5 tok/s

Qwen 2.5 Coder 7B

7B · Q4_K_M · 4.7 GB

~305 tok/s

Qwen3 0.6B

0.6B · Q4_K_M · 0.3 GB

~4778.7 tok/s

Qwen3 1.7B

1.7B · Q4_K_M · 0.9 GB

~1592.9 tok/s

Qwen3 14B

14B · Q4_K_M · 7 GB

~204.8 tok/s

Qwen3 30B A3B

30B · Q4_K_M · 15 GB

~95.6 tok/s

Qwen3 32B

32B · Q4_K_M · 16 GB

~89.6 tok/s

Qwen3 4B

4B · Q4_K_M · 2 GB

~716.8 tok/s

Qwen3 8B

8B · Q4_K_M · 4 GB

~358.4 tok/s

Qwen3 Coder 30B A3B

30B · Q4_K_M · 15 GB

~95.6 tok/s

Qwen3.5 27B

27B · Q4_K_M · 13.5 GB

~106.2 tok/s

Qwen3.5 35B A3B

35B · Q4_K_M · 17.5 GB

~81.9 tok/s

Qwen3.5 4B

4B · Q4_K_M · 2 GB

~716.8 tok/s

Qwen3.5 9B

9B · Q4_K_M · 4.5 GB

~318.6 tok/s

Qwen3.6 35B A3B

35B · Q4_K_M · 17.5 GB

~81.9 tok/s

QwQ 32B

32B · Q3_K_M · 15 GB

~82.4 tok/s

SmolLM3 3B

3B · Q4_K_M · 1.5 GB

~955.7 tok/s

Snowflake Arctic Embed L

0.335B · FP16 · 0.67 GB

~2674.6 tok/s

Stable Code 3B

3B · Q4_K_M · 1.8 GB

~796.4 tok/s

StableLM 2 1.6B

1.6B · Q4_K_M · 1 GB

~1433.6 tok/s

StarCoder2 15B

15B · Q4_K_M · 9 GB

~159.3 tok/s

StarCoder2 3B

3B · Q4_K_M · 1.8 GB

~796.4 tok/s

StarCoder2 7B

7B · Q4_K_M · 4.2 GB

~341.3 tok/s

Yi 1.5 34B

34B · Q4_K_M · 20 GB

~71.7 tok/s

Yi 1.5 6B

6B · Q4_K_M · 3.7 GB

~387.5 tok/s

Yi 1.5 9B

9B · Q4_K_M · 5.5 GB

~260.7 tok/s

Runs with Limits(7)

Partial GPU offload, hybrid, or CPU-only — expect slower speeds

Can't Run(18)

Insufficient VRAM and RAM for these models