Skip to main content

Specifications

VRAM

20 GB

Memory Bandwidth

800 GB/s

Architecture

RDNA 3

Generation

RX 7000

FP16 TFLOPS

103

Vendor

AMD

Check prices for AMD Radeon RX 7900 XT

Runs Great(72)

Full GPU inference at good speed

Aya Expanse 8B

8B · Q4_K_M · 4.9 GB

~130.6 tok/s

BGE Large EN v1.5

0.335B · FP16 · 0.67 GB

~1194 tok/s

CodeLlama 13B

13B · Q4_K_M · 7.9 GB

~81 tok/s

CodeLlama 7B

7B · Q4_K_M · 4.2 GB

~152.4 tok/s

Codestral 22B

22B · Q4_K_M · 13 GB

~49.2 tok/s

Command R7B

7B · Q4_K_M · 4.5 GB

~142.2 tok/s

DeepSeek Coder V2 Lite 16B

16B · Q4_K_M · 9.5 GB

~67.4 tok/s

DeepSeek R1 Distill Llama 8B

8B · Q4_K_M · 4.9 GB

~130.6 tok/s

DeepSeek R1 Distill Qwen 1.5B

1.5B · Q4_K_M · 1 GB

~640 tok/s

DeepSeek R1 Distill Qwen 14B

14B · Q4_K_M · 8.7 GB

~73.6 tok/s

DeepSeek R1 Distill Qwen 32B

32B · Q3_K_M · 15 GB

~36.8 tok/s

DeepSeek R1 Distill Qwen 7B

7B · Q4_K_M · 4.7 GB

~136.2 tok/s

Devstral Small 2 24B

24B · Q4_K_M · 12 GB

~53.3 tok/s

Gemma 2 27B

27B · Q3_K_M · 13 GB

~42.4 tok/s

Gemma 2 2B

2B · Q4_K_M · 1.5 GB

~426.7 tok/s

Gemma 2 9B

9B · Q4_K_M · 5.5 GB

~116.4 tok/s

Gemma 3 12B

12B · Q4_K_M · 7.3 GB

~87.7 tok/s

Gemma 3 1B

1B · Q4_K_M · 0.7 GB

~914.3 tok/s

Gemma 3 4B

4B · Q4_K_M · 2.5 GB

~256 tok/s

Gemma 3n E2B

2B · Q4_K_M · 1 GB

~640 tok/s

Gemma 3n E4B

4B · Q4_K_M · 2 GB

~320 tok/s

Gemma 4 26B A4B

26B · Q3_K_M · 13.3 GB

~41.5 tok/s

Gemma 4 31B

31B · Q3_K_M · 14.5 GB

~38 tok/s

Gemma 4 E2B

2.3B · Q4_K_M · 2.7 GB

~237 tok/s

Gemma 4 E4B

4.5B · Q4_K_M · 4.1 GB

~156.1 tok/s

GPT-OSS 20B

20B · Q4_K_M · 10 GB

~64 tok/s

Hermes 3 Llama 3.1 8B

8B · Q4_K_M · 4.9 GB

~130.6 tok/s

InternLM 2.5 20B

20B · Q4_K_M · 12 GB

~53.3 tok/s

InternLM 2.5 7B

7B · Q4_K_M · 4.7 GB

~136.2 tok/s

Llama 3.1 8B

8B · Q3_K_M · 3.9 GB

~141.5 tok/s

Llama 3.2 1B

1.24B · Q4_K_M · 0.75 GB

~853.3 tok/s

Llama 3.2 3B

3.21B · Q4_K_M · 2 GB

~320 tok/s

Mistral 7B v0.3

7B · Q3_K_M · 3.5 GB

~157.6 tok/s

Mistral Nemo 12B

12B · Q4_K_M · 7.3 GB

~87.7 tok/s

Mistral Small 24B

24B · Q4_K_M · 14 GB

~45.7 tok/s

Mistral Small 3.1 24B

24B · Q4_K_M · 12.6 GB

~50.8 tok/s

mxbai-embed-large

0.335B · FP16 · 0.67 GB

~1194 tok/s

Nemotron Mini 4B

4B · Q4_K_M · 2.5 GB

~256 tok/s

Nomic Embed Text v1.5

0.137B · FP16 · 0.27 GB

~2963 tok/s

Phi-3 Medium 14B

14B · Q4_K_M · 8.2 GB

~78 tok/s

Phi-3 Mini 3.8B

3.8B · Q4_K_M · 2.3 GB

~278.3 tok/s

Phi-4 14B

14B · Q4_K_M · 8.2 GB

~78 tok/s

Phi-4 Mini 3.8B

3.8B · Q4_K_M · 2.3 GB

~278.3 tok/s

Phi-4 Reasoning 14B

14B · Q4_K_M · 7 GB

~91.4 tok/s

Phi-4 Reasoning Plus 14B

14B · Q4_K_M · 7 GB

~91.4 tok/s

Qwen 2.5 0.5B

0.5B · Q4_K_M · 0.4 GB

~1600 tok/s

Qwen 2.5 1.5B

1.5B · Q4_K_M · 1 GB

~640 tok/s

Qwen 2.5 14B

14B · Q4_K_M · 8.7 GB

~73.6 tok/s

Qwen 2.5 32B

32B · Q3_K_M · 15 GB

~36.8 tok/s

Qwen 2.5 3B

3B · Q4_K_M · 1.9 GB

~336.8 tok/s

Qwen 2.5 7B

7B · Q3_K_M · 3.7 GB

~149.1 tok/s

Qwen 2.5 Coder 7B

7B · Q4_K_M · 4.7 GB

~136.2 tok/s

Qwen3 0.6B

0.6B · Q4_K_M · 0.3 GB

~2133.3 tok/s

Qwen3 1.7B

1.7B · Q4_K_M · 0.9 GB

~711.1 tok/s

Qwen3 14B

14B · Q4_K_M · 7 GB

~91.4 tok/s

Qwen3 30B A3B

30B · Q4_K_M · 15 GB

~42.7 tok/s

Qwen3 4B

4B · Q4_K_M · 2 GB

~320 tok/s

Qwen3 8B

8B · Q4_K_M · 4 GB

~160 tok/s

Qwen3 Coder 30B A3B

30B · Q4_K_M · 15 GB

~42.7 tok/s

Qwen3.5 27B

27B · Q4_K_M · 13.5 GB

~47.4 tok/s

Qwen3.5 4B

4B · Q4_K_M · 2 GB

~320 tok/s

Qwen3.5 9B

9B · Q4_K_M · 4.5 GB

~142.2 tok/s

QwQ 32B

32B · Q3_K_M · 15 GB

~36.8 tok/s

SmolLM3 3B

3B · Q4_K_M · 1.5 GB

~426.7 tok/s

Snowflake Arctic Embed L

0.335B · FP16 · 0.67 GB

~1194 tok/s

Stable Code 3B

3B · Q4_K_M · 1.8 GB

~355.6 tok/s

StableLM 2 1.6B

1.6B · Q4_K_M · 1 GB

~640 tok/s

StarCoder2 15B

15B · Q4_K_M · 9 GB

~71.1 tok/s

StarCoder2 3B

3B · Q4_K_M · 1.8 GB

~355.6 tok/s

StarCoder2 7B

7B · Q4_K_M · 4.2 GB

~152.4 tok/s

Yi 1.5 6B

6B · Q4_K_M · 3.7 GB

~173 tok/s

Yi 1.5 9B

9B · Q4_K_M · 5.5 GB

~116.4 tok/s

Runs with Limits(18)

Partial GPU offload, hybrid, or CPU-only — expect slower speeds

Can't Run(18)

Insufficient VRAM and RAM for these models