Lots of CPU benchmarks #450

Djip007 · 2024-05-26T12:33:31Z

Djip007
May 26, 2024

(For "history": bench with llamafile V0.8.6)

Some result with my zen3+128Go of RAM / Linux (fc40)
RAM: DDR4@3600

./llamafile-bench-0.8.6 -p "256,512,1024" -m "Mistral-7b-instruct-v0.2.Q6_K.llamafile,Mistral-7b-instruct-v0.2.Q8_0.llamafile,Mistral-7b-instruct-v0.2.F16.llamafile,Mistral-7b-instruct-v0.2.BF16.llamafile,Mixtral-8x7b-instruct-v0.1.Q5_K_M.llamafile,mixtral-8x7b-instruct-v0.1.Q6_K.llamafile,Mixtral-8x7b-instruct-v0.1.BF16.llamafile,Mixtral-8x22B-Instruct-v0.1.Q5_K_M.llamafile,Mixtral-8x22B-Instruct-v0.1.Q6_K.llamafile"

cpu_info	model_filename	size	test	t/s
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q6_K	107.61 GiB	pp256	19.94
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q6_K	107.61 GiB	pp512	19.66
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q6_K	107.61 GiB	pp1024	19.37
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q6_K	107.61 GiB	tg16	1.57
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q5_K_M	93.11 GiB	pp256	18.76
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q5_K_M	93.11 GiB	pp512	18.57
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q5_K_M	93.11 GiB	pp1024	18.27
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q5_K_M	93.11 GiB	tg16	1.82
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.BF16	86.99 GiB	pp256	29.11
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.BF16	86.99 GiB	pp512	29.97
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.BF16	86.99 GiB	pp1024	29.73
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.BF16	86.99 GiB	tg16	1.98
AMD Ryzen 9 5950X 16-Core Processor (znver3)	mixtral-8x7b-instruct-v0.1.Q6_K	35.74 GiB	pp256	60.74
AMD Ryzen 9 5950X 16-Core Processor (znver3)	mixtral-8x7b-instruct-v0.1.Q6_K	35.74 GiB	pp512	60.11
AMD Ryzen 9 5950X 16-Core Processor (znver3)	mixtral-8x7b-instruct-v0.1.Q6_K	35.74 GiB	pp1024	58.90
AMD Ryzen 9 5950X 16-Core Processor (znver3)	mixtral-8x7b-instruct-v0.1.Q6_K	35.74 GiB	tg16	4.76
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q5_K_M	30.95 GiB	pp256	58.60
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q5_K_M	30.95 GiB	pp512	56.64
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q5_K_M	30.95 GiB	pp1024	55.94
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q5_K_M	30.95 GiB	tg16	5.42
AMD Ryzen 9 5950X 16-Core Processor (znver3)	mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	pp256	59.24
AMD Ryzen 9 5950X 16-Core Processor (znver3)	mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	pp512	58.34
AMD Ryzen 9 5950X 16-Core Processor (znver3)	mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	pp1024	56.91
AMD Ryzen 9 5950X 16-Core Processor (znver3)	mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	tg16	6.23
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7b-instruct-v0.2.BF16	13.49 GiB	pp256	52.92
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7b-instruct-v0.2.BF16	13.49 GiB	pp512	51.14
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7b-instruct-v0.2.BF16	13.49 GiB	pp1024	50.48
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7b-instruct-v0.2.BF16	13.49 GiB	tg16	3.53
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7b-instruct-v0.2.F16	13.49 GiB	pp256	56.89
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7b-instruct-v0.2.F16	13.49 GiB	pp512	56.87
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7b-instruct-v0.2.F16	13.49 GiB	pp1024	56.10
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7b-instruct-v0.2.F16	13.49 GiB	tg16	3.52
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7b-instruct-v0.2.Q8_0	7.17 GiB	pp256	72.17
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7b-instruct-v0.2.Q8_0	7.17 GiB	pp512	70.61
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7b-instruct-v0.2.Q8_0	7.17 GiB	pp1024	69.41
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7b-instruct-v0.2.Q8_0	7.17 GiB	tg16	6.57
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp256	113.94
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp512	109.37
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp1024	106.53
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	tg16	8.50

As you see matmul is memory limited on this CPU (DDR-4 + zne3)

Djip007 · 2024-05-26T12:41:26Z

Djip007
May 26, 2024
Author

Some more on Ryzen 7940HS (on Framwork 16) + 64Go of RAM / Linux (fc40)
RAM DDR4@5600

cpu_info	model_filename	size	test	t/s
AMD Ryzen 9 7940HS (znver4)	mixtral-8x7b-instruct-v0.1.Q6_K	35.74 GiB	pp256	43.56
AMD Ryzen 9 7940HS (znver4)	mixtral-8x7b-instruct-v0.1.Q6_K	35.74 GiB	pp512	44.94
AMD Ryzen 9 7940HS (znver4)	mixtral-8x7b-instruct-v0.1.Q6_K	35.74 GiB	pp1024	43.85
AMD Ryzen 9 7940HS (znver4)	mixtral-8x7b-instruct-v0.1.Q6_K	35.74 GiB	tg16	5.27
AMD Ryzen 9 7940HS (znver4)	mixtral-8x7b-instruct-v0.1.Q5_K_M	30.95 GiB	pp256	40.94
AMD Ryzen 9 7940HS (znver4)	mixtral-8x7b-instruct-v0.1.Q5_K_M	30.95 GiB	pp512	44.37
AMD Ryzen 9 7940HS (znver4)	mixtral-8x7b-instruct-v0.1.Q5_K_M	30.95 GiB	pp1024	41.94
AMD Ryzen 9 7940HS (znver4)	mixtral-8x7b-instruct-v0.1.Q5_K_M	30.95 GiB	tg16	6.00
AMD Ryzen 9 7940HS (znver4)	mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	pp256	44.87
AMD Ryzen 9 7940HS (znver4)	mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	pp512	44.74
AMD Ryzen 9 7940HS (znver4)	mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	pp1024	44.76
AMD Ryzen 9 7940HS (znver4)	mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	tg16	6.47
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.BF16	13.49 GiB	pp256	102.51
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.BF16	13.49 GiB	pp512	95.03
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.BF16	13.49 GiB	pp1024	94.20
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.BF16	13.49 GiB	tg16	4.00
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.F16	13.49 GiB	pp256	63.04
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.F16	13.49 GiB	pp512	61.92
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.F16	13.49 GiB	pp1024	61.84
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.F16	13.49 GiB	tg16	4.03
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.Q8_0	7.17 GiB	pp256	53.83
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.Q8_0	7.17 GiB	pp512	53.19
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.Q8_0	7.17 GiB	pp1024	52.33
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.Q8_0	7.17 GiB	tg16	7.26
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp256	88.61
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp512	85.63
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp1024	82.87
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	tg16	9.11
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.Q5_K_S	4.65 GiB	pp256	64.35
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.Q5_K_S	4.65 GiB	pp512	82.24
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.Q5_K_S	4.65 GiB	pp1024	80.29
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.Q5_K_S	4.65 GiB	tg16	11.33
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.Q4_K_M	4.07 GiB	pp256	89.18
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.Q4_K_M	4.07 GiB	pp512	82.77
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.Q4_K_M	4.07 GiB	pp1024	83.03
AMD Ryzen 9 7940HS (znver4)	mistral-7b-instruct-v0.2.Q4_K_M	4.07 GiB	tg16	11.19

0 replies

jart · 2024-05-26T13:42:56Z

jart
May 26, 2024
Maintainer

Wow thank you for posting these numbers. Your AMD CPUs are a lot cheaper than the Intel Core i9-14900K yet have such better Q6_K and F16 performance. On your znver4 CPU you may want to try using BF16 weights and see how those go, since it should have special opcodes that make those weights go fast.

1 reply

Djip007 May 26, 2024
Author

Only wait for "GPU" llamafile-benchmark it have a x2 on this CPU for more benchmark (#439 (comment))

jart · 2024-05-26T13:54:16Z

jart
May 26, 2024
Maintainer

Wait a minute. Hold on a second. Am I correct in understanding you ran Mixtral 8x22b on a $362 CPU? And it processed your prompt at 20 tokens per second?! That's nuts. Here's what I get with that model.

cpu_info	model_filename	size	test	t/s
AMD Ryzen Threadripper PRO 7995WX (znver4)	Mixtral-8x22B-Instruct-v0.1.Q6_K	107.61 GiB	pp512	151.73
AMD Ryzen Threadripper PRO 7995WX (znver4)	Mixtral-8x22B-Instruct-v0.1.Q6_K	107.61 GiB	tg16	8.07
AMD Ryzen Threadripper PRO 7995WX (znver4)	Mixtral-8x22B-Instruct-v0.1.BF16	261.95 GiB	pp512	168.13
AMD Ryzen Threadripper PRO 7995WX (znver4)	Mixtral-8x22B-Instruct-v0.1.BF16	261.95 GiB	tg16	3.78

1 reply

Djip007 May 26, 2024
Author

Yes... sorry for not having enough memory on the 7940HS to test it I really have get 96Go of RAM 😎
I dream to get a Ryzen 7 8700G with 192Go of RAM...

waterwoodwind · 2024-05-26T16:00:47Z

waterwoodwind
May 26, 2024

Does 't/s' refer to the total computation time for inference?

2 replies

Djip007 May 26, 2024
Author

no token/second

for pp: the number of token depend a the size of the prompt to process
for tg: the number of token is that is generate for the replay.

waterwoodwind May 26, 2024

Thank you.

Djip007 · 2024-05-27T21:11:50Z

Djip007
May 27, 2024
Author

I really like to know what we can get with this CPU.

AMD Ryzen Threadripper 7970X
AMD Ryzen Threadripper PRO 7975WX

expect more than 1/2 compare with 7995WX on pp and same on tg.
for 7970X that is 1/4 of the price it may be 1/2 of the speed of 7995WX

0 replies

AndreSlavescu · 2024-05-28T00:56:17Z

AndreSlavescu
May 28, 2024

What memory speed were these benchmarks run at for mixtral 8x22b Q6_K?

AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q6_K	107.61 GiB	pp256	19.94
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q6_K	107.61 GiB	pp512	19.66
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q6_K	107.61 GiB	pp1024	19.37
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q6_K	107.61 GiB	tg16	1.57

I have the same machine, Ryzen 9 5950x with 128GB 3600mhz CL16 memory

And got the following results for the same tests:

|                                     cpu_info |                           model_filename |       size |          test |             t/s |
| -------------------------------------------: | ---------------------------------------: | ---------: | ------------: | --------------: |
| AMD Ryzen 9 5950X 16-Core Processor (znver3) |         Mixtral-8x22B-Instruct-v0.1.Q6_K | 107.61 GiB |         pp256 |           20.20 |
| AMD Ryzen 9 5950X 16-Core Processor (znver3) |         Mixtral-8x22B-Instruct-v0.1.Q6_K | 107.61 GiB |         pp512 |           19.74 |
| AMD Ryzen 9 5950X 16-Core Processor (znver3) |         Mixtral-8x22B-Instruct-v0.1.Q6_K | 107.61 GiB |        pp1024 |           19.85 |
| AMD Ryzen 9 5950X 16-Core Processor (znver3) |         Mixtral-8x22B-Instruct-v0.1.Q6_K | 107.61 GiB |          tg16 |            1.36 |

5 replies

AndreSlavescu May 28, 2024

I am running an optimised profile for my memory, so I was wondering what the main discrepancy was between my results and your results. For added context I have two of these kits of memory:

Patriot Viper Steel DDR4 64GB (2 x 32GB) 3600MHz Kit - PVS464G360C8K

Djip007 May 28, 2024
Author

Crucial Ballistix DDR4 3600MHz DIMM (CL16)
CPU is watercooled...
Fedora 40 (linux kernel 6.8.10
test made with remote acces over SSH (so nothing else run on it...)

Ballistix Black 64 Go (2 x 32 Go) DDR4 3600 MHz CL16
CAS Latency 16
RAS to CAS Delay 18
RAS Precharge Time 18
RAS Active Time 38

Djip007 May 28, 2024
Author

This one https://www.amazon.com/Patriot-Viper-Steel-DDR4-3600MHz/dp/B08688GFPD?th=1
It is "only" CL18 on XMP 2.0 profile.

jart Jun 1, 2024
Maintainer

Run this command on your computers to get more clarity about the memory capabilities and performance. https://www.intel.com/content/www/us/en/developer/articles/tool/intelr-memory-latency-checker.html

Djip007 Jun 2, 2024
Author

for me:

Ballistix Black 64 Go (2 x 32 Go) DDR4 3600 MHz CL16
CAS Latency 16
RAS to CAS Delay 18
RAS Precharge Time 18
RAS Active Time 38

// AMD Ryzen 9 5950X 16-Core Processor
Linux$ ./mlc 
Intel(R) Memory Latency Checker - v3.11a
*** Unable to modify prefetchers (try executing 'modprobe msr')
*** So, enabling random access for latency measurements
Measuring idle latencies for random access (in ns)...
		Numa node
Numa node	     0	
       0	  81.1	

Measuring Peak Injection Memory Bandwidths for the system
Bandwidths are in MB/sec (1 MB/sec = 1,000,000 Bytes/sec)
Using all the threads from each core if Hyper-threading is enabled
Using traffic with the following read-write ratios
ALL Reads        :	49395.8	
3:1 Reads-Writes :	43697.0	
2:1 Reads-Writes :	42818.7	
1:1 Reads-Writes :	41371.8	
Stream-triad like:	43516.8	

Measuring Memory Bandwidths between nodes within system 
Bandwidths are in MB/sec (1 MB/sec = 1,000,000 Bytes/sec)
Using all the threads from each core if Hyper-threading is enabled
Using Read-only traffic type
		Numa node
Numa node	     0	
       0	49379.8	

Measuring Loaded Latencies for the system
Using all the threads from each core if Hyper-threading is enabled
Using Read-only traffic type
Inject	Latency	Bandwidth
Delay	(ns)	MB/sec
==========================
 00000	456.06	  49540.3
 00002	457.06	  49561.7
 00008	464.44	  49589.7
 00015	465.82	  49603.0
 00050	469.33	  49637.1
 00100	471.25	  49634.7
 00200	472.00	  49663.8
 00300	206.13	  49996.9
 00400	106.91	  40619.3
 00500	 97.18	  32990.6
 00700	 91.33	  24105.0
 01000	 88.32	  17254.4
 01300	 87.01	  13513.2
 01700	 86.00	  10564.5
 02500	 84.87	   7473.5
 03500	 84.23	   5578.0
 05000	 83.86	   4142.4
 09000	 83.44	   2647.8
 20000	 83.07	   1618.1

Measuring cache-to-cache transfer latency (in ns)...
Local Socket L2->L2 HIT  latency	18.5
Local Socket L2->L2 HITM latency	19.5

Djip007 · 2024-05-28T00:59:58Z

Djip007
May 28, 2024
Author

cpu_info	model_filename	size	test	t/s
AMD Ryzen 9 7940HS (znver4)	Mistral-7B-Instruct-v0.3.BF16	13.50 GiB	pp512	77.62
AMD Ryzen 9 7940HS (znver4)	Mistral-7B-Instruct-v0.3.BF16	13.50 GiB	tg16	3.91
AMD Ryzen 9 7940HS (znver4)	Mistral-7B-Instruct-v0.3.F16	13.50 GiB	pp512	52.69
AMD Ryzen 9 7940HS (znver4)	Mistral-7B-Instruct-v0.3.F16	13.50 GiB	tg16	3.61
AMD Ryzen 9 7940HS (znver4)	Mistral-7B-Instruct-v0.3.Q8_0	7.17 GiB	pp512	50.47
AMD Ryzen 9 7940HS (znver4)	Mistral-7B-Instruct-v0.3.Q8_0	7.17 GiB	tg16	6.92
AMD Ryzen 9 7940HS (znver4)	Mistral-7B-Instruct-v0.3.Q6_K	5.54 GiB	pp512	78.98
AMD Ryzen 9 7940HS (znver4)	Mistral-7B-Instruct-v0.3.Q6_K	5.54 GiB	tg16	9.29
AMD Ryzen 9 7940HS (znver4)	TinyLlama-1.1B-Chat-v1.0.F32	4.10 GiB	pp512	271.73
AMD Ryzen 9 7940HS (znver4)	TinyLlama-1.1B-Chat-v1.0.F32	4.10 GiB	tg16	13.05
AMD Ryzen 9 7940HS (znver4)	TinyLlama-1.1B-Chat-v1.0.BF16	2.05 GiB	pp512	391.96
AMD Ryzen 9 7940HS (znver4)	TinyLlama-1.1B-Chat-v1.0.BF16	2.05 GiB	tg16	23.60
AMD Ryzen 9 7940HS (znver4)	TinyLlama-1.1B-Chat-v1.0.F16	2.05 GiB	pp512	308.69
AMD Ryzen 9 7940HS (znver4)	TinyLlama-1.1B-Chat-v1.0.F16	2.05 GiB	tg16	25.04
AMD Ryzen 9 7940HS (znver4)	TinyLlama-1.1B-Chat-v1.0.Q8_0	1.09 GiB	pp512	303.92
AMD Ryzen 9 7940HS (znver4)	TinyLlama-1.1B-Chat-v1.0.Q8_0	1.09 GiB	tg16	42.60
AMD Ryzen 9 7940HS (znver4)	TinyLlama-1.1B-Chat-v1.0.Q6_K	860.86 MiB	pp512	507.22
AMD Ryzen 9 7940HS (znver4)	TinyLlama-1.1B-Chat-v1.0.Q6_K	860.86 MiB	tg16	58.01

0 replies

Nero10578 · 2024-05-29T09:30:20Z

Nero10578
May 29, 2024

Can you guys explain what does the test column mean?

2 replies

jart Jun 1, 2024
Maintainer

It's "the test being performed" which can be "process a prompt with 256 tokens" (pp256) or "generate 16 tokens" (tg16).

Nero10578 Jun 1, 2024

Oh I see. Thank you! I am trying to see how well just using CPU inference will do for me. The performance using llamafile seems promising for prompt processing, but then the text generation is still far from GPUs.

francesco-bongiovanni · 2024-05-29T15:59:45Z

francesco-bongiovanni
May 29, 2024

[fbongiovanni@mel0429 llamafile]$ ./0.8.6/llamafile-bench-0.8.6 -p "256,512,1024" -m "mistral-7b-instruct-v0.2.Q6_K.llamafile"
warning: don't know how to govern your cpu temperature; consider setting the environment variables described in llamafile/govern.cpp
WARNING: /proc/sys/kernel/numa_balancing is enabled, this has been observed to impair performance
``

cpu_info	model_filename	size	test	t/s
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp256	14.27
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp512	161.92
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp1024	99.00
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	tg16	5.19
``

8 replies

francesco-bongiovanni Jun 3, 2024

[fbongiovanni@mel0206 llamafile]$ ./0.8.6/llamafile-bench-0.8.6 -p "256,512,1024" -m "mistral-7b-instruct-v0.2.Q6_K.llamafile" -t 128
warning: don't know how to govern your cpu temperature; consider setting the environment variables described in llamafile/govern.cpp
WARNING: /proc/sys/kernel/numa_balancing is enabled, this has been observed to impair performance

cpu_info	model_filename	size	test	t/s
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp256	48.85
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp512	225.92
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp1024	86.75
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	tg16	9.21

francesco-bongiovanni Jun 3, 2024

[fbongiovanni@mel0206 llamafile]$ ./0.8.6/llamafile-bench-0.8.6 -p "256,512,1024" -m "mistral-7b-instruct-v0.2.Q6_K.llamafile" -t 128 --numa distribute
warning: don't know how to govern your cpu temperature; consider setting the environment variables described in llamafile/govern.cpp
WARNING: /proc/sys/kernel/numa_balancing is enabled, this has been observed to impair performance

cpu_info	model_filename	size	test	t/s
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp256	197.07
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp512	29.45
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp1024	168.05
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	tg16	8.32

francesco-bongiovanni Jun 3, 2024

[fbongiovanni@mel0209 llamafile]$ NM_BIND_THREADS_TO_CORES=1 numactl --i=all ./0.8.6/llamafile-bench-0.8.6 -p "256,512,1024" -m "mistral-7b-instruct-v0.2.Q6_K.llamafile" -t 128 --numa distribute
warning: don't know how to govern your cpu temperature; consider setting the environment variables described in llamafile/govern.cpp
WARNING: /proc/sys/kernel/numa_balancing is enabled, this has been observed to impair performance

cpu_info	model_filename	size	test	t/s
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp256	164.48
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp512	185.23
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp1024	145.87
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	tg16	7.22

francesco-bongiovanni Jun 3, 2024

[fbongiovanni@mel0209 llamafile]$ NM_BIND_THREADS_TO_CORES=8 numactl --i=all ./0.8.6/llamafile-bench-0.8.6 -p "256,512,1024" -m "mistral-7b-instruct-v0.2.Q6_K.llamafile" -t 128 --numa distribute
warning: don't know how to govern your cpu temperature; consider setting the environment variables described in llamafile/govern.cpp
WARNING: /proc/sys/kernel/numa_balancing is enabled, this has been observed to impair performance

cpu_info	model_filename	size	test	t/s
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp256	249.61
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp512	223.63
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp1024	156.88
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	tg16	7.00

francesco-bongiovanni Jun 3, 2024

[fbongiovanni@mel0209 llamafile]$ NM_BIND_THREADS_TO_CORES=16 numactl --i=all ./0.8.6/llamafile-bench-0.8.6 -p "256,512,1024" -m "mistral-7b-instruct-v0.2.Q6_K.llamafile" -t 128 --numa distribute
warning: don't know how to govern your cpu temperature; consider setting the environment variables described in llamafile/govern.cpp
WARNING: /proc/sys/kernel/numa_balancing is enabled, this has been observed to impair performance

cpu_info	model_filename	size	test	t/s
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp256	245.98
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp512	230.92
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp1024	227.24
AMD EPYC 7H12 64-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	tg16	5.14

Djip007 · 2024-06-01T13:55:17Z

Djip007
Jun 1, 2024
Author

#> mem stock 32Go DDR4@2666

cpu_info	model_filename	size	test	t/s
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.BF16	13.49 GiB	pp256	39.48
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.BF16	13.49 GiB	pp512	24.39
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.BF16	13.49 GiB	pp1024	23.98
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.BF16	13.49 GiB	tg16	2.66
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp256	70.21
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp512	68.65
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp1024	66.56
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	tg16	6.32

#> mem XMP 32Go DDR4@3200

cpu_info	model_filename	size	test	t/s
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	pp256	40.02
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	pp512	39.22
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	pp1024	38.51
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	tg16	5.58
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mixtral-8x7b-instruct-v0.1.Q3_K_M	21.00 GiB	pp256	39.22
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mixtral-8x7b-instruct-v0.1.Q3_K_M	21.00 GiB	pp512	38.65
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mixtral-8x7b-instruct-v0.1.Q3_K_M	21.00 GiB	pp1024	37.87
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mixtral-8x7b-instruct-v0.1.Q3_K_M	21.00 GiB	tg16	6.82
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.BF16	13.49 GiB	pp256	41.06
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.BF16	13.49 GiB	pp512	26.73
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.BF16	13.49 GiB	pp1024	26.63
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.BF16	13.49 GiB	tg16	3.19
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp256	71.29
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp512	69.43
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp1024	67.66
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	tg16	7.55

#> mem XMP 32Go DDR4@3600

cpu_info	model_filename	size	test	t/s
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	pp256	40.28
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	pp512	39.47
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	pp1024	38.63
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	tg16	6.24
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mixtral-8x7b-instruct-v0.1.Q3_K_M	21.00 GiB	pp256	39.75
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mixtral-8x7b-instruct-v0.1.Q3_K_M	21.00 GiB	pp512	38.86
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mixtral-8x7b-instruct-v0.1.Q3_K_M	21.00 GiB	pp1024	38.28
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mixtral-8x7b-instruct-v0.1.Q3_K_M	21.00 GiB	tg16	7.61
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.BF16	13.49 GiB	pp256	41.96
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.BF16	13.49 GiB	pp512	28.62
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.BF16	13.49 GiB	pp1024	28.20
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.BF16	13.49 GiB	tg16	3.56
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.F16	13.49 GiB	pp256	43.51
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.F16	13.49 GiB	pp512	43.20
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.F16	13.49 GiB	pp1024	42.61
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.F16	13.49 GiB	tg16	3.56
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp256	71.48
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp512	69.26
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp1024	67.65
AMD Ryzen 9 3900X 12-Core Processor (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	tg16	8.45
AMD Ryzen 9 3900X 12-Core Processor (znver2)	TinyLlama-1.1B-Chat-v1.0.F32	4.10 GiB	pp256	431.00
AMD Ryzen 9 3900X 12-Core Processor (znver2)	TinyLlama-1.1B-Chat-v1.0.F32	4.10 GiB	pp512	385.91
AMD Ryzen 9 3900X 12-Core Processor (znver2)	TinyLlama-1.1B-Chat-v1.0.F32	4.10 GiB	pp1024	364.48
AMD Ryzen 9 3900X 12-Core Processor (znver2)	TinyLlama-1.1B-Chat-v1.0.F32	4.10 GiB	tg16	12.06
AMD Ryzen 9 3900X 12-Core Processor (znver2)	TinyLlama-1.1B-Chat-v1.0.BF16	2.05 GiB	pp256	292.13
AMD Ryzen 9 3900X 12-Core Processor (znver2)	TinyLlama-1.1B-Chat-v1.0.BF16	2.05 GiB	pp512	276.15
AMD Ryzen 9 3900X 12-Core Processor (znver2)	TinyLlama-1.1B-Chat-v1.0.BF16	2.05 GiB	pp1024	262.59
AMD Ryzen 9 3900X 12-Core Processor (znver2)	TinyLlama-1.1B-Chat-v1.0.BF16	2.05 GiB	tg16	23.18
AMD Ryzen 9 3900X 12-Core Processor (znver2)	TinyLlama-1.1B-Chat-v1.0.F16	2.05 GiB	pp256	295.52
AMD Ryzen 9 3900X 12-Core Processor (znver2)	TinyLlama-1.1B-Chat-v1.0.F16	2.05 GiB	pp512	278.28
AMD Ryzen 9 3900X 12-Core Processor (znver2)	TinyLlama-1.1B-Chat-v1.0.F16	2.05 GiB	pp1024	266.13
AMD Ryzen 9 3900X 12-Core Processor (znver2)	TinyLlama-1.1B-Chat-v1.0.F16	2.05 GiB	tg16	23.10

0 replies

Djip007 · 2024-06-01T14:41:14Z

Djip007
Jun 1, 2024
Author

#> mem stock 32Go DDR4@2400

cpu_info	model_filename	size	test	t/s
AMD Ryzen 5 3550H 4-Core (znver2)	mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	pp256	6.81
AMD Ryzen 5 3550H 4-Core (znver2)	mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	pp512	6.67
AMD Ryzen 5 3550H 4-Core (znver2)	mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	pp1024	6.52
AMD Ryzen 5 3550H 4-Core (znver2)	mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	tg16	3.60
AMD Ryzen 5 3550H 4-Core (znver2)	mixtral-8x7b-instruct-v0.1.Q3_K_M	21.00 GiB	pp256	6.49
AMD Ryzen 5 3550H 4-Core (znver2)	mixtral-8x7b-instruct-v0.1.Q3_K_M	21.00 GiB	pp512	6.42
AMD Ryzen 5 3550H 4-Core (znver2)	mixtral-8x7b-instruct-v0.1.Q3_K_M	21.00 GiB	pp1024	6.35
AMD Ryzen 5 3550H 4-Core (znver2)	mixtral-8x7b-instruct-v0.1.Q3_K_M	21.00 GiB	tg16	3.72
AMD Ryzen 5 3550H 4-Core (znver2)	mistral-7b-instruct-v0.2.BF16	13.49 GiB	pp256	7.48
AMD Ryzen 5 3550H 4-Core (znver2)	mistral-7b-instruct-v0.2.BF16	13.49 GiB	pp512	6.94
AMD Ryzen 5 3550H 4-Core (znver2)	mistral-7b-instruct-v0.2.BF16	13.49 GiB	pp1024	6.69
AMD Ryzen 5 3550H 4-Core (znver2)	mistral-7b-instruct-v0.2.BF16	13.49 GiB	tg16	2.01
AMD Ryzen 5 3550H 4-Core (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp256	11.57
AMD Ryzen 5 3550H 4-Core (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp512	11.52
AMD Ryzen 5 3550H 4-Core (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	pp1024	11.29
AMD Ryzen 5 3550H 4-Core (znver2)	mistral-7b-instruct-v0.2.Q6_K	5.53 GiB	tg16	4.69
AMD Ryzen 5 3550H 4-Core (znver2)	mistral-7b-instruct-v0.2.Q4_K_M	4.07 GiB	pp256	12.07
AMD Ryzen 5 3550H 4-Core (znver2)	mistral-7b-instruct-v0.2.Q4_K_M	4.07 GiB	pp512	11.75
AMD Ryzen 5 3550H 4-Core (znver2)	mistral-7b-instruct-v0.2.Q4_K_M	4.07 GiB	pp1024	11.52
AMD Ryzen 5 3550H 4-Core (znver2)	mistral-7b-instruct-v0.2.Q4_K_M	4.07 GiB	tg16	6.44

0 replies

juanfadev · 2024-06-02T19:13:33Z

juanfadev
Jun 2, 2024

32GB DDR4@3000

cpu_info	model_filename	size	test	t/s
AMD Ryzen 5 5600X 6-Core Processor (znver3)	mistral-7b-instruct-v0.2.Q4_0	3.83 GiB	pp256	23.94
AMD Ryzen 5 5600X 6-Core Processor (znver3)	mistral-7b-instruct-v0.2.Q4_0	3.83 GiB	pp512	23.70
AMD Ryzen 5 5600X 6-Core Processor (znver3)	mistral-7b-instruct-v0.2.Q4_0	3.83 GiB	pp1024	24.46
AMD Ryzen 5 5600X 6-Core Processor (znver3)	mistral-7b-instruct-v0.2.Q4_0	3.83 GiB	tg16	8.95

0 replies

dagbdagb · 2024-07-30T07:36:43Z

dagbdagb
Jul 30, 2024

AMD Ryzen 9 5950X 16-Core Processor (znver3) Mixtral-8x22B-Instruct-v0.1.Q6_K

@Djip007 any substantial performance changes with current llamafile for this model?
Have you tried any 70B quants?

Edit: found #367

0 replies

Djip007 · 2024-07-31T19:05:28Z

Djip007
Jul 31, 2024
Author

last bench is with V0.8.11/12 + CPU ...

cpu_info	model_filename	size	test	t/s
AMD Ryzen 9 7940HS (znver4)	Mistral-Large-Instruct-2407-IQ3_XXS	43.78 GiB	pp32	0.79
AMD Ryzen 9 7940HS (znver4)	Mistral-Large-Instruct-2407-IQ3_XXS	43.78 GiB	pp64	0.83
AMD Ryzen 9 7940HS (znver4)	Mistral-Large-Instruct-2407-IQ3_XXS	43.78 GiB	pp128	0.83
AMD Ryzen 9 7940HS (znver4)	Mistral-Large-Instruct-2407-IQ3_XXS	43.78 GiB	tg16	0.77
AMD Ryzen 9 7940HS (znver4)	Mistral-Large-Instruct-2407-Q2_K	42.09 GiB	pp32	5.12
AMD Ryzen 9 7940HS (znver4)	Mistral-Large-Instruct-2407-Q2_K	42.09 GiB	pp64	5.39
AMD Ryzen 9 7940HS (znver4)	Mistral-Large-Instruct-2407-Q2_K	42.09 GiB	pp128	5.38
AMD Ryzen 9 7940HS (znver4)	Mistral-Large-Instruct-2407-Q2_K	42.09 GiB	tg16	1.25
AMD Ryzen 9 7940HS (znver4)	Meta-Llama-3-70B-Instruct.Q4_K_M	39.59 GiB	pp32	8.95
AMD Ryzen 9 7940HS (znver4)	Meta-Llama-3-70B-Instruct.Q4_K_M	39.59 GiB	pp64	9.16
AMD Ryzen 9 7940HS (znver4)	Meta-Llama-3-70B-Instruct.Q4_K_M	39.59 GiB	pp128	9.25
AMD Ryzen 9 7940HS (znver4)	Meta-Llama-3-70B-Instruct.Q4_K_M	39.59 GiB	tg16	1.37

0 replies

Djip007 · 2024-07-31T20:57:18Z

Djip007
Jul 31, 2024
Author

llamafile 0.8.12+

cpu_info	model_filename	size	test	t/s
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q6_K	107.61 GiB	pp64	15.97
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q6_K	107.61 GiB	pp126	18.86
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q6_K	107.61 GiB	pp256	19.75
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q6_K	107.61 GiB	pp512	19.54
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q6_K	107.61 GiB	pp1024	19.26
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q6_K	107.61 GiB	tg16	1.57
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q5_K_M	93.11 GiB	pp64	16.72
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q5_K_M	93.11 GiB	pp126	18.45
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q5_K_M	93.11 GiB	pp256	18.83
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q5_K_M	93.11 GiB	pp512	18.70
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q5_K_M	93.11 GiB	pp1024	18.41
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x22B-Instruct-v0.1.Q5_K_M	93.11 GiB	tg16	1.81
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.BF16	86.99 GiB	pp64	20.14
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.BF16	86.99 GiB	pp126	26.56
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.BF16	86.99 GiB	pp256	28.26
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.BF16	86.99 GiB	pp512	30.29
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.BF16	86.99 GiB	pp1024	30.02
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.BF16	86.99 GiB	tg16	1.98
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q8_0	46.22 GiB	pp64	35.67
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q8_0	46.22 GiB	pp126	38.95
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q8_0	46.22 GiB	pp256	39.13
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q8_0	46.22 GiB	pp512	38.26
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q8_0	46.22 GiB	pp1024	37.86
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q8_0	46.22 GiB	tg16	3.70
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q6_K	35.74 GiB	pp64	51.69
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q6_K	35.74 GiB	pp126	59.00
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q6_K	35.74 GiB	pp256	60.19
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q6_K	35.74 GiB	pp512	59.18
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q6_K	35.74 GiB	pp1024	58.39
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q6_K	35.74 GiB	tg16	4.73
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q5_K_M	30.95 GiB	pp64	52.64
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q5_K_M	30.95 GiB	pp126	57.05
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q5_K_M	30.95 GiB	pp256	58.59
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q5_K_M	30.95 GiB	pp512	56.87
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q5_K_M	30.95 GiB	pp1024	56.07
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q5_K_M	30.95 GiB	tg16	5.43
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	pp64	53.82
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	pp126	56.11
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	pp256	56.19
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	pp512	54.97
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	pp1024	54.46
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mixtral-8x7b-instruct-v0.1.Q4_K_M	26.49 GiB	tg16	6.25
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.BF16	13.50 GiB	pp64	50.72
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.BF16	13.50 GiB	pp126	56.01
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.BF16	13.50 GiB	pp256	54.23
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.BF16	13.50 GiB	pp512	53.44
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.BF16	13.50 GiB	pp1024	52.63
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.BF16	13.50 GiB	tg16	3.53
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.Q8_0	7.17 GiB	pp64	75.32
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.Q8_0	7.17 GiB	pp126	73.29
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.Q8_0	7.17 GiB	pp256	72.01
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.Q8_0	7.17 GiB	pp512	70.52
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.Q8_0	7.17 GiB	pp1024	69.35
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.Q8_0	7.17 GiB	tg16	6.54
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-8B-Instruct.Q6_K	6.14 GiB	pp64	110.56
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-8B-Instruct.Q6_K	6.14 GiB	pp126	111.55
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-8B-Instruct.Q6_K	6.14 GiB	pp256	111.95
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-8B-Instruct.Q6_K	6.14 GiB	pp512	108.23
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-8B-Instruct.Q6_K	6.14 GiB	pp1024	105.53
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-8B-Instruct.Q6_K	6.14 GiB	tg16	8.00
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.Q6_K	5.54 GiB	pp64	112.41
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.Q6_K	5.54 GiB	pp126	112.52
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.Q6_K	5.54 GiB	pp256	112.64
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.Q6_K	5.54 GiB	pp512	108.81
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.Q6_K	5.54 GiB	pp1024	105.55
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.Q6_K	5.54 GiB	tg16	8.24
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.Q5_K_M	4.78 GiB	pp64	107.14
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.Q5_K_M	4.78 GiB	pp126	106.21
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.Q5_K_M	4.78 GiB	pp256	109.08
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.Q5_K_M	4.78 GiB	pp512	103.81
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.Q5_K_M	4.78 GiB	pp1024	100.73
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-7B-Instruct-v0.3.Q5_K_M	4.78 GiB	tg16	9.69

0 replies

Djip007 · 2024-07-31T23:39:53Z

Djip007
Jul 31, 2024
Author

last on for now...

cpu_info	model_filename	size	test	t/s
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-Large-Instruct-2407.Q6_K	93.68 GiB	pp64	5.99
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-Large-Instruct-2407.Q6_K	93.68 GiB	pp126	6.23
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-Large-Instruct-2407.Q6_K	93.68 GiB	pp256	6.37
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-Large-Instruct-2407.Q6_K	93.68 GiB	pp512	5.99
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-Large-Instruct-2407.Q6_K	93.68 GiB	pp1024	6.12
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-Large-Instruct-2407.Q6_K	93.68 GiB	tg16	0.51
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q8_0	69.82 GiB	pp64	7.57
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q8_0	69.82 GiB	pp126	7.51
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q8_0	69.82 GiB	pp256	7.48
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q8_0	69.82 GiB	pp512	7.39
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q8_0	69.82 GiB	pp1024	7.30
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q8_0	69.82 GiB	tg16	0.69
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-Large-Instruct-2407.Q4_K_M	68.19 GiB	pp64	5.86
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-Large-Instruct-2407.Q4_K_M	68.19 GiB	pp126	5.85
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-Large-Instruct-2407.Q4_K_M	68.19 GiB	pp256	5.86
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-Large-Instruct-2407.Q4_K_M	68.19 GiB	pp512	5.74
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-Large-Instruct-2407.Q4_K_M	68.19 GiB	pp1024	5.61
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-Large-Instruct-2407.Q4_K_M	68.19 GiB	tg16	0.70
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q6_K	53.91 GiB	pp64	11.24
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q6_K	53.91 GiB	pp126	11.19
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q6_K	53.91 GiB	pp256	11.37
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q6_K	53.91 GiB	pp512	10.50
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q6_K	53.91 GiB	pp1024	10.93
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q6_K	53.91 GiB	tg16	0.89
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q5_K_M	46.51 GiB	pp64	10.98
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q5_K_M	46.51 GiB	pp126	10.75
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q5_K_M	46.51 GiB	pp256	10.87
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q5_K_M	46.51 GiB	pp512	10.64
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q5_K_M	46.51 GiB	pp1024	10.45
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q5_K_M	46.51 GiB	tg16	1.03
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-Large-Instruct-2407.Q2_K	42.09 GiB	pp64	6.24
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-Large-Instruct-2407.Q2_K	42.09 GiB	pp126	6.23
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-Large-Instruct-2407.Q2_K	42.09 GiB	pp256	6.22
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-Large-Instruct-2407.Q2_K	42.09 GiB	pp512	6.08
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-Large-Instruct-2407.Q2_K	42.09 GiB	pp1024	5.96
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Mistral-Large-Instruct-2407.Q2_K	42.09 GiB	tg16	1.11
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q4_K_M	39.59 GiB	pp64	10.43
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q4_K_M	39.59 GiB	pp126	10.61
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q4_K_M	39.59 GiB	pp256	10.53
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q4_K_M	39.59 GiB	pp512	9.53
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q4_K_M	39.59 GiB	pp1024	10.13
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q4_K_M	39.59 GiB	tg16	1.21
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q4_0	37.22 GiB	pp64	8.88
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q4_0	37.22 GiB	pp126	8.80
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q4_0	37.22 GiB	pp256	8.80
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q4_0	37.22 GiB	pp512	8.64
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q4_0	37.22 GiB	pp1024	8.54
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3-70B-Instruct.Q4_0	37.22 GiB	tg16	1.28
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Codestral-22B-v0.1-Q5_K_M	14.64 GiB	pp64	34.37
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Codestral-22B-v0.1-Q5_K_M	14.64 GiB	pp126	35.36
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Codestral-22B-v0.1-Q5_K_M	14.64 GiB	pp256	34.73
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Codestral-22B-v0.1-Q5_K_M	14.64 GiB	pp512	33.59
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Codestral-22B-v0.1-Q5_K_M	14.64 GiB	pp1024	32.90
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Codestral-22B-v0.1-Q5_K_M	14.64 GiB	tg16	3.20
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Codestral-22B-v0.1-Q4_K_M	12.42 GiB	pp64	34.11
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Codestral-22B-v0.1-Q4_K_M	12.42 GiB	pp126	33.75
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Codestral-22B-v0.1-Q4_K_M	12.42 GiB	pp256	33.24
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Codestral-22B-v0.1-Q4_K_M	12.42 GiB	pp512	32.52
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Codestral-22B-v0.1-Q4_K_M	12.42 GiB	pp1024	31.79
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Codestral-22B-v0.1-Q4_K_M	12.42 GiB	tg16	3.75
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3.1-8B-Instruct-Q8_0	7.95 GiB	pp64	74.56
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3.1-8B-Instruct-Q8_0	7.95 GiB	pp126	72.52
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3.1-8B-Instruct-Q8_0	7.95 GiB	pp256	71.75
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3.1-8B-Instruct-Q8_0	7.95 GiB	pp512	70.36
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3.1-8B-Instruct-Q8_0	7.95 GiB	pp1024	68.91
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3.1-8B-Instruct-Q8_0	7.95 GiB	tg16	6.23
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3.1-8B-Instruct-Q6_K	6.14 GiB	pp64	112.13
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3.1-8B-Instruct-Q6_K	6.14 GiB	pp126	112.99
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3.1-8B-Instruct-Q6_K	6.14 GiB	pp256	112.38
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3.1-8B-Instruct-Q6_K	6.14 GiB	pp512	108.67
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3.1-8B-Instruct-Q6_K	6.14 GiB	pp1024	105.62
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3.1-8B-Instruct-Q6_K	6.14 GiB	tg16	7.99
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3.1-8B-Instruct-Q4_K_M	4.58 GiB	pp64	99.50
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3.1-8B-Instruct-Q4_K_M	4.58 GiB	pp126	103.81
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3.1-8B-Instruct-Q4_K_M	4.58 GiB	pp256	102.38
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3.1-8B-Instruct-Q4_K_M	4.58 GiB	pp512	100.20
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3.1-8B-Instruct-Q4_K_M	4.58 GiB	pp1024	97.40
AMD Ryzen 9 5950X 16-Core Processor (znver3)	Meta-Llama-3.1-8B-Instruct-Q4_K_M	4.58 GiB	tg16	10.53

1 reply

dagbdagb Aug 1, 2024

AMD Ryzen 9 5950X 16-Core Processor (znver3) Mistral-Large-Instruct-2407.Q6_K 93.68 GiB pp1024 6.12

This is quite impressive.
Thanks a lot for these numbers. Very informative.

dagbdagb · 2024-08-01T05:58:44Z

dagbdagb
Aug 1, 2024

@Djip007 maybe adjust the title of this discussion to reflect the contents?

1 reply

jart Aug 1, 2024
Maintainer

Updated.

dagbdagb · 2024-08-02T13:20:40Z

dagbdagb
Aug 2, 2024

@jart
Is it possible to quantify the optimal number of threads with llamafile? Memory bandwidth appears to be king as always, but I halfway assume performance will take a dive when crossing X number of CPU threads. Am I mistaken?

I find it bonkers that we now can run these big models which is kinda out of reach even with 48GB of VRAM, and have decent (or close to it :-) performance. Very grateful for the work you and the rest of the team do. Hope you have a deep stack of ideas to try out to squeeze even more performance out of consumer hardware. :-)

Meta-Llama-3-70B-Instruct.Q6_K
Mixtral-8x22B-Instruct-v0.1.Q6_K
Mistral-Large-Instruct-2407.Q6_K

Latest crop of AMD offerings (zen5 mobile, Strix Point) appear to top out at 120GBps if matched with LPDDR5X-7500. But desktop Zen 5 (Granite Ridge) isn't out until mid august. (in two weeks). Interesting times ahead.

Would be interesting to see to what extent LLM performance scales with memory bandwidth and number of threads. (a 3D plot)

1 reply

Djip007 Aug 3, 2024
Author

For zen4 llamafile get ~80% of bf16 theorical max FLOPS, (Zen3 pretty as close with his fp32 FLOPS). so don't hop for a new x2 speed up on this CPU. (I can get some 5/10 % more perf with test on BF16/zen4 CPU, but the code may be too specifique for other CPU gain...) with so high FLOPS hyperthreding is useless => nb_thread == nb_physical_core is the best I think and made the default on llamafile
With laptop zen5, it is not clear for me if the AVX512BF16 have double as it will be with the desktop model...
With zen5 desktop, I thing we may see actual sgemm of llamafile be memory limited (not completly sur if cache make good job)...

For Strix Point ... we need to use GPU or TPU ... for 7940HS+GPU we can have a x2 perf over CPU, but it is far from GPU pick FLOPS... (25% of max BF16/FP16 FLOPS...) but cache size is small on GPU ... for higher speed we may have to change ggml tensor (weight) structure. For TPUs it's probably even worse...

Note:

llamafile-bench -t "1,2,4,8,16"

can be use to make nb_thread bench, but the thread "colone" is not reported in output... we need to "correct" that

with llama-bench (llama.cpp bench) on Ryzen 7940HS (8coeur/16 thread)I have:

model	size	params	backend	threads	test	t/s
llama 70B Q4_K - Medium	39.59 GiB	70.55 B	CPU	4	pp32	2.73 ± 0.01
llama 70B Q4_K - Medium	39.59 GiB	70.55 B	CPU	4	pp64	2.72 ± 0.00
llama 70B Q4_K - Medium	39.59 GiB	70.55 B	CPU	4	pp128	2.70 ± 0.00
llama 70B Q4_K - Medium	39.59 GiB	70.55 B	CPU	4	tg16	1.30 ± 0.00
llama 70B Q4_K - Medium	39.59 GiB	70.55 B	CPU	8	pp32	4.86 ± 0.00
llama 70B Q4_K - Medium	39.59 GiB	70.55 B	CPU	8	pp64	4.88 ± 0.01
llama 70B Q4_K - Medium	39.59 GiB	70.55 B	CPU	8	pp128	4.85 ± 0.01
llama 70B Q4_K - Medium	39.59 GiB	70.55 B	CPU	8	tg16	1.37 ± 0.00
llama 70B Q4_K - Medium	39.59 GiB	70.55 B	CPU	12	pp32	4.71 ± 0.00
llama 70B Q4_K - Medium	39.59 GiB	70.55 B	CPU	12	pp64	4.76 ± 0.00
llama 70B Q4_K - Medium	39.59 GiB	70.55 B	CPU	12	pp128	4.75 ± 0.01
llama 70B Q4_K - Medium	39.59 GiB	70.55 B	CPU	12	tg16	1.37 ± 0.00

(and yes llamafile is 2x faster for pp ;) in that case...)

milkowski · 2024-08-18T22:00:58Z

milkowski
Aug 18, 2024

Benchmarks of recent d29cd4c2 revision on AMD Ryzen AI 9 HX 370 processor run on OpenSUSE Tumbleweed Linux distro:

Balanced mode

cpu_info	model_filename	size	test	t/s
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.BF16	13.50 GiB	pp512	96.06
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.BF16	13.50 GiB	tg16	5.27
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.F16	13.50 GiB	pp512	65.73
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.F16	13.50 GiB	tg16	5.23
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.Q8_0	7.17 GiB	pp512	78.27
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.Q8_0	7.17 GiB	tg16	9.44
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.Q6_K	5.54 GiB	pp512	114.44
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.Q6_K	5.54 GiB	tg16	12.69
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.Q5_K_M	4.78 GiB	pp512	109.54
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.Q5_K_M	4.78 GiB	tg16	13.66
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.Q4_K_M	4.07 GiB	pp512	115.30
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.Q4_K_M	4.07 GiB	tg16	15.61

Performance mode

cpu_info	model_filename	size	test	t/s
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.BF16	13.50 GiB	pp512	92.62
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.BF16	13.50 GiB	tg16	5.29
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.F16	13.50 GiB	pp512	65.82
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.F16	13.50 GiB	tg16	5.27
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.Q8_0	7.17 GiB	pp512	76.82
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.Q8_0	7.17 GiB	tg16	9.89
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.Q6_K	5.54 GiB	pp512	113.88
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.Q6_K	5.54 GiB	tg16	12.74
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.Q5_K_M	4.78 GiB	pp512	109.83
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.Q5_K_M	4.78 GiB	tg16	14.45
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.Q4_K_M	4.07 GiB	pp512	115.13
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	Mistral-7B-Instruct-v0.3.Q4_K_M	4.07 GiB	tg16	16.83

2 replies

Djip007 Aug 18, 2024
Author

tg16 3.91 -> 5.29 with Ryzen 7940HS -> HX 370 !
Nice RAM what is your RAM speed? LPDDR5X- 7500 ?

milkowski Aug 18, 2024

Yes, exactly 4 banks of:

# dmidecode 3.6
Getting SMBIOS data from sysfs.
SMBIOS 3.7.0 present.

Handle 0x0016, DMI type 17, 92 bytes
Memory Device
	Array Handle: 0x0013
	Error Information Handle: 0x0015
	Total Width: 32 bits
	Data Width: 32 bits
	Size: 8 GB
	Form Factor: Other
	Set: None
	Locator: DIMM 0
	Bank Locator: P0 CHANNEL A
	Type: LPDDR5
	Type Detail: Synchronous Unbuffered (Unregistered)
	Speed: 7500 MT/s
	Manufacturer: Samsung
	Serial Number: 00000000
	Asset Tag: Not Specified
	Part Number: K3KL9L90CM-MGCT     
	Rank: 2
	Configured Memory Speed: 7500 MT/s
	Minimum Voltage: 0.5 V
	Maximum Voltage: 0.5 V
	Configured Voltage: 0.5 V
	Memory Technology: DRAM
	Memory Operating Mode Capability: Volatile memory
	Firmware Version: Unknown
	Module Manufacturer ID: Bank 1, Hex 0xCE
	Module Product ID: Unknown
	Memory Subsystem Controller Manufacturer ID: Unknown
	Memory Subsystem Controller Product ID: Unknown
	Non-Volatile Size: None
	Volatile Size: 8 GB
	Cache Size: None
	Logical Size: None

milkowski · 2024-08-18T22:54:08Z

milkowski
Aug 18, 2024

But the best surprise is Deepseek Coder V2 Lite which is usable on AMD Ryzen AI 9 HX 370 for tab autocompletion model even on 8-bit quantization! Now I understand why they choose MoE with this model.

cpu_info	model_filename	size	test	t/s
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	DeepSeek-Coder-V2-Lite-Base-Q8_0	15.55 GiB	pp512	155.16
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	DeepSeek-Coder-V2-Lite-Base-Q8_0	15.55 GiB	tg16	24.97
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	DeepSeek-Coder-V2-Lite-Base-Q6_K	13.10 GiB	pp512	187.48
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	DeepSeek-Coder-V2-Lite-Base-Q6_K	13.10 GiB	tg16	30.40
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	DeepSeek-Coder-V2-Lite-Base-Q5_K_M	11.03 GiB	pp512	185.47
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	DeepSeek-Coder-V2-Lite-Base-Q5_K_M	11.03 GiB	tg16	32.84
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	DeepSeek-Coder-V2-Lite-Base-Q4_K_M	9.65 GiB	pp512	197.72
AMD Ryzen AI 9 HX 370 w/ Radeon 890M	DeepSeek-Coder-V2-Lite-Base-Q4_K_M	9.65 GiB	tg16	37.65

1 reply

Djip007 Aug 18, 2024
Author

so imagine if you can use your GPU! (x2/x4 is expected on pp ;) )

Djip007 · 2024-08-18T23:09:37Z

Djip007
Aug 18, 2024
Author

with v0.8.13 now it work!:

cpu_info	model_filename	size	test	t/s
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	Codestral-22B-v0.1-Q6_K	17.00 GiB	pp32	25.60
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	Codestral-22B-v0.1-Q6_K	17.00 GiB	pp64	25.93
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	Codestral-22B-v0.1-Q6_K	17.00 GiB	pp128	26.71
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	Codestral-22B-v0.1-Q6_K	17.00 GiB	pp256	26.50
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	Codestral-22B-v0.1-Q6_K	17.00 GiB	pp512	27.22
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	Codestral-22B-v0.1-Q6_K	17.00 GiB	tg16	3.11

cpu_info	model_filename	size	test	t/s
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	Mistral-Nemo-Instruct-2407-Q6_K	9.36 GiB	pp32	48.75
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	Mistral-Nemo-Instruct-2407-Q6_K	9.36 GiB	pp64	55.22
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	Mistral-Nemo-Instruct-2407-Q6_K	9.36 GiB	pp128	56.20
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	Mistral-Nemo-Instruct-2407-Q6_K	9.36 GiB	pp256	55.61
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	Mistral-Nemo-Instruct-2407-Q6_K	9.36 GiB	pp512	53.74
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	Mistral-Nemo-Instruct-2407-Q6_K	9.36 GiB	tg16	5.90

cpu_info	model_filename	size	test	t/s
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	Mistral-Nemo-Instruct-2407.BF16	22.81 GiB	pp32	36.47
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	Mistral-Nemo-Instruct-2407.BF16	22.81 GiB	pp64	49.68
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	Mistral-Nemo-Instruct-2407.BF16	22.81 GiB	pp128	47.33
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	Mistral-Nemo-Instruct-2407.BF16	22.81 GiB	pp256	61.49
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	Mistral-Nemo-Instruct-2407.BF16	22.81 GiB	pp512	56.75
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	Mistral-Nemo-Instruct-2407.BF16	22.81 GiB	tg16	2.49

=> only wait for FP8 support for this last model!

0 replies

jart · 2024-08-19T00:02:17Z

jart
Aug 19, 2024
Maintainer

Here's some TinyLLaMA benchmarks with 0.8.13 on the flagship Threadripper.

cpu_info	model_filename	size	test	t/s
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.F32	4.10 GiB	pp512	1756.43
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.F32	4.10 GiB	tg16	52.02
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.BF16	2.05 GiB	pp512	2443.71
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.BF16	2.05 GiB	tg16	90.57
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.F16	2.05 GiB	pp512	1946.58
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.F16	2.05 GiB	tg16	90.91
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q8_0	1.09 GiB	pp512	1954.86
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q8_0	1.09 GiB	tg16	108.43
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q6_K	860.86 MiB	pp512	2599.55
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q6_K	860.86 MiB	tg16	131.89
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q5_1	791.50 MiB	pp512	2114.28
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q5_1	791.50 MiB	tg16	135.25
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q5_K_M	745.11 MiB	pp512	2551.59
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q5_K_M	745.11 MiB	tg16	141.71
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q5_0	729.84 MiB	pp512	2080.81
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q5_0	729.84 MiB	tg16	141.53
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q5_K_S	729.84 MiB	pp512	2594.46
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q5_K_S	729.84 MiB	tg16	143.00
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q4_1	668.18 MiB	pp512	2202.02
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q4_1	668.18 MiB	tg16	148.16
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q4_K_M	636.18 MiB	pp512	2627.41
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q4_K_M	636.18 MiB	tg16	150.43
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q4_K_S	609.53 MiB	pp512	2646.01
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q4_K_S	609.53 MiB	tg16	155.40
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q4_0	606.53 MiB	pp512	2136.76
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q4_0	606.53 MiB	tg16	150.74
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q3_K_L	563.42 MiB	pp512	2602.61
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q3_K_L	563.42 MiB	tg16	157.10
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q3_K_M	522.30 MiB	pp512	2618.18
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q3_K_M	522.30 MiB	tg16	163.36
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q3_K_S	475.51 MiB	pp512	2589.46
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q3_K_S	475.51 MiB	tg16	167.76
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q2_K	411.41 MiB	pp512	2523.83
AMD Ryzen Threadripper PRO 7995WX (znver4)	TinyLlama-1.1B-Chat-v1.0.Q2_K	411.41 MiB	tg16	176.42

0 replies

jart · 2024-08-19T00:07:39Z

jart
Aug 19, 2024
Maintainer

Also I know it isn't Ryzen, but here's TinyLLaMA on the Apple M2 Ultra with llamafile 0.8.13.

cpu_info	model_filename	size	test	t/s
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.F32	4.10 GiB	pp512	489.63
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.F32	4.10 GiB	tg16	52.62
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.BF16	2.05 GiB	pp512	478.49
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.BF16	2.05 GiB	tg16	87.49
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.F16	2.05 GiB	pp512	1035.10
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.F16	2.05 GiB	tg16	90.99
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q8_0	1.09 GiB	pp512	910.10
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q8_0	1.09 GiB	tg16	134.70
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q6_K	860.86 MiB	pp512	622.69
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q6_K	860.86 MiB	tg16	137.13
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q5_1	791.50 MiB	pp512	724.68
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q5_1	791.50 MiB	tg16	134.81
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q5_K_M	745.11 MiB	pp512	669.59
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q5_K_M	745.11 MiB	tg16	162.98
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q5_0	729.84 MiB	pp512	811.10
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q5_0	729.84 MiB	tg16	147.13
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q5_K_S	729.84 MiB	pp512	666.64
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q5_K_S	729.84 MiB	tg16	133.82
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q4_1	668.18 MiB	pp512	842.70
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q4_1	668.18 MiB	tg16	61.67
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q4_K_M	636.18 MiB	pp512	781.62
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q4_K_M	636.18 MiB	tg16	130.64
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q4_K_S	609.53 MiB	pp512	821.16
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q4_K_S	609.53 MiB	tg16	149.63
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q4_0	606.53 MiB	pp512	818.14
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q4_0	606.53 MiB	tg16	169.89
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q3_K_L	563.42 MiB	pp512	636.35
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q3_K_L	563.42 MiB	tg16	147.84
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q3_K_M	522.30 MiB	pp512	688.16
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q3_K_M	522.30 MiB	tg16	161.78
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q3_K_S	475.51 MiB	pp512	628.39
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q3_K_S	475.51 MiB	tg16	137.50
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q2_K	411.41 MiB	pp512	710.05
Apple M2 Ultra (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q2_K	411.41 MiB	tg16	151.68

3 replies

Djip007 Aug 20, 2024
Author

nice to have result from other type of CPU.

Djip007 Aug 20, 2024
Author

I remove "Ryzen" on title

jart Aug 20, 2024
Maintainer

As you wish.

jart · 2024-08-19T01:58:40Z

jart
Aug 19, 2024
Maintainer

More benchmarks for you all with llamafile 0.8.13

cpu_info	model_filename	size	test	t/s
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.F32	4.10 GiB	pp512	26.88
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.F32	4.10 GiB	tg16	2.32
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.BF16	2.05 GiB	pp512	28.27
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.BF16	2.05 GiB	tg16	5.01
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.F16	2.05 GiB	pp512	56.25
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.F16	2.05 GiB	tg16	5.14
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q8_0	1.09 GiB	pp512	60.69
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q8_0	1.09 GiB	tg16	9.62
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q6_K	860.86 MiB	pp512	41.95
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q6_K	860.86 MiB	tg16	12.30
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q5_1	791.50 MiB	pp512	49.53
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q5_1	791.50 MiB	tg16	13.62
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q5_K_M	745.11 MiB	pp512	48.64
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q5_K_M	745.11 MiB	tg16	13.82
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q5_0	729.84 MiB	pp512	52.59
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q5_0	729.84 MiB	tg16	14.46
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q5_K_S	729.84 MiB	pp512	49.28
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q5_K_S	729.84 MiB	tg16	14.50
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q4_1	668.18 MiB	pp512	57.67
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q4_1	668.18 MiB	tg16	15.97
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q4_K_M	636.18 MiB	pp512	56.25
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q4_K_M	636.18 MiB	tg16	16.67
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q4_K_S	609.53 MiB	pp512	58.43
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q4_K_S	609.53 MiB	tg16	17.08
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q4_0	606.53 MiB	pp512	55.84
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q4_0	606.53 MiB	tg16	16.85
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q3_K_L	563.42 MiB	pp512	43.89
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q3_K_L	563.42 MiB	tg16	15.18
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q3_K_M	522.30 MiB	pp512	46.27
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q3_K_M	522.30 MiB	tg16	15.90
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q3_K_S	475.51 MiB	pp512	41.58
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q3_K_S	475.51 MiB	tg16	15.90
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q2_K	411.41 MiB	pp512	50.15
Raspberry Pi 5 Model B Rev 1.0 (+fp16+dotprod)	TinyLlama-1.1B-Chat-v1.0.Q2_K	411.41 MiB	tg16	19.69

cpu_info	model_filename	size	test	t/s
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.f32	4.10 GiB	pp512	397.88
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.f32	4.10 GiB	tg16	23.08
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.BF16	2.05 GiB	pp512	372.67
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.BF16	2.05 GiB	tg16	43.22
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.f16	2.05 GiB	pp512	386.09
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.f16	2.05 GiB	tg16	43.69
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q8_0	1.09 GiB	pp512	424.97
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q8_0	1.09 GiB	tg16	73.95
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q6_K	860.86 MiB	pp512	580.84
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q6_K	860.86 MiB	tg16	82.68
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q5_K_M	745.11 MiB	pp512	546.34
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q5_K_M	745.11 MiB	tg16	97.14
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q5_0	729.84 MiB	pp512	428.69
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q5_0	729.84 MiB	tg16	101.59
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q5_K_S	729.84 MiB	pp512	536.34
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q5_K_S	729.84 MiB	tg16	104.84
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q4_K_M	636.18 MiB	pp512	538.33
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q4_K_M	636.18 MiB	tg16	122.51
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q4_K_S	612.28 MiB	pp512	533.42
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q4_K_S	612.28 MiB	tg16	115.45
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q4_0	606.53 MiB	pp512	443.35
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q4_0	606.53 MiB	tg16	123.69
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q3_K_L	563.42 MiB	pp512	555.21
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q3_K_L	563.42 MiB	tg16	119.88
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q3_K_M	523.67 MiB	pp512	542.28
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q3_K_M	523.67 MiB	tg16	127.85
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q3_K_S	475.51 MiB	pp512	545.73
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q3_K_S	475.51 MiB	tg16	136.41
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q2_K	459.11 MiB	pp512	544.87
Intel Core i9-14900K (alderlake)	TinyLlama-1.1B-Chat-v1.0.Q2_K	459.11 MiB	tg16	140.38

0 replies

Djip007 · 2024-08-20T03:55:54Z

Djip007
Aug 20, 2024
Author

cpu_info	model_filename	size	test	t/s
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	TinyLlama-1.1B-Chat-v1.0.F32	4.10 GiB	pp256	331.75
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	TinyLlama-1.1B-Chat-v1.0.F32	4.10 GiB	pp512	357.86
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	TinyLlama-1.1B-Chat-v1.0.F32	4.10 GiB	tg16	13.92
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	TinyLlama-1.1B-Chat-v1.0.BF16	2.05 GiB	pp256	675.29
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	TinyLlama-1.1B-Chat-v1.0.BF16	2.05 GiB	pp512	627.02
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	TinyLlama-1.1B-Chat-v1.0.BF16	2.05 GiB	tg16	26.70
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	TinyLlama-1.1B-Chat-v1.0.F16	2.05 GiB	pp256	415.30
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	TinyLlama-1.1B-Chat-v1.0.F16	2.05 GiB	pp512	377.25
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	TinyLlama-1.1B-Chat-v1.0.F16	2.05 GiB	tg16	26.02
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	TinyLlama-1.1B-Chat-v1.0.Q8_0	1.09 GiB	pp256	380.63
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	TinyLlama-1.1B-Chat-v1.0.Q8_0	1.09 GiB	pp512	341.53
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	TinyLlama-1.1B-Chat-v1.0.Q8_0	1.09 GiB	tg16	45.83
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	TinyLlama-1.1B-Chat-v1.0.Q6_K	860.86 MiB	pp256	579.44
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	TinyLlama-1.1B-Chat-v1.0.Q6_K	860.86 MiB	pp512	534.55
AMD Ryzen 9 7940HS w/ Radeon 780M Graphics (znver4)	TinyLlama-1.1B-Chat-v1.0.Q6_K	860.86 MiB	tg16	62.26

0 replies

daver1958 · 2024-08-21T07:29:53Z

daver1958
Aug 21, 2024

i wonder if the new 9950x amd cpu's will improve things with their improved avx512 support, they seem to have improved some of the other AI related benchmarks - https://www.phoronix.com/review/amd-ryzen-9950x-9900x/13

2 replies

Djip007 Aug 21, 2024
Author

we may ask him to add bench with llamafile-bench on CPU...

dagbdagb Aug 21, 2024

Already did, although I did not mention that there already is a benchmark suite/script.
And I suppose he gets a lot of mail.

Maybe @jart can ping @phoronix on twitter?

buzzy · 2024-09-11T21:35:57Z

buzzy
Sep 11, 2024

Did anyone run these tests on any EPYC setup with 8-channel RAM?

1 reply

Djip007 Sep 20, 2024
Author

There is some benchmark on this page with EPYC CPU (I think all of this avec 8-channel.)
And the bench from jart with "AMD Ryzen Threadripper PRO 7995WX" is a pro CPU so it have 8-channel so it can give some idea of what we can have on EPYC.

Lots of CPU benchmarks #450

Replies: 27 comments · 31 replies

Djip007 May 26, 2024 Author

jart May 26, 2024 Maintainer

Djip007 May 26, 2024 Author

jart May 26, 2024 Maintainer

Djip007 May 26, 2024 Author

Djip007 May 26, 2024 Author

Djip007 May 27, 2024 Author

Djip007 May 28, 2024 Author

Djip007 May 28, 2024 Author

jart Jun 1, 2024 Maintainer

Djip007 Jun 2, 2024 Author

Djip007 May 28, 2024 Author

jart Jun 1, 2024 Maintainer

Djip007 Jun 1, 2024 Author

Djip007 Jun 1, 2024 Author

Djip007 Jul 31, 2024 Author

Djip007 Jul 31, 2024 Author

llamafile 0.8.12+

Djip007 Jul 31, 2024 Author

jart Aug 1, 2024 Maintainer

Djip007 Aug 3, 2024 Author

Djip007 Aug 18, 2024 Author

Djip007 Aug 18, 2024 Author

Djip007 Aug 18, 2024 Author

jart Aug 19, 2024 Maintainer

jart Aug 19, 2024 Maintainer

Djip007 Aug 20, 2024 Author

Djip007 Aug 20, 2024 Author

jart Aug 20, 2024 Maintainer

jart Aug 19, 2024 Maintainer

Djip007 Aug 20, 2024 Author

Djip007 Aug 21, 2024 Author

Djip007 Sep 20, 2024 Author

Replies: 27 comments 31 replies

Djip007
May 26, 2024
Author

jart
May 26, 2024
Maintainer

Djip007 May 26, 2024
Author

jart
May 26, 2024
Maintainer

Djip007 May 26, 2024
Author

Djip007 May 26, 2024
Author

Djip007
May 27, 2024
Author

Djip007 May 28, 2024
Author

Djip007 May 28, 2024
Author

jart Jun 1, 2024
Maintainer

Djip007 Jun 2, 2024
Author

Djip007
May 28, 2024
Author

jart Jun 1, 2024
Maintainer

Djip007
Jun 1, 2024
Author

Djip007
Jun 1, 2024
Author

Djip007
Jul 31, 2024
Author

Djip007
Jul 31, 2024
Author

Djip007
Jul 31, 2024
Author

jart Aug 1, 2024
Maintainer

Djip007 Aug 3, 2024
Author

Djip007 Aug 18, 2024
Author

Djip007 Aug 18, 2024
Author

Djip007
Aug 18, 2024
Author

jart
Aug 19, 2024
Maintainer

jart
Aug 19, 2024
Maintainer

Djip007 Aug 20, 2024
Author

Djip007 Aug 20, 2024
Author

jart Aug 20, 2024
Maintainer

jart
Aug 19, 2024
Maintainer

Djip007
Aug 20, 2024
Author

Djip007 Aug 21, 2024
Author

Djip007 Sep 20, 2024
Author