日期:2020-03-30 07:41:40 作者:期货资讯 浏览:183 次
原标题:主成分分析法在黄金期货量化策略中的应用 来源:原创
我们在研究某些问题时,需要处理带有很多变量的数据。变量和数据虽然很多,但可能存在噪音和冗余。然而,主成分分析法可以用少数变量来代表所有的变量,用来解释研究者所要研究的问题,化繁为简,抓住关键,也就是降维思想。本文以黄金期货为例,通过对其基本面数据进行分析,提取了对黄金影响较大的10个基本面变量,使用主成分分析法对数据进行降维处理,并使用降维后的新变量构建黄金期货的量化择时策略。
主成分分析法的核心思想
我们在研究某些问题时,需要处理带有很多变量的数据。比如,研究房价的影响因素,需要考虑的变量有物价水平、土地价格、利率、就业率等。变量和数据很多,但可能存在噪音和冗余,因为这些变量中有些是相关的,那么就可以从相关的变量中选择一个,或者将几个变量综合为一个变量,作为代表。用少数变量来代表所有的变量,用来解释所要研究的问题,就能化繁为简,抓住关键,这也就是降维的思想。
主成分分析法(Principal Component Analysis,PCA)就是一种运用线性代数的知识来进行数据降维的方法。它将多个变量转换出少数几个不相关的变量来,但转换后的变量能比较全面地反映整个数据集。这是因为数据集中的原始变量之间存在一定的相关关系,可用较少的综合变量来表达各原始变量之间的信息。
具体来看,在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大且和第一变量不相关,称为第二主成分。依次类推,i个变量就有i个主成分。其中,Li为p维正交化向量(Li×Li=1),Zi之间互不相关且按方差由大到小排列,则称Zi为X的第i个主成分。设X的协方差矩阵为Σ,则Σ必为半正定对称矩阵,求特征值λi(按从大到小排序)及其特征向量。可以证明,λi所对应的正交化特征向量,即为第i个主成分Zi所对应的系数向量Li,而Zi的方差贡献率定义为λi/Σλj,通常要求提取的主成分的数量K满足Σλk/Σλj>0.85。
图为相关变量线性转换主成分分析法的核心思想是降维,而降维的基础是变量之间的相关性。主成分分析法不要求所有变量都相关,但部分变量之间的相关性比较大才能满足降维的条件,否则强制对不相关的变量进行降维,主成分分析法就失去了实际意义。因此,对于价格内在影响因素相关度较强的期货品种,用主成分分析法进行分析研究是比较合适的,而对于影响因素相关度较弱的期货品种不适合。
那么主成分分析法是如何降维的呢?我们从坐标变换的角度来获得一个感性的认识。
图为主成分分析法降维正态分布在短轴上,观测点数据的变化比较小,如果把这些点垂直地投影到短轴上,那么有很多点的投影会重合,这相当于很多数据点的信息没有被充分利用到。而在长轴上,观测点的数据变化比较大。因此,如果坐标轴和椭圆的长短轴平行,那么代表长轴的变量直接可以从数据集的原始变量中找到,它描述了数据的主要变化。而另一个原始变量就代表短轴的变量,描述的是数据的次要变化。
在极端情况下,短轴退化成一个点,那么就只能用长轴的变量来解释数据点的所有变化,就可以把二维数据降至一维。不过,坐标轴通常并不和椭圆的长短轴平行,就像上图所展示的那样。因此,需要构建新的坐标系,使得新坐标系的坐标轴与椭圆的长短轴重合或平行。这需要用到坐标变换,把观测点在原坐标轴的坐标转换到新坐标系下,同时也把原始变量转换为长轴的变量和短轴的变量,这种转换是通过对原始变量进行线性组合的方式而完成的。
举例来说,一个观测点在原X—Y坐标系中的坐标为(4,5),坐标基为(1,0)和(0,1),如果长轴为斜率是1的线,短轴为斜率是-1的线,新坐标系以长轴和短轴作为坐标轴,那么新坐标基可以取为
和
上一篇:上一篇:陈大大宾:3.30原油期货操作建议。现货黄金操作建议
下一篇:下一篇:螺纹钢中期需求走弱