华泰证券金融工程：基于回归法的基金持股仓位测算_新浪财经

　　【华泰金工林晓明团队】基于回归法的基金持股仓位测算

　　来源：华泰金融工程林晓明团队

　　摘要

　　仓位测算的基本思路是基于日频基金净值和一级行业指数的回归

　　本报告探讨了几种基于回归法的基金持股仓位测算模型，是以基金的日频收益率作为因变量，29 个一级行业指数日收益率作为自变量，通过不同的回归方式对各行业变量前的回归系数进行拟合，再求所有回归系数之和，即得基金仓位预测值。我们对四种回归方式（主成分回归、逐步回归、岭回归、Lasso 回归）在普通股票型基金和偏股混合型基金的测试结果进行对比，发现Lasso 回归和逐步回归的预测精度较高，主成分回归稍弱，岭回归存在系统性高估现象。

　　主成分回归、逐步回归、岭回归、Lasso 回归均能缓解自变量共线性问题

　　基金仓位测算回归模型中，自变量组（29 个一级行业日收益率）存在明显的多重共线性，若直接采用普通最小二乘回归进行求解，则各行业变量前面的拟合系数会互相干扰，出现不合理的回归结果，并且共线性严重时回归方程无法通过数值方法求解。主成分回归可以将自变量组转化成互相正交的几个主成分；逐步回归可以选择一个自变量的子集进行回归；岭回归和Lasso 回归则是在普通最小二乘的损失函数基础上添加正则化项，使原本较为病态的回归问题可以正常求解。四种回归方式均能缓解自变量的多重共线性问题。

　　仓位预测效果：Lasso 回归和逐步回归较好，岭回归相对较差

　　在普通股票型基金和偏股混合型基金中，主成分回归、逐步回归、Lasso 回归的预测误差大多落在[5%，15%]区间范围内，Lasso 回归和逐步回归的结果稍好于主成分回归，岭回归则存在系统性高估的现象。岭回归与另外三种回归方法最大的区别是不存在降维行为，主成分回归是通过主成分分析法将解释变量降维，逐步回归和Lasso 回归的拟合结果中只有部分解释变量的回归系数不为零。岭回归的回归系数并不存在稀疏化特征，基本每个行业变量前面回归系数都不为零，我们猜测这可能是导致岭回归存在系统性高估现象的原因。

　　回归时间窗口长度敏感性：大于30 天预测效果平稳，但也不宜长于60 天

　　我们选取2017 年四季度末、2018 年一季度末、二季度末三个横截面，在普通股票型基金和偏股混合型基金中对四种回归方法进行时间窗口长度敏感性测试，将窗口长度从15 天到59 天进行遍历，发现大部分情况下，各方法的预测误差均值在窗口长度大于30 天之后比较平稳，趋于一个稳定的值，说明各方法的解已经收敛；在小于30 天时没有明显规律。因为回归系数的实际含义是过去一段时间窗口内基金仓位的平均状况，并用这个值代表我们对当前时刻基金仓位的预测值，所以窗口长度也不宜取得太长（一般没有必要超过一个季度，约60 个交易日），否则预测结果可能会滞后。

　　研究背景

　　基金仓位是指基金持有的股票资产占基金资产的比例。公募基金作为A股市场中重要的机构投资者，其持股动向一直受到市场关注。一方面，出于对基金经理投资能力的认可，股票投资人一般认为公募基金的仓位变动反映了市场投资情绪变化等关键信息；另一方面，基金投资人也会随时关注其持有的基金的仓位变动情况，辅助自己的投资决策。然而，公募基金只在每个季度末对其资产配置情况进行披露，这就使得投资者与基金管理者之间存在一种相对的信息不对称性。所以对基金仓位的测算研究成为一项有意义的工作。

　　目前常见的基金仓位测算方法主要基于传统意义上的指数模拟法，即运用基金净值数据和指数点位数据进行回归计算。理论意义上的指数模拟法可以选取单一指数，也可以选取复合指数为基准。对于单一指数，主要选取市场覆盖性强、具有代表性的单个指数，而复合指数通常选取一组代表不同投资风格的指数进行加权合成。本篇报告也依循这一传统测算思路，采取几种不同的回归方式，对普通股票型基金和偏股混合型基金进行仓位测算，并与真实结果进行比对，评价几种方法的优劣。

　　基金仓位测算方法

　　数据选取

　　我们使用29 个一级行业指数日收益率作为回归模型的自变量，基金的日频收益率作为因变量，通过几种不同的多元线性回归方式，进行基金仓位测算。本文用于测试的样本主要为Wind 分类下的普通股票型基金和偏股混合型基金，剔除沪港深基金等非完全投资于A股市场的基金，剔除数据方面有缺失值或存在疑问的基金，剔除2017 年以后成立的基金，共保留190 只普通股票型基金及414 只偏股混合型基金作为我们测试的样本。

　　行业指数的共线性及对回归方程的影响

　　以29个一级行业指数日收益率作为自变量、基金的日频收益率作为因变量的回归方程如下所示：

　　其中为基金f在t日的收益率，为一级行业指数i在t日的收益率，为待拟合回归系数，为残差项。我们认为代表基金投资于行业i的股票占比，那么即为基金持有的股票资产占基金资产比例。

　　如果根据以上方程，直接使用OLS回归，会得到什么样的拟合结果呢？首先，我们不妨取一个例子进行简单试验。以某普通股票型基金为例（采样方式不重要，在大部分股票型基金中都能推出类似结论），采用2018.5.18~2018.6.29（共30个交易日）内的数据进行回归，得到该支基金在这段时间内的持仓预测，分别为石油石化12.93%，煤炭-7.31%，有色金属-7.14%，电力及公用事业-8.96%，钢铁-7.21%，基础化工-23.75%，建筑-38.94%，建材22.59%，轻工制造-38.05%，机械-23.55%，电力设备38.48%，国防军工13.45%，汽车1.07%，商贸零售-3.54%，餐饮旅游-1.25%，家电-32.85%，纺织服装7.80%，医药27.99%，食品饮料30.11%，农林牧渔-23.13%，银行9.68%，非银行金融2.47%，房地产30.88%，交通运输35.41%，电子元器件34.03%，通信1.72%，计算机21.66%，传媒-1.62%，综合-0.28%。许多行业的拟合权重是较大负值，结果欠缺合理性。

　　实际上，这是由于股市的系统性风险及行业间联动效应，各一级行业指数之间存在较强的共线性，使回归问题变得比较病态，难以取得可靠的结果。

　　上面图表展示了各个行业日收益率序列的相关系数（2017.1.1~2018.8.10 的数据进行计算）。我们发现，相关系数在0.5 以上的比例超过了70%，各一级行业指数日收益率之间确实存在明显的共线性。为了解决这一问题，我们尝试了几种方法对OLS 回归进行改进下面将进行详细介绍。

　　主成分回归

　　主成分回归的基本原理是通过正交变换将一组可能存在相关性的变量进行压缩，转换为一组线性不相关的变量，转换后的这组变量叫主成分。但是用主成分得到的回归关系不像用原自变量建立的回归关系那样容易解释，因此常见的处理方法是用主成分分析法对回归模型的自变量进行处理，将得到的主成分变量作为自变量进行回归分析，然后根据转换矩阵将原自变量代回模型，得到原自变量的拟合系数。

　　在实际操作中，首先利用主成分分析法对29个一级行业日收益率数据进行主成分提取。我们选取累计方差贡献率达到95%的前几个主成分构成自变量组，以基金的日收益率作为因变量进行回归，可以拟合得到各主成分前面的回归系数。下图展示了一个小例子，以2017.1.1~2018.8.10的数据进行计算，29个行业日收益率变量的前九个主成分就达到了累计方差贡献率95%以上。因为每个主成分变量都可以表达为原29个行业日收益率变量的线性组合，所以可将主成分前面的回归系数还原成29个行业日收益率变量的系数，从而得到各个行业的权重。这里需要注意的是，线性回归采样时间段内包含的交易日个数需大于提取的主成分的个数，否则无法求解出结果，后面将要讲述的回归模型也都会面临这个问题，就不再一一赘述了。

　　逐步回归

　　主成分回归为了解决共线性，构造了一组新的线性无关的主成分变量，但主成分变量欠缺经济学意义，且在信息解读方面比较困难。下面我们将探讨一种新的回归方式——逐步回归，一定程度上可以缓解以上两个问题。其基本思想是有进有出，将变量一个一个引入，并对已选入的变量进行逐个检验，当原引入的变量由于后面变量的引入而变得不再显著时，则将其剔除。每引入一个变量或剔除一个变量都要进行F检验，以确保每次引入新的变量前回归方程只包含显著的变量，直到不再有变量被选入或剔除为止，保证最后所得回归子集是最优子集。对于变量引入的顺序，本篇报告通过对29个行业与因变量（单只基金）的相关系数进行排序，按照相关性从大到小的顺序依次引入。变量被保留的P值为0.05，被剔除的P值为0.1。

　　也就是说，在逐步回归过程中，我们逐渐剔除掉共线性较强的行业，保留相对独立的剩余板块，假设基金只在这些板块进行配置，从而得到一个相对有解释效力的回归系数，加和便得股票仓位预测值。

　　下面举一个小例子说明逐步回归法的结果存在一定合理性。我们为了预测基金在第T个交易日收盘时的持仓权重，取T-29~T交易日的基金收益率数据和29个一级行业指数收益率数据，采用逐步回归法，得到逐步回归中入选自变量前面的回归系数。下表展示了某只军工指数基金在每个季度末的回归结果。因为中证军工指数成份股在我们所使用的29个一级行业分类下，大部分被归入国防军工行业，少量被归入通信行业，所以下表回归结果基本合理，并且在基金半年报、年报上会披露详细持仓数据，由此计算的真实行业权重也与我们的回归结果大致相符。

　　逐步回归方法用于行业配置较为集中的基金仓位预测，效果还是比较有保障的，但上表中仍然出现了一些负的回归系数，结果称不上完美。而且，该方法对行业配置较为分散的基金预测准确性可能受限。

　　岭回归

　　在逐步回归之外，我们还尝试使用岭回归和Lasso回归对基金仓位进行预测。

　　岭回归是一种适用于共线性数据分析的有偏估计回归方法，实质上是一种改良的最小二乘估计法。对于本章第二小节中提到的回归方程

　　假设我们在预测基金交易日T收盘的持仓权重时，取交易日T-K~T的数据进行回归，记回归方程中因变量

　　自变量

　　其中，

　　待拟合系数

　　则该OLS回归的损失函数为

　　损失函数达到最小值时的系数就是上面回归方程的解，此时

　　X^T的列向量之间存在多重共线性，即（X^（T））^T*X^（T）可能是一个病态矩阵，造成该回归问题求解困难或数值解不稳定。在岭回归中，对损失函数引入一个惩罚项

　　则该问题的解变成

　　其中，Lambda为一个可调参数，称为岭参数。岭回归相较于普通的OLS回归，对病态问题的容忍度提升很多。病态回归问题的数值解容易出现很大或很小的异常解，而岭回归的惩罚项起到了限制数值解的范数的作用，减轻过拟合风险。但与此同时，岭回归得到的拟合系数是有偏的。本文考虑到损失函数𝐽（𝛾^（𝑇））中相加的两项的量级，宜选择左右，此处我们直接取Lambda=0.002（实际上在这个量级上，变动不会对预测结果产生太大影响）。最后用所有自变量前拟合系数之和当作本期仓位预测值。

　　Lasso 回归

　　Lasso回归的原理与岭回归有相似之处，岭回归的损失函数相较于普通OLS回归添加了一个L2惩罚项，而Lasso使用的是L1惩罚项。Lasso回归的损失函数具体表达式为

　　Lasso回归主要的作用是使回归系数稀疏化，即寻找有用的解释变量，减少冗余，提高回归预测准确性。实际上，稀疏约束最直观的形式应该是采用L0惩罚项，亦即用回归系数中非零元个数之和当作惩罚项，但L0范数是不连续且非凸的，这是一个NP难问题，难以求解。L1范数是L0范数的最优凸近似，在一定条件下，用L1范数替代L0范数也可以达到稀疏约束的效果。L1范数易于求解，所以大部分用到稀疏约束的场景都是在使用L1范数。

　　Lasso回归从逻辑上来讲，是比较适合本文中提出的基金仓位预测问题的。因为各行业指数的日收益率向量间存在多重共线性，Lasso回归可以将某些行业前面的回归系数压缩成0，提取出一组“回归效果最好”的行业组作为解释变量组，而不依赖于解释变量的预设排序或人工选择过程，更为科学，且不会陷入局部解。对于同样具有稀疏化选取作用的逐步回归而言，以上是Lasso回归的相对优势。

　　Lasso回归也具有一个可调参数，此处与岭回归相同，仍取=0.002。因岭回归与Lasso回归属于机器学习算法，感兴趣的投资人可以参阅华泰金工研报《人工智能选股之广义线性模型》（2017.6.22）了解更多详情。

　　基金仓位测算方法效果对比

　　在普通股票型基金中测试效果对比

　　本篇报告对190只普通股票型基金（数据选取详见上一大章第一小节），分别在2017年二季度末至2018年二季度末，共计5个季末横截面进行仓位测算。我们为了预测基金在第T个交易日收盘时的持仓权重，取T-29~T交易日的基金收益率数据和29个一级行业指数收益率数据，采用主成分回归、逐步回归、岭回归、Lasso回归法（这四种方法在下面图表中依次缩写为PCA、Step_wise、Ridge、Lasso），得到仓位预测值，对所有普通股票型基金的仓位预测值取均值，并与每个季度末的真实值进行对比（基金季报上会公布仓位）。根据证监会规定，普通股票型基金持股仓位下限是80%，因此我们设置仓位预测值的范围为[0.8，1]，若回归法计算出的预测值超出了这一范围则将预测值取为相近的边界值。对比结果如下表所示：

　　令x为仓位预测值减实际值，则其分布规律为：

　　通过以上图表可知，除岭回归外，其余方法在不同横截面的误差大多落在[5%，15%]的区间范围内，岭回归存在系统性高估的现象，误差要稍大一些。

　　在偏股混合型基金中测试效果对比

　　接下来，我们对414只偏股混合型基金（数据选取详见上一大章第一小节）进行仓位测算，各项设置基本与上一小节相同，这里不再赘述。偏股混合型基金持股仓位下限是60%，因此我们设置仓位预测值的范围为[0.6，1]，若回归法计算出的预测值超出了这一范围则将预测值取为相近的边界值。对比结果如下表所示：

　　令x为仓位预测值减实际值，则其分布规律为：

　　偏股混合型基金的测算结果与普通股票型基金相差不多，预测误差大多落在[5%，15%]区间范围内，岭回归存在系统性高估的现象。

　　回归时间窗口长度敏感性分析

　　在前面的测算过程中，我们采用过去30个交易日的数据进行回归拟合，来预测当前基金仓位。考虑到回归窗口长度会对预测结果产生一定的影响，本报告对窗口长度在一定范围内进行调整，同时对普通股票型基金和偏股混合型基金在2017年四季度末、2018年一季度末、二季度末三个横截面进行测试，结果如以下图表所示：

　　我们将回归时间窗口长度从15天到59天进行遍历，发现大部分情况下，各方法的预测误差均值在窗口长度大于30天之后比较平稳，趋于一个稳定的值，说明各方法的解已经收敛；在小于30天时没有明显规律。因为回归系数的实际含义是过去一段时间窗口内基金仓位的平均状况，并用这个值代表我们对当前时刻基金仓位的预测值，所以窗口长度也不宜取得太长（一般没有必要超过一个季度，约60个交易日），否则预测结果可能会滞后。本报告中我们选择使用30天还是比较合理的。

　　小结

　　以上四种基金仓位测算方法，都是基于过去一段时间的基金日频净值和一级行业指数数据，利用不同的回归模型，将各行业的拟合系数相加，得到最终仓位预测结果。四种方法本质上还是比较相近的，所以呈现的结果也并无太大差异，在本报告选择的几个静态截面上，Lasso回归和逐步回归的预测精度稍好于主成分回归，岭回归效果最差。岭回归与另外三种回归方法最大的区别是不存在降维行为，主成分回归是通过主成分分析法将解释变量降维，逐步回归和Lasso回归则是通过某种方式剔除冗余变量，只有部分解释变量的回归系数不为零。我们猜测这可能是导致岭回归存在系统性高估现象的原因，有待进一步证实。

　　近期基金仓位测算观察

　　目前基金2018 年半年报都已发布完毕，离三季报发布还有若干个工作日的时间，我们对基金三季度以来的仓位变化情况进行了测算。我们仍然使用过去30 个交易日的数据进行回归计算，按日滚动回归，得到2018 年7 月4 日至2018 年9 月28 日的普通股票型基金和偏股混合型基金仓位预测值均值变化曲线，如以下两图所示：

　　通过测算结果可知，从二季度末以来，基金仓位整体经历了一个先微升、后降、再缓慢攀升的过程。2018 年7 月下旬至8 月，基金仓位处于一个阶段性的底部，正好对应A 股大盘震荡下行的一段行情。自8 月底基金仓位开始缓慢攀升，也能对应于当时市场上曾出现的一些择时观点——认为大盘已经筑底完毕、即将开始反弹（现在来看该观点不一定对）。从某种程度来讲，公募基金的仓位变化确实能与市场情绪形成一定的对照。

　　风险提示

　　本报告中所采用的基金仓位测算方法仅基于日频基金净值数据和行业数据，没有利用基金报告中公布的重仓股、行业分布等信息，存在一定局限性。本报告中所采用的基金仓位测算方法仅在普通股票型基金和偏股混合型基金中进行实证，在其它类别基金中可能不适用。本报告中采用的四种回归方法只能缓解自变量间的多重共线性，并不能完全解决这一问题，敬请注意。

新浪声明：新浪网登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。

免责声明：自媒体综合提供的内容均源自自媒体，版权归原作者所有，转载请联系原作者并获许可。文章观点仅代表作者本人，不代表新浪立场。若内容涉及投资建议，仅供参考勿作为投资依据。投资有风险，入市需谨慎。

责任编辑：常福强

我要反馈