“海量”专题(163)——从加权IC到机器学习:高频因子多头失效的修正

“海量”专题(163)——从加权IC到机器学习:高频因子多头失效的修正
2020年04月03日 08:44 新浪财经-自媒体综合

如何在结构性行情中开展投资布局?新浪财经《基金直播间》,邀请基金经理在线路演解读市场。

来源:海通量化团队

重要提示:《证券期货投资者适当性管理办法》于2017年7月1日起正式实施,通过本微信订阅号发布的观点和信息仅供海通证券的专业投资者参考,完整的投资观点应以海通证券研究所发布的完整报告为准。若您并非海通证券客户中的专业投资者,为控制投资风险,请取消订阅、接收或使用本订阅号中的任何信息。本订阅号难以设置访问权限,若给您造成不便,敬请谅解。我司不会因为关注、收到或阅读本订阅号推送内容而视相关人员为客户;市场有风险,投资需谨慎。

股票的因子暴露和未来收益率的截面相关系数,即因子IC,是评判因子有效性的重要标准。在实践中,如果一个新的因子与原始因子(市值、估值、非线性市值、换手率、特质波动率、非流动性、反转、ROE、ROE同比变化,以下简称9因子)正交后的IC越高,意味着该因子很有可能会提升原始组合的表现。

然而,这一结论似乎对很多高频因子并不成立。高频因子虽然有较高的IC,但在加入原始模型构建股票多头组合后,对收益的提升并不显著。造成这种现象的原因是什么,如何进行修正,本文尝试给出有一定可行性的解决方案。

1

高频因子的多头失效现象

1.1

高频因子的分组收益

分组收益是体现因子有效性的常用方式。一般情况下,IC越高的因子,分组后的多空收益也越高。下表展示了海通量化团队前期开发的11个高频因子(因子定义可参考相关专题报告,已与9因子正交)在中证500成分股内的IC,以及分五组后的收益。其中,多头/空头组特指第1、第5组(视因子的选股方向而定);次多头/空头组特指第2、第4组,中值组特指第3组。

由上表可见,IC与多空收益正相关。如,大买成交金额占比、改进反转和尾盘成交量占比的IC分别为4.8%、3.5%和5.0%,对应的多空收益分别为16.36%、11.04%、14.73%。从这两个角度看,三个因子的选股能力十分突出。然而,如果只看多头组的收益,情况却并非如此,IC高并不一定对应多头组的收益高。以多空收益最高的大买成交金额占比为例,多头组相对全市场平均的超额收益占多空收益的比例不足30%。而大买成交集中度的多头组收益甚至不如全市场平均。这种现象,我们称为多头失效。

在实际构建组合时,我们的目标通常是追求多头端的预期收益最大化。如果加入股票收益预测模型的因子都有IC高,但多头失效的特征。那么,可以想象,该因子对组合收益的提升幅度并不会太大。甚至,还有可能影响原来的股票排序,降低组合收益。以多头失效最为严重(多头组超额收益占多空收益的比例仅为-31.64%)的大买成交集中度因子为例,将它加入原始的9因子模型,构建最简单的最大化预期收益组合(预期收益最高的100个股票的等权组合,下同,并简称组合),其累计收益如下图所示。

如下表所示,虽然大买集中度因子的IC为0.017,t值为2.41,但加入9因子模型之后,组合相对中证500的超额收益反而出现了下降。

进一步考察复合因子IC可以发现,尽管加入大买成交集中度后,复合因子IC从6.7%小幅上升至6.8%,但多头组(复合因子得分最高的20%股票)的IC却从2.05%降至1.98%。根本原因是复合因子的高IC绝大部分来自空头端,即,股票收益与因子暴露在空头端有很好的线性相关性。而到了多头端,相关性会逐步减弱,甚至反转。

这种现象可通过如下的简单模拟来描述。图中横轴表示因子值,红线代表相应的收益。显然,当因子值小于0.5时,收益与因子值显著正相关;而当因子值大于0.5之后,则变为明确的负相关。蓝线表示根据因子值和收益之间的线性回归得到的预期收益。

该模拟因子的IC高达0.907,然而,因子暴露较大的那部分股票,显然不是实际收益最高的。由此可见,常规的IC在评价因子有效性,尤其是多头端的效果时,可能会产生误导。

1.2

分组IC

因子IC的计算公式为

在分5组的假定下,如果将同属一组的股票看成一个子集,并定义该集合的IC为

那么,整体IC等于5个子集IC的和。由此,便可以评价每一组对整体IC的贡献。

下表展示了高频因子各个分组的IC。为便于比较,我们将因子IC均调整为正。若某一分组的IC为负,则说明该分组与整体反向。

对比表1可以发现,多头收益高的因子,如,大买成交金额占比、尾盘成交量占比,多头组、次多头组的IC也较高。而多头失效的因子,多头组的IC低。如,大买成交集中度因子的多头组IC甚至为负数。另一方面,所有高频因子的空头组IC均在1%以上,是整体IC的主要贡献者。

由此我们猜测,如果不采用等权,而是对属于不同组的股票赋予不同的权重,那么,因子的有效性,尤其是对构建多头组合的增益,或许能得到重新评估。例如,在计算大买成交集中度因子的整体IC时,对多头组和次多组头赋予更高的权重。那么,这个因子的IC很有可能就不再显著,我们也不会把它们加入现有的多因子模型中。

2

加权IC

2.1

加权IC的定义

根据石川博士公众号——“川总写量化”中的文章《用IC评价因子效果靠谱吗?》提到的方法,通过降低或提高不同股票在计算相关系数时的权重,可对原始IC进行修正。具体的计算公式如下,

其中,wi表示第i个股票的权重,Dw表示利用相同权重向量w计算的加权方差。我们以多头失效现象最为突出的大买成交集中度因子为例,若将多头组权重提高到50%,其他组均为12.5%,其IC可被修正为下表所示的结果。

在调高多头组的权重之后,大买成交集中度因子的IC从1.7%大幅下降至-0.5%,t值从2.41变为-0.53,可直接判定该因子无效。由此可见,如果我们以提升多头权重后的加权IC为评价标准,或许能对因子有新的认识。

2.2

提高多头组的权重,重新评价因子有效性

将多头组的权重调整为其他组的5倍,重新计算高频因子的IC,结果见下表。

重新赋权后,高频因子的IC普遍有所下滑,这主要是因为高频因子整体的空头效应强于多头。下面,我们比较两种IC计算方式下,在评价和筛选高频因子时的差异。

为确保所选因子确实能带来新的信息,每次根据IC的大小筛选得到一个新因子后,都将剩余的高频因子分别对已选因子及9因子正交,并再次计算IC。重复上述步骤,直到没有新的因子被选出。

根据原始IC依此筛选出大买成交金额占比,尾盘成交量占比,大单推动涨幅,根据加权IC依此筛选出尾盘成交量占比,大买成交金额占比,平均单笔流出金额占比。将各自筛选出的三个因子分别和9因子一起构建多因子组合。为便于表达,分别记为原始IC组合与加权IC 组合,它们的收益风险特征如以下图表所示。

加入高频因子的两个组合,年化收益均显著高于9因子组合。而使用加权IC筛选高频因子,则进一步提升了收益,并降低了波动。

下表对比了两个组合的复合因子IC。尽管加权IC组合的整体IC 略低于原始IC组合,但多头组IC和相应的t值却更高。以上结果均表明,使用加权IC能够更好地筛选出对组合多头端有贡献的高频因子,缓解多头失效问题。

3

因子升维

3.1

加入高频因子的二次多项式

出现图3中多头失效现象的原因是,股票收益和因子暴露之间存在非线性关系,用直线拟合会高(低)估多头的选股效果。实际上,传统的低频因子同样存在这类问题。例如,在海通量化团队前期的报告《市值因子的非线性特征》中,市值最小和最大的那部分股票,实际收益均高于线性预测的结果。为修正这一不足,我们提出在线性模型中进一步加入市值因子的平方项,来反映市值和收益的非线性特征。

根据相同的思路,我们也尝试在收益预测模型中引入高频因子的二次多项式,解决多头失效问题。对于图3中的模拟案例,这一过程的示意图如下所示。

以大买成交集中度因子为例,将它的二次多项式和9因子一同建立收益预测模型和股票组合,业绩表现如以下图表所示。

包含二次多项式的模型相比只含一次项,表现显著增强。在回撤和波动降低的基础上,将相对中证500的超额收益从11.52%提升至12.55%。若以9因子模型为基准,二次项的引入同样增强了原始收益和风险调整后收益。

上述结果表明,二次多项式更好地刻画了大买成交集中度和收益之间的关系。因加入多头失效因子导致的股票排序紊乱得以修复,组合收益回升。

对其余10个高频因子,我们按照相同的方法计算加入二次多项式后,组合的收益风险特征,并与9因子组合进行对比(见下表)。

和原始的9因子组合相比,只包含高频因子的一次项时,11个新组合中有6个收益上升,幅度为-1.09%至1.55%,均值为0.09%;加入二次项后,收益上升的新组合数量增加至9个,收益上升幅度变为-0.93%至2.40%,均值变为0.53%。整体来看,引入高频因子和股票收益的非线性特征,更好地挖掘了高频因子所蕴含的增量信息。

3.2

加入高频因子的四次多项式

根据泰勒展开原理,多项式的阶数越高,越能逼近原始函数。因此,我们尝试在收益预测模型中加入四次多项式,以求更好地刻画高频因子和股票收益之间的非线性特征。如下图所示,相较于二次多项式,四次多项式对多头失效现象的修正更进一步。

基于此,我们在收益预测模型中分别加入11个高频因子的四次多项式,并构建最大化预期收益组合,相应的收益风险特征如下表所示。

对比原始的9因子组合,在包含高频因子四次多项式的11个新组合中,同样有9个年化收益上升,幅度为-0.21%至2.33%,均值为0.74%。和只加入二次多项式的结果相比,不仅平均提升幅度扩大(0.74% vs. 0.53%),而且稳定性也略有上升(波动率:0.93% vs. 0.98%)。总的来说,引入四次多项式使得高频因子包含增量信息的特征被进一步挖掘,从而提升了原始组合的业绩表现。

3.3

机器学习之径向基升维

从研究的角度来看,加入高次项确实有助于缓解高频因子的多头失效现象。但在实际应用中,也会面临另一个棘手的问题——如何选择高次项的阶数。一方面,人为指定虽然简单直接,但显得有些随意,且未必能保证好的效果。另一方面,优化寻解又缺乏统一的标准,而且,若同时存在多个高频因子,计算难度也将成倍上升。因此,我们希望找到一种方法,能够在较小的计算压力下,尽可能通过数据驱动来反映因子和收益之间的非线性关系。

机器学习中的径向基网络就符合这样的要求,其基本思想是先利用径向基函数将数据升维,使每一个维度包含一部分数据蕴含的信息,然后利用线性回归模型对升维后的数据进行拟合(见下图)。

具体到多因子模型层面,首先,对包含n个股票的因子值向量x采用聚类算法确定m个中心点。其次,利用如下的径向基函数(RBF unit)对第i个股票的因子值xi进行升维。

最后,将被扩充至m维的因子与其他因子一同用于股票收益的预测。

此外,由上式可见,离中心点j越远的数据,升维后的值越接近于0。所以,径向基升维的方法还起到了对数据分组的作用,从而可以实现下图所示的分段回归,更好地逼近因子和收益的真实关系。

下面,我们先将径向基升维的方法运用于大买成交集中度因子,考察它与原始9因子结合后,构建的最大化预期收益组合的业绩表现,具体结果如以下图表所示。

在原始9因子中,加入径向基升维后的大买集中度因子带来了显著的收益提升。这表明,该因子确实蕴含了可以预测收益的信息,只是被人为确定的线性关系掩盖了。

进一步将升维方法推广至其他高频因子,对应的最大化预期收益组合的业绩表现如下表所示。

由上表可见,先通过径向基对高频因子升维,再分别加入原始的9因子组合后,有7个年化收益上升,数量高于只含一次项的6个。上升幅度为-0.74%至3.83%,均值为0.82%,优于加入二次和四次多项式的结果。

3.4

升维方法对比和小结

加入二次或四次多项式,本质上都是对高频因子增加维度,因此不妨将这两种方式和使用机器学习的结果进行对比。下表展示了加入升维后的高频因子的最大化预期收益组合,相对只含一次项的年化收益之差。

在使用高频因子时,适当升高维度在平均意义上均可提高组合的年化收益。相对而言,径向基方法的效果最好。相对只含一次项的平均超额收益为0.73%,高于加入二次和四次多项式的0.44%和0.65%。

仅就上述结果而言,我们倾向于认为,完全由数据驱动的径向基升维对挖掘高频因子信息的发现和挖掘最为充分。但作为机器学习的一种算法,潜在的风险同样需要关注。虽然整个过程中,参数选择和模型设定均无人工干预,但机器学习方法却暗含了一个前提——训练期数据与预测期数据的特征基本一致。例如,径向基升维需要确定中心点的个数,以便对数据分段。而我们的实证发现,这是一个敏感性较强的参数。选择不同时间长度的训练样本,得到的最优参数差异较大,组合的收益也是大相径庭。因此,使用机器学习也需谨慎,尤其是对于频率较低、有效样本量较少的月度选股模型。

4

总结与思考

高频因子存在明显的多头失效现象,这使得常用的因子IC在评价高频因子有效性时,容易出现失真。通过对不同数据赋予新的权重,构建得到的加权IC可以更好地反映因子的多头效果,找到真正有助于提升组合收益的因子。

进一步研究发现,多头失效问题常常表现为高频因子和股票收益之间的非线性关系。因此,加入因子的高次项以刻画这种关系,成为了自然的选择。实证结果表明,直接加入因子的高次项(如,二次、四次多项式),可以在整体上改善最大化预期收益组合的业绩表现,挖掘出高频因子更多的增量信息。但这种方法的问题也显而易见,它需要事先确定非线性函数的形式。而这一过程更多地是依赖模型使用者的经验,较难推而广之。

机器学习中同样提供了大量拟合线性关系的方法,径向基升维是其中一种直观且运算量较小的技术。将其应用于高频因子的多头失效问题,同样可以在平均意义上提升组合的年化收益。但这种方法的风险也不容忽视,它可能会引发“维数灾祸(dimension curse)”。一方面,因子维度升高会降低参数估计的稳定性。极端情况下,会导致因子暴露矩阵不满秩,无法进行跟踪误差约束。另一方面,过高的维度也会增加模型的过拟合概率,尤其是在有效历史数据较为有限的月度再平衡方式下。

根据Cover定理,将复杂的模式分类问题非线性地投射到高维空间,比投射到低维空间更可能是线性可分的。虽然这种方式提升了模型的预测能力,但也严重降低了模型的人工修正能力,使策略彻底黑盒化。对这种非线性方法进行有效控制并合理使用,是机器学习应用于投资实践中的重要研究方向。

5

风险提示

市场系统性风险、模型误设风险、有效因子变动风险。

联系人:余浩淼 021-23219883

专题报告下载地址:

https://pan.baidu.com/s/16uVSstHyllcLB5nEiL4bGA

“海量”专题回顾

免责声明:自媒体综合提供的内容均源自自媒体,版权归原作者所有,转载请联系原作者并获许可。文章观点仅代表作者本人,不代表新浪立场。若内容涉及投资建议,仅供参考勿作为投资依据。投资有风险,入市需谨慎。

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

7X24小时

  • 04-09 锦和商业 603682 --
  • 04-09 沪硅产业 688126 --
  • 04-09 锐新科技 300828 --
  • 04-08 朝阳科技 002981 --
  • 04-08 安宁股份 002978 27.47
  • 股市直播

    • 图文直播间
    • 视频直播间