深度学习赋能风格轮动与多策略融合 | 开源金工|深度学习_新浪财经

（来源：建榕量化研究）

报告发布日期：2024-12-12

对于多策略融合而言，我们过去一系列报告的做法是从轮动规律相对较为显著的价值和成长展开，分别构建内部选股模型和模型间的轮动模型，如图1所示。

（1）寻找优质股票池的界定标准。比如对于预期调整Plus组合，我们精细化的改进了分析师预期调整因子；对于价值Plus组合，我们精细化的改进了估值PB因子。

（2）寻找优质股票池内的优质因子和最优结合方式。比如对于超预期Plus组合和预期调整Plus组合而言，特色大小单资金流因子都是组合超额的重要补充。

以上做法理论上可以把每一类策略从可解释逻辑的层面做到极致，以及寻找出最优的风格配比，但缺点是耗时长、完备性差。

本文尝试从深度学习和强化学习角度出发，自动选择风格，并在风格内优选股票，从而实现使用基本的行情和财务指标，就可进行有效的多策略融合。

值得一提的是，在机器学习领域，我们已经发布一系列报告，分别为《遗传算法赋能交易行为因子》、《深度学习赋能交易行为因子》、《深度学习赋能分析师行为：更稳的盈利预期调整组合》，感兴趣的读者可自行查阅。

深度学习赋能交易行为因子挖掘

1.1、 LSTM深度学习因子挖掘框架和绩效回顾

在《深度学习赋能交易行为因子》中，我们从最基本的行情和财务数据出发，讨论了LSTM模型在因子挖掘中的应用，模型的架构如图2，绩效如图3所示。从20190101至20241129，LSTM因子的月度RankIC均值为9.37%，RankICIR为3.86。10分组多空对冲的年化收益率为32.74%，月度最大回撤为4.26%，月度胜率82.86%。

1.2、 Transformer深度学习因子挖掘对比

在《深度学习赋能分析师行为：更稳的盈利预期调整组合》中，我们利用了Transformer模型进行了研报情感的判断，其也可用在因子挖掘中。相较于LSTM模型而言，该模型对于时序数据的隐含关系能够更好的把握，或有更好的选股效果，这里我们对其进行了尝试。其中数据处理细节和初始数据都和LSTM因子挖掘中保持一致，财务数据合并在了Decoder层后的隐藏层中。

从20190101至20241129，Transformer因子的月度RankIC均值为10.27%，RankICIR为4.35。10分组多空对冲的年化收益率为38.77%，月度最大回撤为4.46%，月度胜率为81.43%。相较于LSTM因子而言，整体的绩效有一定程度的提升，RankIC从9.37%提升至10.27%。

从RankIC累计曲线以及10分组多空来看，Transformer因子跑赢LSTM因子主要在2021年以来，其或说明Transformer在风格变化较快的市场中，有着更强的信息提取能力，所以本文后续展开的研究主要以Transformer为主。

1.3、 Transformer因子多头优选

这里我们以优选100只股票为例，展示了Transformer因子的多头优选能力，具体净值如图7，绩效如表1所示。从20190101至20241129，Transformer100绝对收益年化为23.37%，收益波动比为0.94。

深度学习维度下的风格选择

由于深度学习具备较强的数据拟合能力，在市场风格转变背景下，基于此构建的组合可能会面临大幅回撤，所以进行一定程度的风格判断或会增强组合收益。本文第二部分和第三部分将分别从深度学习和强化学习维度出发，构建三大风格轮动模型并进行综合研判。

对于风格的界定，本文以多策略基本面选股公式“股票收益=估值提升+盈利+分红”为基础，同时考虑了对市场影响较大的其他风格，最终确定为：市值、价值、质量、成长、红利。该5大风格的代理因子分别为：自由流通市值、PB、单季度ROE、单季度净利润同比、过去12个月股息率。对于不同的风格，我们采取全市场股票（剔除停牌、ST以及上市不满60天）高低二分组，并将不同的风格进行两两组合，构建40个股票等权组合，月度更新，形成40种风格指数。

2.1、风格优选：指数Transformer因子

对于40个风格指数的优选，首先我们尝试直接构建指数因子，具体做法为：将个股相关量价和财务指标聚合至指数层面，使用和个股预测相同的Transformer框架进行预测，输入变量为指数相关指标，预测目标为指数未来20天收益率。

从20190101至20241129，指数Transformer因子的RankIC为6.13%，具备一定的风格轮动效果。但该因子在优选多头层面效果一般，在尾部剔除层面效果较好，4分组绩效如图8，直接将空头组剔除的净值如图9所示。

2.2、风格优选：股票Transformer因子

从股票Transformer因子维度去看指数强弱，主要分为两个维度：绝对比例和比例相对变化。具体做法为：将股票Transformer因子转化为横截面分位点，计算每个风格指数成分股分位点的平均，作为绝对比例，计算当前绝对比例与过去6个月绝对比例差值，作为比例相对变化。这两个指标的4分组效果如图10和图11所示。从图中我们不难看出，绝对比例分组较为单调，且多头效果优于空头。

为了更直观地体现绝对比例的风格选择能力，我们以2024年表现较好的大盘价值风格为例，观察其绝对比例的截面排名，结果如图12所示。从图中我们可以看出，从2023年下半年以来，该风格的排名显著上升，基本都位于多头端。（注：这里大盘价值和Wind编制的大盘价值不一样，这里的选股范围相对更宽）

2.3、风格优选：深度学习综合方案

进一步，我们将指数因子维度和股票因子维度相结合。其中，指数因子维度空头端负向剔除能力突出，股票因子维度多头端优选能力突出，因此我们采取如下方案：首先使用指数Tramsformer因子剔除排名后1/4的风格，再在剩下的风格指数池中利用股票Tramsformer因子聚合至指数的绝对比例优选N个风格。随着N的增加，年化收益和收益波动比的敏感性分析如图13所示。

从图13可以看出，随着N的增加，年化收益整体呈现单调递减趋势，收益波动比整体呈现震荡下行趋势，在N=2时绩效相对较优，净值曲线如图14所示。

强化学习维度下的风格选择

对于量化策略而言，其中一大类即跟随性策略，该策略的优点即简单易操作，但存在一定程度滞后性。如果我们能够找到有获取超额能力、每日及时根据市场行情更新观点，并且把收益最大化作为唯一目标的主体，跟随这类主体进行操作或许是不错的选择。在本文该部分，我们尝试使用强化学习，将风格指数作为可交易的标的，训练出可自动根据行情交易的智能体，并跟随其调仓动向进行风格的选择。

3.1、 PPO和SAC优选对比

对于强化学习而言，算法目前也较多，这里我们选取使用相对较多的两种方法：PPO和SAC，并对结果进行了对比。二者本质都属于AC范畴，其中PPO是OnLine学习模式，SAC为OffLine学习模式。

对于强化学习输入端，常见的方式有两种：1、直接放入处理好的量价或财务指标；2、先过一道预测收益的深度学习网络，提取出有效的隐藏层后，将隐藏层当作输入端。本文采取后者，让强化学习在训练初期就拿到相对更有信息含量和更小噪音的训练数据。具体而言，我们使用Transformer模型进行风格指数短周期(1日)和长周期(5日)的预测，并将短、长周期的隐藏层合并后输入强化学习模型。

对于PPO和SAC两种算法，优选风格样本外的日度超额净值如图17所示，SAC算法的效果优于PPO算法。

3.2、基于SAC的月度风格选择

在3.1节中，我们进行了日度层面的风格选择，SAC方法的效果较好。但是日度的风格选择较难应用到实操层面，调仓较为频繁。一般来说，风格轮动以月频调仓相对更可落地一些，但是SAC方法在月频的训练结果一般，样本量较少导致收敛较难以及稳定性较差。

综合考虑，最终我们采取的方式为：将每日风格持仓的变动滚动N日取平均，当作月底的强化学习风格SAC因子。其4分组年化收益随着滚动天数N的敏感性测试如表2所示。通过表2的测算，我们可以看出N=20时多头绩效最优，且分组较为单调，最终我们把参数N定为20。

进一步地，对于N=20的月度强化学习风格SAC因子，我们测试了不同风格优选个数下的年化收益和收益波动比。由于深度学习中指数Transformer因子空头负向剔除效果较好，所以这里在优选时也首先将指数Tramsformer因子排名后1/4的风格剔除，具体情况如图18所示。随着优选风格个数的增加，年化收益整体呈现单调递减趋势，收益波动比先下降后上升，在10左右绩效相对较优，净值曲线如图19所示。

基于风格优选的多策略融合实践

通过第二部分和第三部分的讨论，我们能够得到两套风格判断体系，第一种深度学习方法为：将指数Transformer因子尾部1/4先剔除，再利用个股Transformer因子聚合至指数的绝对比例来选择；第二种强化学习方法为：将指数Transformer因子尾部1/4先剔除，再使用月度强化学习风格SAC因子优选风格。

通过测算我们发现，深度学习方法在极端多头处效果较好，最终选取2个风格；强化学习方法在极端多头处虽然年化收益还可以，但是波动较大导致收益波动比较低，最终选取10个风格。两种方式下的超额风格等权的绩效对比如表3所示。

通过表3我们能够发现，强化学习优选稳定性明显高于深度学习优选，所以在多策略融合时，本文采取的是强化学习为主、深度学习为辅的方式。具体做法如下：

1、在强化学习优选的10种风格中，每种风格选取股票Transformer因子值较大的100只个股，取并集，得到股票池A，并统计每只个股出现的次数，得到A_count序列；

2、若股票池A中有股票位于深度学习优选的2种风格中，则在原始计数上加上A_count中位数的lambda倍，得到A_count_adjust序列；

3、选取A_count_adjust序列靠前的100只个股，若出现两只股票排序相同的情况，优先选择股票Transformer因子值较大那只。我们将该100只个股形成的股票池记为Transformer优选100。

在上述的步骤中，存在参数lambda，我们对其进行参数敏感性分析，在0~1的变化过程中，Transformer优选100的收益波动比变化如图20所示。从图20中我们可以看出lambda在0.2~0.5存在相对较稳定的平台域，最终选择lambda为1/3。Transformer优选100与Transformer100的净值对比如图21所示，收益波动比从0.94提升至1.47。