纪青：机器学习赋能中证500指数增强|机器学习_新浪财经

会议：开源一席谈

日期：2024年8月22日

主办：开源证券金融工程魏建榕团队

主题：机器学习如何赋能中证500指数增强？

特邀嘉宾：纪青，富安达基金指数与量化投资部负责人、基金经理

对话实录：

傅开波：纪总，首先请介绍一下您的量化投资框架方法论。

纪青：首先，我们目前的整体框架是以机器学习为基础的量化多因子体系，从2021年起我们就在实盘中以机器学习算法逐步取代传统线性模型为增强产品来进行赋能，算是公募基金中比较早就引入机器学习模型的团队。同时，我们也是立足公募平台的研究优势，去进行数据、因子以及策略方面的深度挖掘。从公开数据的表现可以看到，在我们引入机器学习模型后，我们增强产品超额收益的表现和稳定性都是有比较明显的变化.而且在随后近三年中,我们整个机器学习的模型框架也在不断的迭代，在中间也积累了丰富的经验。我们的因子库，从大类上也兼顾了基本面和价量因子信息，覆盖到了估值，财务质量，价量、情绪等多类的底层指标。我们底层因子的筛选机制会将逻辑和历史回测表现来同时进行考量。所以模型所使用的因子的构造方式，我们还是以它的市场逻辑和经济含义为基础，而并不会单独只以因子历史的表现作为入选因子库的标准，从而去避免可能引发数据挖掘的风险。同时我们也会结合因子的表现，定期分析因子底层的逻辑是否已经发生了根本性的变化，来评估因子在库内的存续价值，防止过度调整因子库，引入被情绪所引导的非理性判断风险。而在风险的控制层面，我们是在Barra商业风险模型的基础上，做了进一步的因子风险评估。我们会根据这个风格因子收益的长期表现和它的稳定性，再去界定重要的风险因子。对评估为风险类的风格因子，我们会在优化的过程中做相对严格的暴露控制。比如说，规模因子在我们的系统中一直被界定成风险因子的，所以在优化的过程中是受到非常严格的风险暴露控制。所以我们的超额收益从组合层面上来说基本上没有小盘风格的收益贡献。这就是我们整体的量化组合框架。

傅开波：刚刚您也介绍到机器学习在量化投资中的应用，很多投资者对量化中机器学习/深度学习的应用还是较为模糊的，能否请用些例子再详细介绍一下，机器学习模型在量化投资中的应用及效果？

纪青：首先关于机器学习如何运用到量化投资中，我们是从传统线性多因子模型过渡而来，这个过程是比较自然的。因为从更广义的角度，传统线性多因子模型也是属于机器学习的范畴。本质上来说，机器学习就是以合适的模型来学习某种客观存在的规律，特别是一些通过简单模型无法去精准描述和反应的规律。所以当量化产品在做进行大规模扩容的时候，我们在2019年开始就观察到传统的线性模型没有办法比较好的去捕捉金融市场的定价规律了，我们开始尝试采用结构复杂度更高、更贴合市场本身运行规律、同时也是经过数据验证的其他模型来进行替代。而机器学习模型相对传统模型最大的优势，我认为是在于它对非线性关系信息的挖掘上面，它本身更符合金融市场本身体系的复杂性。而且随着金融量化领域可获得的数据是越来越丰富的，机器学习可以更好地发挥它处理大样本的优势，不断丰富有利于我们做有效定价的因子数据。利用它本身的结构优势可以比较好的处理传统线性模型的一些因子共线性问题，以及我认为是特别难处理的因子赋权问题。而在产品实际运用过程中，我们也确实观察到机器学习模型不会过于依赖一些单因子的表现，从而比较好避免因子拥挤带来的一些风险。

傅开波：一般业内主要使用纯量价的数据来训练机器学习模型来挖掘因子，请问您主要会用到什么类型的数据去对机器学习模型进行训练?

纪青：刚刚也提到了像我们的因子库是从大类上兼顾了基本面和价量的因子信息，我觉得这也是我们比较重要的一个特点。我们虽然整体是机器学习的框架，但我们的输入端并不是纯价量的数据，这样的模型结构也让我们在今年几波价量因子的大幅波动和回撤中避免陷入踩踏的风险，可以观察到我们的超额收益也保持比较稳定表现。但是价量因子作为长期以来确实是有效性非常好的因子群体，它也是我们底层因子中非常重要的组成部分，所以在2022和2023年价量因子表现比较好的这两年中我们的超额收益也是有所体现。所以可以说我们找到了一种机器学习的训练框架，可以比较好的融合和均衡基本面以及价量信息。另外，我们也在尝试不断去丰富我们因子层面的增量信息，比如说引入一些产业层面的信息，还有新闻层面的一些另类数据信息。但是我们也观察到这方面的因子信息挖掘的难度相比上一些传统的因子是比较大的。这当中可能一方面是反映了另类数据移植到金融市场中，相比之前的标准化数据，它具备了更低的信噪比。另外一方面其实也对我们去使用这类信息的处理方式，或者说是因子构造的方式提出了更高的要求。

傅开波：很多人对机器学习、深度学习等前沿性模型还是存在一定偏见的，认为这些模型纯用数据驱动，可解释性以及逻辑性很低，样本外不稳定等，请问在实际的应用中，如何处理模型失效，以及如何及时修正调整模型呢？

纪青：相比传统线性模型上来说，机器学习确实存在可解释性上的问题。比如说在非线性结构下，我们去做因子归因就是一件从解释性上来讲是比较困难的事情。但是我觉得在人工智能领域，我们的应用，其实一直是走在学术前面的。那金融市场它的定价本身就是一个非常复杂的决策体系下面所得到的结果。作为从业者，我们近些年的感受就是，在这个复杂体系下，我们市场运行本身的复杂度就是不断提升的。过去的偏单一或者简单的这种逻辑分析体系是越来越容易失效的。所以我认为金融资产的定价问题和机器学习模型本身的复杂度是可以相匹配的。那关于样本外不稳定这个问题，我觉得是因人或者是因模型而异的。首先，在人工智能模型的比较中，我们就发现并不是越复杂就越有效。在我们自己的因子结构下去选择相对合适的模型，我觉得应该是更为重要的。那关于实盘模型失效的问题，虽然我们目前还没有碰到，但我们也在持续做相关的一些应对措施的准备。比如说，我们会进一步的去拓宽我们的策略类型，比如说我们最近也在做深度学习模型样本外的跟踪和优化。我认为多策略的框架应该是对抗风险和波动的最有效同时也是最理性的方式。

傅开波：2024年以来量化私募在监管趋严等因素影响下，规模及策略遭遇了非常大的挑战，不少量化私募也在降频，提升中低频策略的比重。请问今年以来的各项监管措施，是如何看待的，这对您模型有何影响？

纪青：首先，今年以来各项监管措施确实对以价量因子为主的量化策略，特别是高频价量因子为主的量化策略有比较大的影响。这一部分的群体其实主要是以量化私募为主，所以我们可以看到很多量化私募一方面在提升选股域市值的门槛，一方面在提升中低频策略在整体策略中的比重来适应目前的监管环境。作为公募量化团队，我们的量化策略一直以来主要的对标领域就是中低频策略。而且从产品本身的约束来说，我们绝大多数的持仓都属于成分内的选股，再叠加到刚刚我们提到对于市值因子严格的风险敞口暴露的控制，因此我们的模型基本上是没有受到刚刚提及的政策影响的。而且我们在非高频价量因子赛道已经实践了很多年，也践行出了相对稳定的结合基本面和价量因子的量化选股体系。特别是作为比较早就切入人工智能赛道的公募团队，我们既可以利用公募平台研究积累的优势去挖掘一些深度性的因子，也可以利用机器学习等模型获得有效的信息。而且在我们的体系下对市值风格和行业偏好是没有依赖性的，更注重alpha因子的中长期的累积效应。所以从这一点上来说，我认为就是公募量化和私募量化在超额收益端，已经出现比较明显的收敛化表现。这一点从净值表现也是可以反映出来的。

傅开波：2024年以来中证500指数在主要的宽基指数中，受到的关注度是相对较弱的。中证500指数您认为其特点和优势，主要体现在哪儿？

纪青：刚刚开波也提到就是今年以来由于市场结构化表现的特殊性，表现相对比较突出的、市场上关度比较高的，是一些红利、价值、低波或者偏大盘风格为代表的一些指数产品。比如说像红利相关的一些指数，或者沪深300指数的宽基指数等等。而中证500因为它整体成分股构成是以中盘股为主，而且在行业分布上相对来说比较分散。在金融板块方面比重不是很高，虽然没有像小盘，宽基类指数调整那么多，但是确实今年以来整体的beta上的表现是偏中庸的、偏弱一些，这和今年整体极致的结构化分化的表现有关。但是中证500作为宽基指数，整个市场上的配置规模是仅次于沪深300指数，所以它的配置性需求也是不容忽视的。作为中盘股的代表，它的编制规则：1）在样本空间中剔除沪深 300 指数样本以及过去一年日均总市值排名前 300 的证券；2）对样本空间内剩余证券按照过去一年日均成交金额由高到低排名，剔除排名后 20%的证券；3）将剩余证券按照过去一年日均总市值由高到低进行排名，选取排名前500的证券作为指数样本。所以它从市值规模上来说并不算小。其中它也会在电子、通信、计算机，电芯科技和高端制造这些相关领域的覆盖度其实并不低。相对以金融和消费板块为主的沪深300指数来说，中证500在配置上有比较好的互补性。同时，它在价值和成长维度也是有比较好的均衡性。另外，从beta角度来说，经过长时间的调整，中证500指数的市盈率其是处于过去十年的9%的分位点,市净率是处于过去十年的0.39%，基本上处于十年来的一个最低水平（数据来源：WIND数据，截至2024年8月19日）。所以从当前的安全边际的角度上来说，已经是比较理想的水平了。从alpha度来说，相对于沪深300指数，中证500指数在做增强类策略的时候，因为它本身的结构，它的超额收益获取相对来说表现更明显。从我们实践来讲，特别是近一年，由于小盘因子的一些调整，和中证1000、中证2000等等这些指数相比，在中证500中我们获取超额收益的难度也是在收敛的。所以对于中证500指增产品，结合它的beta和alpha，我觉得在整体的宽基指数中是有它的一些特点和优势的。

傅开波：近年来权益类公募产品举步维艰，指数类产品相较于主动权益基金而言不管是规模增速还是业绩，近年来无疑更好。您是如何看待指数类（包括指数增强产品）未来在公募中的发展？

纪青：确实近年来指数类产品是公募权益类产品中规模增量的重要力量，我认为一方面是源于在基金重仓股整体表现偏弱的环境下，主要的宽基指数整体的表现会优于主动权益型基金。同时它在费率端又有相对显著的优势，所以它的整个市场认可度是相对大幅提高的。另一方面，由于指数类产品本身结构清晰而且风格明确，并且相对稳定，它会更加匹配配置型需求的一些资金。这其中指数增强类产品在获取对应指数的beta收益之外，我们还会预期额外获取alpha收益。再叠加近年来指数预期收益率的弹性是有所收缩这样的背景，我们指数增强类产品的获取超额收益的优势也是在逐渐显现的。随着市场的不断的进步和发展，我觉得无论是机构还是普通投资者，根据不同资金的风险偏好和投资回报的目标去合理配置资金的需求是在不断上升的。而在这种资产配置的思路下，指数类产品作为相应的资产类别中可以利用到的标准化工具型产品，我认为在未来公募产品中的占比仍然是会不断提升的。这一点其实和相对成熟的海外市场的发展路径是相一致的。

傅开波：请介绍一下富安达基金量化团队的情况及产品线的布局特点。

纪青：富安达基金的量化团队，我们现在主要成员有四个人。我们分别毕业于同济大学、上海交通大学、哥伦比亚大学和约翰霍普金斯大学。我们整个研究方向会覆盖到金融数学、物理学、金融工程和人工智能等等。我们整个团队的打磨时间超过七年，可以看到是比较典型的金融和数理交叉的复合专业背景。我们指数与量化方向的产品线目前主要是分两大部分，一个是指数增强类产品线，我们是以业绩验证期比较久的富安达中证500指数增强基金为代表。同时，我们也刚刚获批了沪深300指数增强基金，后期也会发行。另一部分是我们的主动量化产品线，是以去年发行的富安达智优量化选股基金为代表的，我们这个产品对标的群组就是主动权益型的资金。所以我们整个量化策略都是建立在机器学习的选股框架之上，随着我们整体业绩的不断打磨和经验的累积，也是希望能够为不同的资金配置需求去提供专业、完备的一个量化产品的工具箱。

（全文结束）

（纪要整理：傅绎达）

风险提示：上述内容和意见仅作为客户服务信息，并非为投资者提供对市场走势、个股和基金进行投资决策的参考。本公司对这些信息的完整性和准确性不作任何保证，也不保证有关观点或分析判断不发生变化或更新，不代表本公司或者其他关联机构的正式观点。历史业绩不代表未来收益，基金投资需谨慎。

做「开源」的量化研究

to be a quant，to be open-minded.

更多交流，欢迎联系：

开源证券金融工程团队 | 魏建榕张翔傅开波高鹏苏俊豪胡亮勇王志豪盛少成苏良何申昊陈威蒋韬