对话长城基金雷俊:量化科技在创业板中的实战应用 | 今日主咖

对话长城基金雷俊:量化科技在创业板中的实战应用 | 今日主咖
2020年05月30日 18:19 新浪财经-自媒体综合

基金经理PK:董承非、傅鹏博、朱少醒、刘彦春等,谁更值得托付?】买基金就是选基金经理,什么样的基金经理值得托付?哪些基金经理值得你托付?怎么才能选到好的基金经理呢?2020金麒麟最佳基金经理评选,快给你心仪的基金经理投票吧!【投票

来源:国泰君安证券研究

雷总从买方的角度,如何看待创业板的投资价值?

雷俊(长城基金量化投资部总经理):

我们创业板的产品在2019年1月29号成立,到现在为止大约是23%的超额收益。这中间当然有很多的市场行情的波动,尤其最近的波动也比较大。

但我本人的整体观点偏向乐观。创业板的核心股票是医药和TMT。这两个板块在疫情期间受到的影响相对较低,甚至有些公司还取得了非常好的业绩。

此外,根据我十几年的投资和研究经验来看,市场的走势主要受到四个方面因素的影响:

1、货币政策

2、政策和监管

3、资金流向

4、企业内生增长,盈利、EPS等等

这四个方面如果能形成一个共振,往往对应着一波大的牛市,比如06-07年、09年,以及13-15年的牛市。

根据现在的情况,前三个都呈现出积极的态势。所以我觉得至少对创业板而言,情况没有大家想象的那么糟糕。

陈奥林:从过去两年的历史业绩看,长城基金的创业版增长明显,每年基本可以得到稳定的20%以上的收益增长。

那么长城基金是如何得到这20%的一个量化收益的呢,即稳定增强收益的来源到底是什么?

雷俊:

讲完市场,我也和大家分享一下长城基金在量化科技投资上的心得。最近有一个趋势,就是很多金融公司的定位渐渐转变成“数据驱动”。

我们团队从成立以来一直坚持做“数据驱动下的科学投资”。一个大的模型是Data-knowledge-Model的框架,最后落地形成产品呈现给我们的投资者。

首先是数据。我们的关注范围会比散户投资者的关注更加广泛,除K线、财务业绩数据,还包括更深层次的各种深层次数据等等。

如何从基础的表征构建出有用的知识是量化投资中非常重要的一环。

比如很多基金经理都会说,我们应该去买便宜的股票。什么叫便宜?一般市盈率比较低或者市净率比较低就是便宜。从市盈率比较低,总结出便宜的股票可以买,这就是一种知识。

这种知识在我们定量的投资中形成了因子。只不过我们要在这个知识的基础上再分析得深入一些,不仅要看如何挑选便宜的股票,还要去看能以多大的概率稳定地战胜市场。

最后到模型层面上,我们挑选一些因子整合成一个有效的模型,用这个模型挑选出更有区分度的股票。

从收益角度,创业板指数11年以来的收益,要略高于沪深300;但是从波动率来看,整个波动率超过了30%,还是非常大的。所以长期来看,创业板是一个波动大,但是收益率较好的板块,也体现出成长性行业在一个长周期投资中的作用。

在这个基础上,我们应该做的是设计出一个能够满足投资者偏好的产品,帮助客户在特定风险暴露的基础上,获得更多的超额收益。

从去年的行情中,我们设计的增强型产品也获得了非常正向的反馈。我们大概超过了同期业绩基准的20%,整体收益率大概在8%左右,以上是我们量化科技从服务投资者角度去做产品设计,以及整体运作的情况。

王卫林(长城基金量化投资部基金经理):

刚刚雷总从宏观和策略角度对创业板指数给大家做了一个介绍。这个产品确实自成立以来,业绩表现确实有目共睹。

大家都知道,量化产品与主动产品很大的区别在于它背后是一个个具体的量化投资策略方式在运作,而一个好的策略背后需要一个好的量化实验平台来支撑。

我跟雷总到长城基金的第一件事情,就是结合我们过去的十几年的投资和管理经验,花费大量时间,自主开发了我们自有的量化服务平台。

以互联网公司为例,我把我们的平台架构整体分为三部分:后端、前端和交易。

1、后端。后端是底层的数据源,我们采购了一些外部的数据,比如万得、朝阳永续,以及一些在互联网上采购的开源数据。然后对这些基础数据进行ETL处理后构成长城的自有量化数据库。

每个成员本地会有一个数据库,然后我们要在基础数据的架构上定义一些因子,因子和同行可能没有太大差异,所以我们主要根据Barra对因子的分类,定义了一些因子数据的储存接口。

这样做的好处是大家的开发都直接基于因子,不用去跟数据库交互。我们的因子整体有10个大类别,新的因子也会归入相应的因子模块中。

在因子层之上,我们会做一些回测引擎。根据不同的研究目的,分为4个回测引擎:

第一个是因子回测引擎,用于做因子有效性分析;第二个是多因子,它会对应单一的基础之上去做规则模型。这两个引擎目前应用较多。另外两个,一个是择时,一个是风格轮动。

1、前端。前端是我们日常工作中用来监控策略、模型、基金企业组合表现的工具。前端用JS语言来编写,并且分为7个模块。

第一个是策略跟踪模块,用于跟踪我们平时的策略表现;第二个是因子跟踪模块,用来跟踪我们因子库里面每天每月每日表现不一致的因子;第三个模块是事件研究,用来辅助我们的传统策略;第四个模块是择时策略,里面放了我们每日对市场判断的一个信号;第五个模块功能是做归因分析,对策略也好,模型也好,它到底是赚什么钱,做了一个分析;第六个模块是组合管理,需要结合到实际基金运作中的一些情况。第七个模块是关于人工智能,我们目前正在学习和储备阶段。

2、交易。交易是我们实际投资管理中正在使用的,这块也分为几个小块。

第一个是Alpha模型,放一些比较好的可以用于市场的策略;第二个是风险模型,来控制组合敞口、设置偏离的一些东西;第三个是交易成本模型,主要用来控制策略、考换手率的一些情况。

陈奥林:未来整个人工智能是一个大的趋势,但是人工智能的核心并不在算法,而在于它背后的数据。涂总在整个的非标数据标准化,也就是在另类数据的采集这方面非常深有造诣。

在过去的5年和未来5年,也就是说在最近的十年里,数据层面有哪些新的发现,以及未来有哪些新的产品即将出来,大的趋势是什么样。

涂鉴彧(妙盈科技创始人&CEO):

现在交易所都在做数据化的转型,而传统的金融数据是远远不够的,所以一定要走到金融数据之外,这就一定要依托人工智能。

在商业AI方面,我们妙盈科技非常注重对文本的处理,这里核心的技术就是自然语言处理。对于金融领域的自然语言处理来说,最需要的是什么?

第一个就是在大量的文本中识别出真正的实体以及实体之间的关系。公司a被公司b投了,这是一个被动关系。a和b中间就有一个主题提取,即投资,而让机器去理解这个关系是比较麻烦的,因为这个“投”字可以是投篮也可以是投资。

第二个是图片视觉。

另类数据产业对图片的处理非常重要,而图片处理又分为两个维度:第一个维度是简单地把文本从图片里面提出来,从而能读取到更多的内容。比如中国政府网站上的数据,是扫描的图片格式。这里用到OCR技术从图片提出相关的文本信息,并且将其结构化。

在第二个维度,真正的图像信息对实体经济的映射和印证也是非常有用的:

首先,在金融角度,很多行业相关的数据都已经数字化,它们能体现出很多先于市场的信号。很多的量化因子是基于由公司披露与官方的财务指标文件,这些披露是非常重要的;

第二个是定向网站的信息提取,买方卖方分析师在寻找数据时都会去不同的行业网站定向提取这些数据;

第三是新闻与社交媒体的运用。

不同批的数据的频次、覆盖率和可信度都是不同的。

公司的披露与官方文件往往最可信,但是凡事都有两面性,越可信、越精确,频次也越低,所以公司披露与官方文件对高频交易的策略来说其实并不是很重要。

定向网站的信息提取处于中间,它的频次比公司披露更加频繁,并且带一定的权威性,但是没有经过定向的审计。

第三个媒体的信息可信度最低,他们没有经过相关的程序,但及时性非常的高。

所以在实战中也要对数据进行筛选和验真。

去年高盛用我们在环境社会和公司治理方面的数据对中国进行了分析,发现中国公司对社会责任的报告非常不全面。所以如果要看公司的社会责任,一定要从刚刚提供的官方文件、定向网站、媒体三个方面逐一分析,去看另类数据。

现在实战中越来越多的用到卫星图片,比如我们分析了疫情对中国经济有多深的影响,分析一些公司真正的复工率和开工率。我们通过卫星图片,将公司的厂房与周边发生的热度对比,因为公司用电量越高相应的热度也越高。

>>>参见国泰君安此前的卫星数据报告

《用两组卫星数据,交叉验证海外经济活动的真实现状》

《“空中调研”长三角,用卫星数据验证新老基建的复工速度有多超预期》

《用高清卫星影像,看雄安、通州的基建项目进展有多超预期?》

卫星可以全天候进行很多宏观数据的提取,的确是很好的数据来源,但卫星的频次和精度也是它的弱点。一颗公共卫星覆盖某个地段,往往需要3~4天。如果提高频次,比如一些大气卫星每天覆盖一个地方至少一遍,那么它携带摄像机的精度往往又会下降。

我再讲一下数据逻辑,雷总提到了他们看到的数据、模型和最后的结果都是不一样的。我们的数据也分了4层,数据和信息是不一样的,信息和知识是不一样的,知识和智能又是不一样。

在网站或者文档上看到的东西就是数据,但他们不是信息,因为信息要结构化。比如江淮汽车受罚,这是一篇新闻,是数据。但在提取出来时,如果能分清主语是江淮汽车,它是被罚,这就是一条信息。

信息只有成为一个体系才能叫做知识,所以我们也自建了数据库,架构了对中国投资领域的知识图谱。这个社会是有蝴蝶效应的,特斯拉在上海建厂对未来比亚迪汽车也会有影戏那个,所以不能单单看一小块信息,而是整个知识体系。

最后知识体系的形成了之后,作为数据提供商,要做很多决策系统和可视化,让投资人能很快地利用这些数据做出分析、得出结论。

陈奥林:基于涂总在海外的一些成熟的客户,他们是怎么用这些另类数据来进行投资的,有没有一些实战的方向?

涂鉴彧:

在香港以及海外市场,大家对另类数据的应用主要分两种,一种是收益型的,一种是风险型的。

第一种就是很多基于收益的策略,它们往往是一些主动的基金,拿大量的数据和因子来进行测试,然后去看它的跟收益的相关性以及有效性。这与长城这边也十分的相似。

第二种是基于风险的,很多的客户在用各种各样的风险点进行风险的监测和追踪,进行每一天的实时更新。

陈奥林:非常感谢涂总。

最后总结一下,其实创业板长期是有投资价值的,也介绍了长城背后的量化科技平台的具体模块功能,和日常工作流程中的运作方式,这可以让发夹更好地理解为什么这个那个产品能够得到稳定的收益。

最后涂总就数据的层面,从海外另类数据的角度进行了更深度的讲解,让我们更多地去了解这个那个产品,有哪些最新的数据产品的推出,以及数据层面的具体框架。

有了这些数据,未来整个量化投资的过程中,才可以持续地去演绎、推进。

以上内容节选自相关在线路演的文字纪要,具体分析内容(包括风险提示等)请详见完整版会议内容。若因对速记的摘编产生歧义,应以完整版会议内容为准。

免责声明:自媒体综合提供的内容均源自自媒体,版权归原作者所有,转载请联系原作者并获许可。文章观点仅代表作者本人,不代表新浪立场。若内容涉及投资建议,仅供参考勿作为投资依据。投资有风险,入市需谨慎。

海量资讯、精准解读,尽在新浪财经APP
量化科技 长城基金

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

7X24小时

  • 06-08 聚合顺 605166 7.05
  • 06-05 金宏气体 688106 --
  • 06-03 博汇科技 688004 --
  • 06-03 酷特智能 300840 --
  • 06-01 中天精装 002989 24.52
  • 股市直播

    • 图文直播间
    • 视频直播间