AI大赛答辩之李汪志文:营收预测应注重所处行业特点

AI大赛答辩之李汪志文:营收预测应注重所处行业特点
2018年08月29日 10:25 新浪财经

  新浪财经讯 8月29日,由中国证券投资基金业协会金融科技专业委员会联合易方达基金、华夏基金、阿里云、通联数据等举办,新浪财经独家媒体支持的“FDDC2018全球金融数据探索与发现大赛答辩会”在北京金融街威斯汀大酒举行。本次大赛有两大赛题,分别为“A股上市公司营业收入预测”与“A股上市公司公告信息抽取”。

  在营收预测赛题答辩中,复赛排名第三名的“智能金融”战队李汪志文认为,每个行业都有自身特点,做营收预测模型时应当分别看待。比如,对民航机场板块的上市公司,国际油价、旅客和货物吞吐量就是关键点。

  李汪志文表示,自己的模型有着一定的创新性,例如,使用了比例推测的方式填充缺失值,滑窗的方式增加数据量,使用GBDT(机器学习算法)构造组合特征,进行深度学习。

  据了解,“智能金融”战队为李汪志文一人组成的团队,现就读于北京邮电大学,电子与通信工程专业。

  以下是文字实录:

  智能金融

  李汪志文:各位评委大家上午好!我的团队名称是智能金融。

  我来自北京邮电大学,数据挖掘,我们的口号是金融+。我主要做AI医疗等等,在天池榜排第一。想要学习各个领域新的知识,所以我们参加了这个金融的比赛。

  我在以下五方面进行汇报,首先是赛题分析。

  前面的背景与意义,准确预测公司营业收入成为投资者的重要的关键点,金融数据是多维度的,我们要借助算法的力量来解决这个问题。

  本次比赛的题目,我这里不陈述了。

  我的主要框架是数据是利用到了资产负债表、利润表、现金流量表,包含工商业、金融业,宏观经济数据包含GDP、CPI,行业数据是行业的发展态势,我们对于公司经营数据进行具体分析。我们的算法特征是构造了一些新的特征,我们使用了滑窗法添加了一些数据量。在使用特征筛选的方式,进行筛选特征。我们使用的算法主要是一些树模型和深度学习模型。我们的评价使用了3折交叉验证的模式进行了评价。我们如果预测出来营业收入,我们就在应用的时候对公司的预算做规划以及一些智能投资。

  特征工程,缺失值处理,我们需要去除无意义的描述性特征,比如自增长ID等等。还有去除缺失值大于90%的特征作为初步的筛选。填充我们这里使用比例推测的方式进行填充,比如说2018年第一季度值缺失,我们就可以通过2016年和2015年的比例,以及2017年和2016年的比例,推测出2018年和2017年的比例,就可以得出2018年第一季度的值,去填充我们的缺失值。

  构造特征,比如说对于营业收入它已有的就是第一季度、第三季度、半年报、全年报,我们可以算出第二季度与第三季度下半年的营业收入,我们再构造一些同比特征和环比特征。

  每个公司的经营状态是不一样的,我们分了具体的公司来进行处理。比如说一些机场它可能是对油价以及旅客吞吐量的营业收入的影响很大,所以我们构造了这样一个特征,就是吞吐量越高,油价越低,相对于它的营业收入可能更高,我们做同比。对于房地产来说,对土地签约面积对土地有很大的影响。还有高速集团,车流量对他们的影响很大。

  下面我们使用了滑窗的方式对我们的数据量进行扩大,滑窗的窗口通过交叉验证来得到的。当窗口为五个的时候,我们交叉验证的得分是最高的,所以我们选择了5。选择五个窗口的时候,我们的数据量扩大为原来的5倍了,就是说数据量越大的话,我们得到的交叉验证的分数会越高。

  特征筛选我用模型的方式来选择的,使得分数达到最高的一些特征作为我们最终训练的一些特征。

  模型的构建,我这里是使用了四个单位模型以及一个融合模型,结合各个算法的优缺点我们来设计一个窗口。

  首先我们是使用了GBDT+DNN算法,因为金融数据具有多重共线性、财务杠杆效应、资产负债表、利润表、现金流量表相互关联组合,有很多组合特征,需要统一分析。GBDT非常适合用来挖掘组合特征,省去人工构造组合特征的情况。

  比如有两个特征X1和X2,通过两个树模型之后,分别落到第一棵树的一级节点上和第二棵树的二级节点上,然后进行学习。

  我们还使用到了传感记忆模型,传感信息网络这个模型我只用到营业收入这个序列,序列的长度为17,这个模型对结果的波动性很大,但是它有时候会得到一个非常好的结果,这属于我们的一个单位模型。

  下面我们对我们的模型进行对比,我们最高的单模型是GBDT+DNN算法,它是最精确的,同时最稳定,我们对四个单位模型进行融合。

  特征重要性,这是我们根据模型和算法得出来的特征重要性。排名前几的是历史的营业收入以及他们的环比、同比的特征,排名在前几。还有股票市值同比值,也是排名第二重要的。还有一些行业特征,分成行业类别,一些类别特征也对我们重要性有影响。还有行业景气程度,就是这个行业在这个季度上的增长情况。还有一些利润表里面的关于这个公司的一些财务和管理费等等,对它有影响,但影响不大。还有一些宏观经济,就是GDP的同比增长,这个季度的同比增长等等有一些影响,但是并不是很大。还有一些其他特征。

  我们的总结,我们提升的方案使用比例推测的方式填充缺失值,这是我们分数提升1.6%,转化为线上的成绩大概提高了5名。我们通过滑窗的方式来增加数据量,使我们的分数提高了4.8%。我们使用了GBDT+DNN的方法,它适合组合特征的时候,提高的分数是最高的。

  我们的初赛成绩是0.582排名第四名,复赛成绩排名第三是0.467。初赛的是250个上市公司,复赛是550家上市公司。所以我们对初赛和复赛大概做加权,总共800家公司,我们的排名是0.5029,排名第一。我们的算法实用性就是初赛第四,复赛第三,总发布数得分排名第一,时间短,预测550家公司数据大概是2.8秒,我们的特征可解释性强,这是因为根据我们的特征重要性的排名做出来的。

  谢谢大家!

  主持人:感谢智能金融的分享,我们的评委团有没有什么想要对选手说的呢?

  葛志雄:我看到你参加很多比赛,问一个问题,你讲到你通过各种方法来提升你在比赛中的排名,有哪些方法是你觉得跟金融是相关的,显示独特的呢?跟其他比赛不同的?哪些是你为这个比赛单独设计的?稍微讲一下。

  李汪志文:我为这个比赛专注设计的就是使用组合特征,我上面讲了是GBDT+DNN的算法,金融数据给我们提供的三张表格是关联性特别大的,所以我们需要通过算法的方式来学习它的组合特征,这是我们有别于其他领域的。

  薛伟:我看到你做了很多的模型,也有比较多的尝试,我看到你讲到用外部数据,解释一下。

  李汪志文:没有用到外部数据。外部数据可能是很大的提分点,就是为我们扩充公司经营数据,再增加一叶公司的经营数据的话,那会对我们的成绩有很大的提高。

  薛伟:这次比赛提供了一些公司的经营数据。

  李汪志文:比较少。就这里,用得相对少一点。

  主持人:那让我们用热烈的掌声感谢智能金融为我们带来精彩的分享。接下来进入到复赛排名第2的战队Quant duet为我们做赛题陈述。有请!

责任编辑:常福强

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

7X24小时

Array
Array

股市直播

  • 图文直播间
  • 视频直播间