圆桌论坛：智能投资行业“未来”开拓者的思维碰撞_新浪财经

　　新浪财经讯由中国证券投资基金业协会金融科技专业委员会主办，易方达基金、华夏基金、通联数据、阿里云、新智元等协办，新浪财经独家媒体支持的“2018全球智能投资峰会”于8月30日（周四）08：30-18：00在北京金融街威斯汀大酒举办。本次峰会的主题为“聚·变”。

　　本届峰会以大数据、人工智能等前沿技术在金融行业的应用为主线，涵盖金融科技、智能投资等热点话题。峰会召开的同时将现场揭晓委员会主办的全球金融数据探索与发现大赛（FinancialData Discovery Competition，以下简称FDDC大赛）获奖者，并邀请全球人工智能专家、FDDC大赛导师和获奖者进行互动交流。

　　圆桌论坛环节，大赛导师评委上海龙之量投资管理公司执行董事总经理王继忠、通联数据算法总监薛伟、芝加哥大学布斯商学院教授丛林，以及获奖团队代表等就智能投资行业未来的发展进行了探讨。

　　王继忠指出，本次大赛的优秀团队以及作品，在理念、创新性、实用性等方面，取得了一定的成绩，但是也要看到，这只是智能投资发展的一小部分，仅仅是入门而已。比如，活动中，多数团队的数据运用仍然停留在一维的角度，少有二维方面的运用，更不要说三维及以上的视角了。所以，未来各个参赛队伍成员的路还有很长，需要开拓创新，不断进步。

　　以下是文字实录：

　　主持人：至此，我们FDDC2018全球金融数据探索与发现大赛的颁奖环节就全部结束了。接下来我们将要进入的是今天的Geektalk环节，我们的专家导师和获奖的算法精英能碰撞出什么样的火花呢？今天我们的Geektalk主题是：行业“未来”VS行业开拓者的思维碰撞。让我们有请出芝加哥大学布斯商学院教授丛林、上海龙之量投资管理公司执行董事总经理王继忠、通联数据算法总监薛伟及获奖团队代表冯霁、吴云上台，有请他们。

　　丛林：我们开始这样的环节。我是丛林，我在芝加哥商学院金融系，现在在做教授。今天很荣幸来到这边，也恭喜获奖的团队跟选手。我们这个环节主要是讨论一下，在金融科技和大数据发觉方面，应用在金融场景里面最新的一些发展和未来的一些展望，也跟王总还有在座获奖的选手进行交流。

　　主要是有三个题目，第一个题目是跟第一个赛题息息相关的，对上市公司营收预测做的分析。在这次大赛中，各位选手表现的都非常优异，并且主要是用主办方提供的一些数据做的预测，这个数据就包括了财务、宏观，还有公司一些行情，还有产业的行情数据。做一个这样的假设，如果我们开放标的并不限制数据范围的话，大家会去收集和获取什么样的数据？对这个表现的预测会有多大幅度的提高，还是说会有一些更新的、更多的一些洞察。这里我想可以请王总先跟大家分享一下。

　　王继忠：这是个展开的讨论，我先直接奔主题，这两天开了两天的会，大家对数据和场景谈的比较多。但大家谈到数据的时候，基本上还是一维和二维的比较多，基于点或者基于时间序列的图和架构，很多情况下没有触及到三维、四维、五维的数据。现在讲场景也很多，谈论的话基本也是二维的场景，真正的市场比大家想象的更加的复杂，可能是三维、四维、五维的场景，所以我们觉得多维场景是比它原来的场景更进化一步。

　　现在还有一个问题，真正叫做从Hipfang（音）角度来看，我们看的是叫做多维的策略场景。大家每天看的是股价或者是市场的波动，我们看到的背后是什么策略？什么因子在波动。对于我们来说，我们看到的是叫做多维的应用策略场景，这可能又跟开始的概念不一样。对于我们每天的工作来说，我们是在计算，在多维策略的场景下，哪些投资组合或者哪些因子Fanmoushen（音）最佳或者最高。这是我听完两天会以后，感觉到大家谈论了很多场景的应用、数据的应用，但是还是停留在一维和二维角度来讲。

　　举例，如果谈中石油，只谈到今天中石油的售价格，如果再加上过去一年的走势，再加上过去十年的季报财务数据，可能撑死还有一些文本语言，聊天室里边的股民或者是机构投资者又是怎么来评价的。仅此而已。但真正真实场景的中石油不是这样的，真正的中石油是A+H+USAV2（音），有三个标的在全球在交易，基于它现货的东西就是三个市场，同时它还有个股期权、个股期货，以及以现货为主导的信用类利率的衍生品，就是它的第二层面。

　　在美国可能还有二级档，基于中石油波动率的交易，像谷歌、雅虎、亚马逊，他们基于这些个股的波动率有二级档的交易，所以大家看到的中石油以为是简单的一维或二维的场景，但真实的场景，好比如说交易员这五年就交易中石油，他会把所有中石油的数据，可能一维、二维、三维，甚至四维的数据放在一个框架下去做研究。这就是说，可能跟现在的这道题完全不是一个层面的东西，所有的基金经理来面对这些数据的时候，他一个人或者是人本身的处理是根本不可能的，所以这时候要借助到AI的力量还完成交易。所以我觉得这里面能够把所有的多维策略应用场景里展现出来，尤其是以图的方式展现出来，我现在还没有看到任何一家的数据公司或者基金公司能够把它战时出来。好比如彭博全球最大的数据提供商，但不是全球最优秀的对冲基金，虽然拥有所有的数据，但还是无法处理。我想对选手来说，今天只是迈了第一步，真正的考验，将来面对市场的时候，你处理的东西可能跟你现在和今天回答的是不一样的。我先讲这么多。

　　丛林：非常好的分享。也是借着你这个方向去深挖，我们提高这个维度更多的分析。那我们有没有一些更新的另类的一些数据？大家可以想到的，虽然没有在比赛中体现出来，但是可以进一步探索的方向。

　　冯霁：我感觉是这样的，比如说，机器学习一句话是垃圾进、垃圾出，如果你输入的数据对你未来风格不大的话，是可能不预测准的。我个人理解对上市财报做预测，目的还是针对事件驱动性的交易。根据我对公司下一季度财报发布之前的预测，我来对公司的股价进行评估。我个人觉得这一个月之内什么数据没有的话，所谓财报式的交易，我个人觉得很多互联网公司可以用一些爬虫的技术来去获得互联网公司真实的日活，日均活跃用户的数目。通过这些比较真实的数据，来判断它下一季的财报到底是什么，恐怕也许对交易更有一些指导性的意义。如果基于这个思路来看，科技公司利用爬虫技术获得，这是很常见的一种思路，我相信应该有很多团队已经在做。

　　再有一些更悬乎点的，你通过租用商用卫星，来通过摇杆图像或者卫星图像，来判断某一个行业真实的运营能力。比如说航运或者海运，通过这种的方式或者通过摇杆的方式来数一个城市里头正在新建的房屋的数目，来估计房地产行业实时性的变化。这个当然我相信也是靠谱的。并不是非要用多高深的计算机技术，雇几个员工到厂子门口去抄进出的大卡车的数目，我觉得都是有助于预测财报。还是有句话，如果你认为什么数据对财报有关的都应该尝试着去获得。现在在计算机和信息时代也许获得这种数据比十年前或者二十年前更加的便捷。这是我大概理解的想法。

　　薛伟：我是通联数据的薛伟。从我的角度主要有两个方面，第一，首先这次比赛的第二道题目是为第一道题目服务的，传统的人工的方式去获取数据，就是人去把一篇几百页的报告看完了，人去把对应的数字抠出来录入到系统里去，这个事情实际上是可以让机器去做的。我们这些选手在短短三个月的时间已经做到70%的效果，我觉得已经接近于有一定财务知识的人工操作人员的水平，尤其是我们公司在这方面有很多的经验。我们平均是可以做到95，甚至更高的水平。我相信很快这样的数据提取，从文本层，甚至从表格，从图像提取数据的能力，很快机器是可以达到人的水平的，其实我们也遇到过这种事情。

　　一个数据你让人去标，不同的人长时间标下来的，大家不一致的地方还是很多的，这个也依赖于人的知识怎么怎么样。但是机器不一样，机器只要有好的数据把它教会了，它就能够持续、稳定的给你解决这个问题。有了机器我们可以广泛的获取更大范围的数据，未来可能不仅仅就是公告，所有互联网能够爬取到上百亿、上千亿的网页，这里面蕴含了大量的数据，还是其他的信息业好是非常多的。尤其我们做行业研究、做公司研究，这种特殊的数据或者某一类数据渴求是非常强烈的。

　　比如说，之前我记得有一个相关行业的朋友跟我讲，他是研究房地产的，然后在一个河北的官方网站上发布了拿地的信息，这对他是一个很大的利好。但是他没有办法一个人去关注官方的网站，数据的发布，这完全可以让机器来做。机器在大范围，并且我们现在也马上可以做到很高的准确率，我觉得这未来是非常有潜力，也非常有影响力的事情。这是数据获取的第一方面。

　　第二，之前大家聊了很多，但实际上实际应用并不是很多的就是情绪。基于我们的一些经验，我们是觉得这是有效的，不管是从新闻、从研究报告或者是从一些宏观的分析师的观点来提取他们的一些情绪信息，他们的一些观点，可能已经不仅仅是情绪了，也可能是非常具体的各个方面的观点。这些通过一些模型去做回测，实际上是对传统的模型是有帮助的。

　　我相信这两方面仅仅是一个起步，我觉得未来潜力是非常大的。

　　丛林：我非常同意薛伟刚刚跟大家分享的观点。我觉得这里面很重要的一点，提到了现在很多的方法让我们系统化的去分析各类的问题，而不是人工的去做一下分类，在金融里面还是很常见的。我用文本数据为例，早期的金融研究里边用IPO的公告或者是用市场的一些新闻来去探索投资者情绪的分析，大部分需要人工的去定义正面词汇、负面词汇等等，但是现在有很多的方法，数据驱动去大规模的提取信息。从某种角度来讲，不只是说数据源有很多的新的，哪怕是同样的数据源能不能有更好的更简化的方法在里面提取信息，正如你说是有很大的空间。

　　我们也都看到了，我们有很多扩展的空间，有很多另类的数据可以用来去分析金融市场，很自然的就遇到了第二个问题，很多方法和新的数据，AI在医疗、安防，比如图像语音识别上都有很多的进展突飞猛进，但是在金融领域的应用还是相对比较缓慢，比起其他的一些行业。这个里面究竟有哪些AI难以攻破的壁垒或者主要的挑战在哪里？为什么金融行业在AI应用方面会有一些独特的挑战？

　　吴云：抱歉，我想作为赛题一的选手想对第一个问题做补充。首先，我很赞同王总说的话，看金融数据不应该从过去一维角度去看，我平时在做投资研究的时候也时常提醒自己，不要在一维、二维世界看数据。举例，之前看到一句话印象特别的深刻，在四维世界里是没有死结的，一个问题如果在一维空间去看有可能找不到出路，如果在高维空间里去看有可能有不一样的发现。作为赛题一的选手，我想对赛题一做细节性的阐述，想分为四点。

　　第一，我们团队在外部数据使用上做了比较多的尝试。比赛一开始用了比较暴力的方式，把我们可以获取到所有的外部数据全部加了进来，所有的特征构建到一起，包括行业特征的话可能在几千个以上。但是在特征选择器里面很多特征没有选中，这也侧面反映出来如何挑选正面的特征是很难的。

　　第二，赛题有一个规定，选手使用外部数据截止时间是6月15号。如果我们想用二季度数据也只能用到6月15号为止，实际上就有15天的数据断层，无论我们团队是从断层上面考虑还是从投资的时间上来讲，我们是只把所有的数据引用到3月31号，没有在用之后的数据。在这一点上，我们在做实际投资的时候，我们那个投资的决定不一定是在3月31号时间点上来做的，我们可能会引用一些4月份或者是5月份或者是更往后的数据。如果在比赛当中加入这样的一些数据，比方说证券整体在4到6月行情数据下降的趋势，如果把数据加进去的话，最终的得分还会有进一步提升的。

　　丛林：更实时的数据。

　　吴云：对，因为投资不可能说只到那个时间节点，是可以往后用一点的。

　　第三，比赛一开始就问了各大券商的研究所，把研究所的朋友他们所追踪的特征库，我们去看了一下。我早上也说了，一个研究员跟踪的是一个行业里面的几个公司，实际上他们最终特征的范围也是在几千个以上，我们是没有人力针对行业维度把机器特征再放进来的。根本的问题是如何把这些优秀研究员，他们对于公司行业的理解融到特征库来。如果进来的话，最终我相信赛一选手的得分都会有比较大的提高。

　　第四，想从营收的本质来讲，营收的定义就是卖东西，卖东西得到的收入。实际上有些公司主营业务的收入，他卖的商品和价格是可以通过机器追踪的，如果能够用到爬虫把这些数据爬下来，这种公司的营收是可以准确预测的，但是缺失是在于你得一家一家公司去看。

　　丛林：布斯商学院也有一些研究人员是通过卫星图像，美国一些大型公司通过拍停车场的活动来预测公司接下来的业绩表现，都是非常好的分享。我们回到第二个问题，在金融里面究竟为什么很多方法的应用，还有最新的一些AI的工具应用会有一些局限？这个挑战究竟在哪里？很想听听大家的观点。我自己有一些想法，因为我是来自经济跟金融这个方向的，在座的各位可能更多来自于AI或者是数据挖掘这个方向。

　　王继忠：我来说一下。其实我觉得壁垒只是你未知这个问题是否已经解决，我觉得全世界的对冲基金有可能已经解决了，只是你还不知道，从来不会公布，在这个世界里边没有任何优先把超额收益，年化100%的收益告诉你，使你感觉到永远壁垒是没有冲突化的，但只是你自己的问题。对于我们自己来说，包括昨天讲了很多知识图谱，我觉得因为整个训练级的数据非常的有限，不能像Alpha Go zero一样好几千盘，因为真实的数据是有限的，不能用造假的数据。我们怎么做到优化？很简单把市场上聪明的投资者、优质投资者先赋予AI，而不是让他自己做无限制的模拟，他也没法真正的去学习。

　　如果21世纪最优秀的可能两个，一个是南非报业从李嘉诚手上把腾讯的股份买下来，那个时候的知识图谱，为什么会做这个决策？第二个是深圳一（音）跟马云见了之后立刻拍下来合作。所以他们那个时候的还原从文献、从回忆录找当时的逻辑。

　　第二，从市场上看到最优秀的投资者不限于A股所谓的巴菲特，我们说把市场上里面所有最优秀的投资者的知识图谱能刻画给机器，让他在目前的市场里边来运转。另外是借鉴其他领域，包括看很多选手的背景里边做过糖尿病的检测，做过牙科的，我觉得这个里面的发展远远超过其他的市场。这可能是从其他领域里边获得的灵感要远远大于金融市场本身进展给我们带来的灵感，所以我觉得这是我的一点感受。

　　丛林：您刚才提到很好的想法，我非常认同自然科学跟社会科学很大的区别，我们不能无限的去模拟。因为本身经济的环境也在变，而且缺少这种自然的实践。我们这边参赛选手是怎么样的想法？

　　冯霁：我觉得大概有三点。第一点是人才，在人工智能领域，这一代的人才大家去哪儿了？现在AI的独角兽再加上一些互联网科技公司，包括硅谷砸的钱是很多的。有一个学人工智能的博士生毕业之后已经能拿很多钱了，作为大部分的理工男来说还是偏保守，哎呀，旷世有这么多钱吗？我跑一个私募赔了怎么办？他们有非常保守的心态。再加上现在AI的人才缺口非常大，20个框只有1个人才培养出来，这样就造成现在在AI界的人才还没有，我认为未来3到5年会有变化，当人才过了就会往过流。第二，冰冻三尺非一日之寒，现在想让AI在金融界落地，像结构化抽取做好了才能做逻辑推理。第三，跟金融交易领域很特殊的是社区开放性，比如，我们看计算机视觉，计算机视觉在学术界非常活跃的，大家搞出来一个模型非常开心的就发论文，然后开源代码，告诉全世界人我到底是怎么做的。在金融领域非常少一些，很少靠这个挣钱的，一般大家都是不愿意说。因为这个社区的封闭性造成了这个信息流动比AI先落地的这些行业要慢很多，所以说大概我觉得主要是这三个原因。

　　丛林：我对第三点认同更高一点。第一点人才跟资源的错配是内生的环节，而且金融行业资源其实一直是很富饶的领域，当然肯定也是需要时间去演变。由于时间的关系我想直接讨论最后一个话题，也是蛮有趣的话题，无人车屡出事故，机器和金融的算法还是有它的局限的。我们怎么样去看待机器的错误？尤其是在金融这样的，它有一些系统性的风险，牵一发而动全身的行业，我们怎么样去相信这样一个机器的决定？来的路上看同事写的一篇文章在讲Uber乘车的共享，他的文章有一些人错误的解读说是不好的发展，因为增加了交通事故。比如说，在飞机被发明之前不会有飞行的事故，但是发展飞机是一个不好的发展，所以这里也希望大家对我们在AI方面的发展，还有这里面潜在的一些局限跟错误，我们应该怎么样去正确的解读？

　　薛伟：我觉得分几个层面去看，像刚才选手也讲到了，AI现在更多的是做解析、抽取，一些对智商要求比较低的事情，有了这个之后才能做知识图谱，逻辑的表示，推理。我觉得在最底层最基础的事情上，现在“机器+人工”来做的方式是没有任何问题的，机器辅助人工在做。在公司内部也有了非常好的一个应用的经验，像公告抽取或者是新闻抽取，以前可能三四个人负责一个类型或者负责一个文档，现在先让机器来做，最后它只需要一个人，这已经在节省人力了，而且这一块也不太涉及，错了也没有那么大的影响。

　　因为现在人工智能它还不是很擅长，比如说，知识图谱。虽然市面上每个人都在号称自己在做知识图谱，但是我们并没有见到应用很好的知识图谱。唯一觉得有应用比较好的可能像以前做搜索引擎的，像谷歌，像百度，你去搜一个电影名字，他会告诉你电影的导演是谁？演员是谁？他们还创作过哪些方面？可能知识图谱在这方面还算是有用的应用，它对搜索引擎的流量提升还是非常大的。但是对于金融领域，目前这方面见到的还是很少的，那就有一个问题是数据不全，另外一方面知识图谱这一块做的事情或者是大家静下心来去做还是比较少的。对于智商要求比较高，比较复杂逻辑的这种问题，可能要等一段时间再把这个事情交给机器去做，现在可能是一些更加基础的辅助工作。

　　王继忠：我再补充一点，无人驾驶汽车撞车那件事故，我们还认真研究过。核心的问题是倒车的情景是没有设计好，因为所有的场景都是基于车要前进或者停留或者左转或者右拐，但是在倒车情景里面没有设置清楚。所以第一赋予AI的情景分析是否完全把所有的情景覆盖？第二个问题是以前在量化里面讲的模型的风险，AI自己的本身模型有时候得到局部最优，但是没办法做到整体最优，如何去解决这个问题？第三个问题是沿袭上边的问题就是知识图谱，坏的都值得我们研究，金融市场上所有大的风险，像2012年的伦敦金，1998年的上津资本（音），每一个都是精英和诺贝尔奖，但他们为什么会犯错误？他们的知识图谱里边到底哪出了问题？包括伦敦金。伦敦金犯错误的原因都是我们看到的结果损失了56亿，真正核心犯错误的东西是没人去追究的。还有一个问题是95年的期权卖空交易，为什么会有这样的思路和思想？将来赋予你自己AI的模型，为什么你不会看错？这就是大家所有的选手将来在金融市场里面，无论是你用你自己的机器去战胜人，还是别人机器的时候，这是你最核心的做法。所以我觉得Alpha Go的产生有一点对我感触很深，叫做虚拟遗憾最小化。你自己本身是有经验的基金经理，同时还有AI帮你把所有的风险计算清楚，我觉得这一点才是未来大家在金融市场里面评比最核心的东西，就是你为什么能活下来。

　　丛林：在刚刚的分享里，我觉得我们还是说需要人工，是不可或缺的一部分。

　　薛伟：我觉得短期还是需要人工的。如果真的要用人工可能要做，尤其是像金融关系国家的经济，民生民计，可能真的是一个非常好的模型做非常严格、非常长期的测试，保证它的准确性和稳定性，才有可能真正运用到一些大的决策上面。我们也了解到像医疗领域或者安防领域有一些人工智能的应用，我也有大概的了解，比如说像沃森（音）在国内也给很多医院专门设立沃森的诊室，会把疑难杂症医生不知道怎么处理的先让沃森处理一下，沃森会结合互联网上的材料结合一些技术给出方案，方案提供给医生让医生作为参考，但只是去参考，但也有一些医生会采纳里面的一些部分，然后改变自己原来的方案，这个比例大概还是在10%左右。我相信这是慢慢递进的过程。

　　冯霁：我个人感觉还是这样的。第一个，现在参加重要的机器学习会议和人工智能会议会有专门的会场，大家研究怎么样把我这个模型来进行一系列的解释，这个在学术界是很前沿的话题，解决的也不是很好。因为模型本身就是配合你，比如说有一个人的直觉就觉得今天想干这事，大活人都不好解决，你让机器解决，这个事情是很难的。这是第一点。

　　第二个，更多的是法律法规的问题。比如说在金融领域的模型如果出了错了，这个事该算谁的？我觉得这个问题更多的应该是先由监管部门来对哪些任务这个事国家得管，相当于先要建立一个法律法规来明确责任与义务之间的关系，这个明确好之后大概其他的就好办一些，尤其是像无人驾驶的约定或者是数据隐私法案在欧洲的推行。我们做机器学习的人很难去做这件事情，更多的应该是监管层，他们对这件事情的理解。

　　丛林：我觉得非常重要的一点。虽然机器学习能帮我们解决很多技术方面或者是数据挖掘方面的难题，但是一些道德层次和法律方面还是需要人为去做很多的决定，监管部门在这过程中起到的作为也是至关重要的。我们还有没有其他的补充？

　　吴云：我想结合平时的投资经验讲两点。目前，部署的一个Oken（音）的策略，我不能讲它是完全的AI化，可以讲完全的自动化，实现了这一点。但是我们平时基于一些加量的策略，底下都是AI的系统在驱动，这种是我们写好策略的开关，到那个时间节点由交易员去判断把开关打开，所以我们还是完全信任机器。就像现在在国内任何人脸识别都会派人工放在那儿，假如出了问题得有人工做进一步的防备，金融系统牵一发动全身，系统崩溃的代价是很巨大的。

　　丛林：金融市场叫不确定性或者是存在潜在的可能性太多了，这个也是必须有挑战的，比起很多其他的领域。由于时间的关系，我们今天就跟大家探讨在这里，非常感谢所有的获奖参赛选手，还有王继忠先生给我们带来的分享，也鼓励大家更多的去思考这一系列的问题。因为我觉得只有把大方向的问题想清楚之后，我们才能更好的去实现其中的细节，来推动整个领域的发展。那我们今天就到这里了。

　　主持人：感谢所有的专家以及获奖团队代表。

责任编辑：常福强

我要反馈

相关专题： 2018全球智能投资高峰论坛专题