圆桌论坛:大数据技术在投资领域的运用

2015年03月23日 10:40  新浪财经 微博 收藏本文     
第二届(2015)中国期货资管精英大会于3月21日-3月22日在深圳举行。上图为圆桌论坛:大数据技术在投资领域的运用。(图片来源:新浪财经 吴腾飞 摄)  第二届(2015)中国期货资管精英大会于3月21日-3月22日在深圳举行。上图为圆桌论坛:大数据技术在投资领域的运用。(图片来源:新浪财经 吴腾飞 摄)

  新浪财经讯 由期货资管网主办、深圳市期货同业协会特别支持的“第二届(2015)中国期货资管精英大会”于2015年3月21日-3月22日在深圳举行。新浪财经作为独家门户网络合作伙伴全程图文直播本次大会。

  以下为圆桌论坛:大数据技术在投资领域的运用讲演实录

  汪沛:感谢各位到场的来宾,我是来自于招商证券[微博]量化投资经理汪沛,今天很荣幸有这个机会主持我们最后一个圆桌论坛。大数据技术在投资领域中的应用。我们先荣幸的介绍我们的四位到场嘉宾。他们来自于我们量化的私募界,以及很多互联网巨头企业,请他们自己给大家介绍一下。

  刘鲁:大家好我是刘鲁,来自于新浪财经产品经理,我个人是技术出身,也负责一些大数据页游,在这里很高兴认识大家。

  黄灿:大家好我是盛冠达的黄灿,我们公司是去年刚成立的投资公司,目前主要是给客户做一些资产管理之类的业务,我们都是以套利交易为主,我们是以稳健著称的,一般收益率不会太高但是是以稳健著称。

  王立志:大家好我是广州阿巴马资产管理公司的王立志,我们公司现在管理资产规模大概20亿,我们现在也在开始研究大数据在选股方面的应用,很高兴参加今天的会议,谢谢大家!

  汪沛:感谢四位嘉宾简单的自我介绍,首先抛砖引玉,我现在是在招商证券,也是和刚才的这几位我们的嘉宾交流之后,发现以前也是有一些我们的合作过的合作伙伴,今天也来到了我们的现场,之前我们做交易的时候发现我每天用的手比较多,用眼比较多,但是说的机会很少,这也许是我们买方和卖方最大的不同点。今天四位是分为两个不同大数据量化投资环境当中分两个不同层面,一个层面是数据源,因为我们现在知道互联网金融在整个中国金融界是刮起了一阵旋风,而整个互联网金融的发展,其实也是我们整个金融业发展的一个缩影。首先经历的是贷款的互联网化,也就是P2P的发展,其次到了是股权一级市场投资的互联往化。也就是众筹的发展,按照这样的趋势,我们可以很有信心的来说,到未来下面一步的互联网金融的发展,就是在我们的数据在二级市场中的应用,这一块我很期待的是,首先想知道两位远端的投资者,他们公司在这方面是如何进行尝试,他们对于什么样数据的服务他们认为最能够帮助他们对于自己的投资进行决策?请我们黄总和王总进行一个简单的介绍。

  王立志:我先讲一下我们公司在大数据方面的研究。现在目前最热的话题就是互联网+,互联网+通过互联网平台实现各个行业不同行业的融合。互联网背后就是大数据的处理和应用,大数据给传统的量化投资也带来了机遇和挑战,大数据是要采取很多比如说目前网站的一些数据,还有客户行为,以及分析师的研报,还有每天行情数据、财务数据,很多数据是非结构化的,如何把这些非结构化的数据进行处理,提取出对我们有用的信息应用到选股上,这是我们最关心的问题。

  现在很多券商也在研究这方面的基础性的研究,比如说像新浪联合南方基金推出I100指数,这个行业的发展,毕竟给传统的量化投资带来很多的冲击,目前我们在这方面的研究,主要是综合了一些券商的发展策略,他们的观点。目前一个主体思路,我要通过一些数据。比如说最基础的数据、行情、财务,分析师的研报,以及客户行为,还有网站、论坛这些数据。这些基础数据很多噪声,我要通过文本挖掘技术进行语意识别以及提举,然后定一些关键词。比如概念性题库,现在最热的题库工业4.0、互联网+、国企改革等等,还有情绪类的,情绪类就是如何反映市场、投资者、媒体对各股的市场反映热度,以及新闻热度。还有其他一些基本面的词库,比如说成长、价值,以及估值指标等等这些因子。

  我们定义这些词库之后,我们通过文本挖掘技术,把我们提取出来的基础数据和这些词库进行分类,分类好了之后,我们就要根据不同的风格去构建我们自己的选股策略。比如说概念类的,目前很热的一个概念就是互联网+,通过这个概念提取相关股票,这个股票就可以作为我们选股标的,这就是一个策略。

  但是这些基础性的研究,比如说百度[微博]和新浪他们在这方面会更专业,比我们走得路会更远。我们就可以通过他们的一些基础数据,来构建我们自己的策略,而不必走他们已经走过的一些,比如说出过的错,碰见的弯路,所以我们在这方面非常希望和他们基础数据合作,在他们基础数据之上构建我们自己的策略组合,这是对我们最有利的方式。

  汪沛:刚才王总说的一点非常重要,在量化这一块他投资的门槛,技术投资的门槛,比一般量化策略,大数据的策略,要更加高。刚才王总提到一点,我们的一种解决方法,我们和传统的在互联网界已经有很多年积累的大企业进行合作,我们投资者只要专心于构建我们的投资组合,专精我们策略研发就可以了,对于很多技术性的问题,因为我们刚才交流发现很多都是学计算机专业的,这一块计算机相关企业中已经进行了多年积累,我们很多新发展的技术问题,也许在百度、新浪、很多年之前就有了很好的解决方案,所以我们也很希望通过这个论坛,能够在数据源、技术源以及资金方、投资者之间搭建桥梁,因为很多创新,特别是我们要战胜市场的一些创新,往往都来源于跨领域的合作,这样才能够构建起一些我们拥有很强技术壁垒的一种优势,这是我的理解。下面一位投资者。

  黄灿:刚才主持人问到我们做投资怎么应用大数据?我们投资公司跟大型互联网公司有不一样的地方,他们公司比较大,投入比较大,而我们投入比较小,这是一点不同。第二点不同,我们在下面也有沟通,在数据源的使用方面,我们使用的数据源直接使用跟交易相关的行情数据,我们有各个市场行情数据传到我们服务器上面,我们分析数据也主要是以行情数据技术分析的技术为准。而互联企业他们所用的数据源会跟我们不同,他们不会侧重行情,也就是交易数据,他们会侧重于一些用户的行为数据,比如说APP数据,会侧重这些数据,他们分析这些数据的技术,也跟我们分析这个技术使用的方法是不一样的。

  第二点我们在一些硬件的投入上,也比他们会有差别,我们在硬件的投入上面相对来说会比较小一点点。这也是我们的一个特点。因为目前硬件更新换代是非常快的,我们没有很大的一块投入专门投入硬件更新,但是我们对大量的行情数据的分析,又有技术上的要求。比如说我们算一年的股票数据,一算下来可能需要好几分钟的时间。那我一组策略,一个策略一组参数,然后再配上几年的数据跑下来我经常一个策略回撤,在一台服务器上要跑一个星期,这也是我们目前遇到比较头痛的问题,目前也是我们在大数据方面技术上的一个需求。

  汪沛:感谢两位投资人对于大数据这种策略开发的解读,下面想介绍的一位是我们新浪财经的刘经理,提到新浪财经我自己想赞美几句,因为我自己在招商证券有相关交易策略,开始跟新浪微博和新浪财经有一个相关合作,在去年的时候大概1个亿的资金能有41.7%稳定的回报,主要是通过新浪的技术优势,和他们的数据资源,和我们交易员的经验进行联合开发,所以我觉得在这个层面上,新浪数据已经积累了17年,在这17年之内,所有的用户在我们网站上,以及相关APP上留下行为的痕迹,新浪的数据都有他数据分析的,所以我们也很想了解,新浪在这块现在已经走了多远?

  刘鲁:非常感谢主持人的赞美,因为我本身是程序员技术出身,所以一个习惯性别人问我问题,我有什么就回答什么。我现在想回答一下黄灿跟王立志提的问题,他们刚才主要问题大数据有哪些可以用到投资领域?新浪数据源非常多,纬度也非常深,比如说我们有新闻数据、微博数据,还有用户自选股、模拟交易数据。其实这些数据对于投资来说可以形成非常直接的一些借助,这是比较浅层的应用。还有一些深层的,比如说举个例子,我们对于用户他群体性的行为做了深入的分析,我们发现用户其实是有羊群效应的,大部分的人他们会发现有一个股票涨停,或者是某一个新闻爆发出来,他们在点击新闻,但是这已经是一个滞后型的指标或者滞后型的应用,我们现在要做的是把用户进行分层,比如说这些用户他添加了基本股,或者模拟交易里面做了投资,他们投资的股票后期确实有一个上涨的行情,我们会认为这些用户其实是非常聪明的。这一部分用户,他们之前在浏览的哪些资讯,关注了哪些行业,或者关注了哪些主题?他们的一些行为,会给我们留什么启示,这是我们目前做的事情。举个例子来说,巴非特为什么成为巴非特?他在成为巴非特之前,他都关注了哪些?我想这部分数据是王立志他们可以直接用得上。

  还有黄灿刚才说计算能力方面会受到一些服务器和硬件的瓶颈,我刚才说的有点多,主要我们现在正在做的事情也都泄露出去。

  今年6、7月份新浪财经会上线一个openapi数据市场,这里面有两部分内容,首先财经重度垂直数据,以及基本面大家在数据库里找到的数据这里都会有,然后会以API形式开放给大家,这就解决了很多策略研究员或者个人投资者,有这种写代码的能力,但是没有比较稳定的数据源,或者他们花不起很高昂的费用购买几十万的数据库。在我们这个平台上面,他们可以对每一个接口进行方便的调用。同时在数据市场后期大概今年年底,我们也会开放新浪一部分的计算能力,像黄灿这种需求,可以在一定数据平台上直接调用API获取数据,也可以利用计算能力。我们大概有200台的数据集群,所以运算速度非常快,处理能力PB级数据大概几分钟左右,大概介绍这么多。

  汪沛:刚才听了刘经理对于新浪的一些工作介绍,其实我作为投资者有一些小小的疑问想问一下,刚才说了一点,比如说我作为投资者,我以后使用新浪的网站或者APP进行投资决策的时候,会不会把我们这样机构投资者行为记录下来,然后进行一些分析,这是否关注到隐私的问题?

  刘鲁:非常感谢主持人的提示,这里正好借这个机会解释一下,因为新浪对于用户行为的保密级别最高,就算我们内部使用也只是群体性行为结果,内部对每一个用户都做了处理,自己做研究或者做数据调用,也不会知道这一体数据来自于谁,只有一个苹果MD加密的16位的编码,这个跟用户完全脱敏的。对于用户隐私新浪目前做的非常好。

  汪沛:我们作为机构投资者可以放心使用你们这边的服务?

  刘鲁:对。

  汪沛:同时跟你们数据员合作知道别人干什么事情,但是不暴露自己做什么?

  刘鲁:对,自己没有任何隐私暴露,全是群体性的行为。

  汪沛:刚才刘总谈到一个点,大数据和云计算有一个话题永远绕不开,就是我们数据安全,短期上也许作为数据供应商使用很多数据,提升我们交易的成功率。但是从长期上来说,我们只有严格的把好了我们对于数据安全,以及用户隐私的一种尊重,以及我们自己数据源的责任,才能够使得大数据投资这样一种大的投资类别能够走得更长更远,各位投资者可以放心和我们百度、新浪这样的数据源,以及技术领跑者进行盒子,比如说我自己的交易策略,我们服务器也是放在阿里云上,因为我们也不用担心,因为阿里云对于我们数据宝库也是能够让我们满意的,我们并不会担心,我们在使用了阿里云的服务器之后,会泄露我们本身的数据以及策略。所以在互联网这个行业,能够为用户着想,能够为每一个用户需求着想,这已经像刘总说是互联网企业的基因,所以希望未来有更多的合作方式能够诞生在我们数据,技术拥有者以及资金和投资能力拥有者上。

  现在作为我自己来说,我总结的是,因为之前也跟很多相关的人进行了交流,发现如果要把量化系统做好的话,特别是大数据做好的话,其实是有三个层次的事情要做;第一我们可以类别为,我们要做一家经营黄金的企业,第一点我们要有好的矿山,也就是我们要有好的数据源。在这一块,我的一个建议是,在互联网层面,其实是有很多数据源是我们以前没有的,它并不是说有了互联网之后,我们的行情比以前更快,我们就能够系统的分析我们的用户财报,而是完完全全有很多数据,是只有他们有,而我们作为券商或者私募是没有的,这一点他们用大数据的矿山。

  第二点是我们采矿的技术,或者说冶炼的技术,也就是我们技术层面,这个包括的是计算机方面的开发的能力,以及我们硬件的系统。这一块也是可以外包给我们的技术提供商,但是第三块我觉得也是非常重要的,这一点我也认为应该会得到在座很多投资者的认同,策略的开发不能只局限于我们的数据本身,还要结合于我们市场的实际,也就是说,我们现在的策略,我们的计算机只是做前端的统计和高级的分析。但是到最后真正和市场接触的时候,还是我们的交易员,那几千万上亿资金使用并不是通过计算机自动下单,还是要结合我们交易员多年积累的盘感以及直觉,怎么样很好把投资业务逻辑,和数据优势结合起来,我才认为这是整个大数据投资策略发展的一种非常重要的思维方式的转变。

  这一点也很想听听两位前辈,在你们公司是否遇到这样的问题?是如何解决这样问题的?

  王立志:我们目前基础数据是非常重要的,就像您刚才提到的,如果基础数据不好,后续的处理都是白费的,做无用功。因为现在网络数据很多是非结构化的,第一步先要对它进行处理,比如说降噪等等。这部分处理就是他们最专业的,而我们在这一块是比较,因为我们处理的都是结构化的行情数据、财务数据、分析师的研报等等,所以这一块非常需要他们的帮助或者支持。后面我们自己的模型,当然您刚才提到了,数据是一个方面,模型也是另外一方面,我们构建这种模型,往往是根据历史的情况,但是他并不能够完全适应新的政府的一些政策的变化,用户行为突然改变等等情况。那么我们就在模型上,我们要进行一些调整,就好像我们现在的一些投资的模型一样,选股选出来之后,后面下单每周或者每天都要进行小小的微调,这样才能保证我们的模型更好适应这个行情。所以模型也是非常关键的一部分。只有数据好,然后模型好,我们选股整个的结果才是最完美的,所以我们两方面进行沟通和合作,这样才能够在我们投资上有一个好的突破。

  汪沛:虽然说现在IT技术不停的发展,但是人类拥有世界上最强的计算机就是我们的大脑,但是大脑由两部分组成,其中一部分是进行逻辑的运算。这一块工作我们可以很好的外包给计算机或者互联网来做,但是另外一块是交易员的直觉,以及人性的把握,这一块也是我们阿尔法很重要的来源,我觉得我们也不要放弃大脑的优势,最好是数据和交易员人脑分析结合起来,才能更好发现我们的策略。对于黄总提一个我们感兴趣的问题,对于我们这样一个数据的使用,往往是来自于我们历史数据的使用而刚才也提到过一点互联网的数据往往是比较年轻的,而且是非结构化的,这样一种情况下,有可能他反应的只是粗的市场行为,在遇到黑天鹅事件的时候,我们量化系统怎么规避系统性的风险?使得我们在平时赚钱的同时,不会因为一次失误,而把所有盈利全部交还给市场?

  黄灿:关于这种黑天鹅事件,因为很多场合,在投资场合都会讨论黑天鹅事件,我认为黑天鹅事件是没有特别好的方法去完全规避这个事件。对我们公司现在来说,交易经验是非常重要的,我们的交易虽然都是程序化的交易,但是每天在交易的过程中,我们都会有交易员盯着策略,并不是为了手动下单,而是通过观察市场行情来积累交易经验。我们的交易员从股指期货上市以来2010年到现在已经积累了将近五年的交易经验,所以在这一块我们的交易经验积累是相当丰富的。

  第二点是严格的止损,严格的风控,这个说起来挺简单但是做起来很难。好像你明明看到他上涨,但是你手里拿了一堆多单但是这个时候下跌了,即使你再看涨,但是你做的是卖出的动作,这个决策是比较难的。这个就全部交给计算机好了,所有硬性风控,比如说净值到了什么位置,那就没有什么道理可以讲,减半仓或者全部仓,这个交给计算机做就好了,这是我们尽量去规避黑天鹅事件的做法。

  汪沛:之前很多朋友问我,他们对量化交易有一些自己的担忧,因为在国际市场上经常出现这样的情况,市场突然断层式的爆跌,跟高频交易相关,这也解释了刚才的问题,大数据交易是人和计算机的配合,并不会完全把投寸交易的权限完全抛给计算机,而在其中关键也是通过人的把控,来确保我们客户的资产的安全,所以说大数据不但在我们投资领域里有帮助,在我们实际中,对量化的风险控制也能起到很大的作用。

  下面问一下刘经理,刚才您也提到一点,就我们自己研究来说,金融市场和我们了互联网一样,都是个群体性的存在,那么在其中我认为最大的一个不同点是,在互联网上,和在金融市场中,每一个节点的权重是不一样的。比如说互联网上,我奥巴马一次点击也计作一次点击,边远乡村农村点击也是一次点击,对于每一个人来说,我们权重是一样的。但是对于我们在金融市场上来说,我们知道它是分布极端不平衡的权重,有人手上握有上百亿资金,而有的人只是几千块钱炒股,但是他们在互联网上展示出来的行为却是同样的权重,我们怎么规避这样的问题?

  刘鲁:这个也是我刚才说我们现在正在做的一个用户分层的研究,我们会找出比较聪明的人,这些人的用户行为我们会做一些深度的分析,而不是把所有人点击量都汇总起来,然后简单的一个结果扔出去,那样的数据可能会有很的噪音,会有很多羊群意识在里面,会有很多滞后性,所以我们对用户分层这一块下了很多功夫。刚才您也一直在说黑天鹅这个事件,对于黑天鹅我们也是做了很多有意思的探索,其实黑天鹅最本质的一点是不可预测,但是我们想知道,这个黑天鹅出现哪里?比如说大家都觉得,现在有一种心理上的看法,觉得微博现在已经被微信压倒了。其实微博作为一种自媒体,它的一些媒体属性正在逐渐的增长,很多事件最早是微博最先爆出来的,它传播的速度和传播的力度,都比传统的平媒甚至电视媒体快得多。举两个我们之前做过研究的例子,比如说新词,我们会对微博里面,用户产生的内容做一些归纳和整理,第一时间发现所谓的新词跟新概念,新新闻,这一条新闻或者这个词在之前都没有出新过,我们会第一时间把它找出来。

  2014年4月10几号我们发现一个新词叫沪港通,这个词在之前都没有提过,那一天下午2、3点,具体时间记不得了,但是我们会有一个精确到分钟的数据,这个词出现,随后沪深市场就是一波半个月的上涨。但是作为我们互联网技术公司来讲,我们其实并不知道沪港通意味着什么?汪沛:它的含金量怎么样。

  刘鲁:对,我们并不知道,但是我们知道只是一个新的概念。我们可能对这个词过去半个月、一个月、三个月时间做一个相关性的分析,可能过去消沉了一段时间,突然又有一个爆发。

  还有一个是跟股市最相关的黑天鹅,去年12月9日上证指数先上涨了4%,然后下午紧接着下跌5%,一天振荡能有10%,那一天其实很惨。我们对所有新闻聚集分析,发现中午12点的时候,已经有很多关于会有爆仓风险,这个新闻已经出了。但是那个时候我们打开其他门户网站或者财经网站的时候,都是一片歌舞升平的说,上证上涨4%,大牛市,但是没有关于风险的声音。我们是对这种新闻结合它的传播速度和影响力,把这个负面新闻发了出来,而且把它的权重列在第一位,实际上下午大盘水,已经下午2点。

  汪沛:一个很精彩的投资案例。

  刘鲁:对,我们无法预知黑天鹅是否会出现,但是我们想第一时间想知道它在哪里出现。

  汪沛:刘总提到一点我也感同身受,刘总分享了他们的投资经验,我觉得黑天鹅对于新浪来说,也许是投资者的朋友,不是投资者的敌人。因为在2013年8月16日,大家记得那一天有一个证券市场上很重要的事,光大乌龙事件,那天上午我们正在做交易,突然大盘像行情出了问题一样爆涨,那一天赶快打电话给公司ID,说行情出问题了,看看出了什么BUG?过了五分钟之后技术人员说市场是这样子,并没有出现任何技术故障。那时候正好跟新浪微博有合作,那时候密切关注新浪相关的微博以及财经相关用户关注的关键词变化,突然发现有两个关键词在半个小时之内,它的关注度上升了200多倍的爆涨,一个关键词是上交所[微博],一个关键词是光大证券,这两个词是在上午还没有闭市之前就已经达到关注热点,所以我们立刻和相关的同行交流,当时打电话给光大证券的时候,他们说他们部门正在开紧急会议,所以那个时候我们部门立刻觉得好像有点不太对,上面立刻卖空几千万光大证券股票,所以大家知道连续两天爆跌,相关利润也很感谢新浪微博为我们提供的帮助。刚才提到一点,新浪微博它作为一个自媒体,其实对于很多突发事件是有很敏锐的一种发现能力的,而且这种能力往往比我们的金融市场要更快,举一个简单的例子,当年本拉登在巴基斯坦被击毙这件事情,最早爆出来的是在推特上,最快的门户网站也是在半个小时之后在爆出这样的新闻,也就是说自媒体对于很多突发性的事件,其实有很强的预先的发现能力。但是这个要问一个问题,对于一个事件,他能够对我们交易者来说,能够应用到我们市场中去,有一点我们非常关注,这个技术处理的时间,会不会很长,它的实质怎么样。因为我们知道,如果是我们在收盘之后,才对它进行一个分析处理得到结论的话,这个时候已经不能做交易了。我们怎么做这样的交易,使得我们在盘中报出来的新闻,我们能拥有交易优势,能够率先下单。

  刘鲁:这个问题非常犀利,也非常有技术难度。实际上对于数据处理,肯定需要牺牲一些时间的。但是我们后期跟机构或者跟一些机构进行合作的时候,我们会根据客户需求,还降低他的时间跨度,也就是数据量。比如说对于日内交易来讲,可能需要五分钟或者十分钟提供一批数据,比如说回数或者相关性的预测不能太久,需要三四天的数据就够了,微博的数据。但是如果是T+N的交易,回撤的时间或者相关计算时间会更长,这个会根据每种交易策略,交易特征来进行具体的实际的操作。

  现在新闻跟微博如果是月度数据分析,可以达到一小时的数据处理速度。如果是一周或者是更短的时间,可以达到十分钟,现在已经做的比较快了,希望更快一些。

  汪沛:这一点请我们的百度金融中心的刘总给大家讲解一下。

  现场观众:刚才四位嘉宾和主持人讲的是时代最前沿的问题,我自己是做投资的,思考的是我们对这个数据收集该怎么判断,以前我们以往的经验我们报纸或者互联网,作为一个单个投资者,去关注市场的信息,但是目前互联网大数据,是一个非常尖端、厉害的工具。关于一块这个嘉宾也讲到这个问题,他是一片海,但是我们对于这个投资,投资者而言,或者机构而言,怎么去从大数据当中,吸取我们想要的东西?我这个也是在思考这个问题。

  比如说对于基本面的研究者而言,你可能要寻找一些目前市场热点最关注的的信息,那么你可以投入自己的判断,这一点也作为金融机构者,他自己应该有自己的思路,他想要什么样的信息,我觉得这一点是非常关键的,需要有这个金融背景对信息的解读的思维,我们这里有这个思维有这个思路,这样的话我觉得才能跟我们的物联网大数据进行有效的结合。

  汪沛:非常感谢这位在场来宾的分享,想请问您投资的背景,以及您是哪个机构的?您可以让在场所有嘉宾认识一下。

  现场观众:其实我现在是独立投资人,之前是在一家私募基金做研发方面工作。我主要的理念也是从基本面信息去寻找投资的机会。对于这一块我也在思考这个问题。

  汪沛:很感谢您的分享,有没有现场互联网背景或者技术背景的来宾,希望对我们话题提出自己的观点,或者问在场嘉宾一些有技术层面的问题?

  现场观众:在华为做技术预言的,最近在做大数据方面研究,我个人兴趣对进这一块,刘总分享是我重点关注的,包括你们那支基金我一直想买,但是放的不多。技术方面问题是这样子的,我知道以前有人拿推特上的数据预测股票,但是后来慢慢就不灵的问题。我不知道有没有相关研究不灵的原因是什么?基于舆情有可能会有技术困扰,当然后面会失效,我不知道原因是什么,有没有对这方面啊?

  刘鲁:您这个问题我们之前关注过,为什么有些数据慢慢失效?因为您对技术出身,比如说一个数据我们判断它情感的正负面,或者是关注度,其实舆料非常重要,但是互联网信息爆炸,很多关键词,情感词也好,每天会有非常多的新词出来。当一个规则或者一个政则一两年不维护,出现的结果非常糟糕,我们为什么关注这个问题?因为我们自己做新闻的推荐系统里边就可以用到政则的舆料库,我们后来发现新浪系统需要整理一下,所以我们加了很多人力资源投入在里面,去慢慢恢复。对于人工智能和未来的发展,我们认为在未来一段时间,人工智能还无法替代工人智能。所以新浪这两方面都会投入很大人力物力,我们自己叫人工智能加工人智能。

  孟一:感谢各位一直坚守到最后,我知道你们是为了无人机来的。

  (抽奖)

文章关键词: 大数据新浪

分享到:
收藏  |  保存  |  打印  |  关闭

已收藏!

您可通过新浪首页(www.sina.com.cn)顶部 “我的收藏”, 查看所有收藏过的文章。

知道了

0
猜你喜欢

看过本文的人还看过

收藏成功 查看我的收藏
  • 新闻福建打下首虎!副省长徐钢被查(图/简历)
  • 体育CBA-北京4-2辽宁卫冕 西甲巴萨2-1皇马
  • 娱乐李敏镐与秀智曝恋情 甜蜜约会被拍(图)
  • 财经 新电改方案已内部下发 未涉电网拆分
  • 科技IT领袖峰会:马云缺席 杨元庆当“大炮
  • 博客北美崔哥:海外华人抓贪官指南(图)
  • 读书优劣悬殊:抗美援朝敌我装备差距有多大
  • 教育90后大学生卖女鞋月销40万不算多
  • 专栏李银河:官员通奸与任职资格的三种关系
  • 刘姝威:化工行业上市公司分析
  • 许一力:人民币暴跌后又暴涨的逻辑
  • 天天说钱:经济重大利好即将降临
  • 易宪容:两会之后三大金融改革热点
  • 陶冬:美联储剔除耐心仍有耐心
  • 水皮:亚投行是中国和平崛起试金石
  • 麒元:外汇储备与货币估值
  • 永新人:为什么希望自己的货币贬值
  • 天天说钱:中央救楼市必出这10招
  • 齐俊杰:股市涨起来 中国事情才好办