吴滔谈搜狗AI布局:以语言为核心 从感知到认知

吴滔谈搜狗AI布局:以语言为核心 从感知到认知
2018年05月19日 10:36 新浪财经
搜狗副总裁吴滔 搜狗副总裁吴滔

  新浪财经讯 “2018科博会中国科技创新论坛”于5月19日在北京·全国政协礼堂举办,搜狗副总裁吴滔出席并演讲。

  从产品角度来讲,搜狗是围绕语言的输入和输出为核心的一家技术公司,在AI布局上,整体来讲也是围绕语言为核心。从语音,输入的感知,到视觉输入的感知,从感知到认知,提供跨国语言平台的交流,这是搜狗在AI方面以语言为核心的布局。

  以下为演讲全文:

  吴滔:各位来宾,各位朋友,大家早上好!

  今天非常荣幸来到这给大家分享一下搜狗在AI的布局以及落地的产品。

  首先给大家介绍一下搜狗公司,我们主要是一个2C的公司,从用户数来看,搜狗是中国互联网第四大公司,仅次于BAT。主要的用户来源于后面两个产品,一个是搜索,我们现在是国内第二大搜索引擎,从流量的角度来看,从整个全球来排我们是第三,仅次于谷歌和百度。另一个是大家非常熟知的搜狗的明星产品,搜狗输入法,在中国输入法领域是处于垄断的地位。

  下面分享一下搜狗在AI领域的战略布局。

  从产品角度来讲,搜狗是围绕语言的输入和输出为核心的一家公司,所以我们在AI布局上,整体也是围绕语言为核心来做的,这上面是感知层面的,从语音输入的感知,到视觉输入的感知,下面是对话,这是认知层面的。从感知到认知,认知到最后,是能够跨语言的交流,这是搜狗在AI方面整个以语言为核心的布局。下面我会为大家介绍一下我们的AI成果。

  这是我们在各个领域拿到的一些奖项,一个是PAscal VOC,我们在其中一个子任务里面拿到了全球第一,打破了世界纪录。第二是刚刚在上个月NLPCC,一个语义理解的大赛,搜狗也拿到了第一。2017年的NTCIR评测比赛,这是在日本的大赛,在这个大赛里也是拿到全球第一。下面是中英翻译的一个国际大赛WMT2017,也是拿到全球第一。同时我们在2016年第一个推出实时的神经网络翻译同传技术,是在2016年底乌镇大会推出的。此外,我们在业界也首次推出了跨语言的搜索,搜狗英文搜索。

  在语音识别上,语音识别的技术相对比较成熟,准确率达到97%,这是非常高的一个指标,我们有大量的用户每天使用我们的产品,积累了大量的数据来迭代我们的模型,现在每天搜狗语音请求次数已突破3亿,每天产生的语料规模24万小时,在中国我们基本上可以说是首屈一指的。

  这块是基于图像的识别,因为我们名字叫搜狗,所以我们真的做了一个搜狗的产品,把狗的图片上传到搜索引擎里,能够快速识别这个狗是什么品类,并给出详细的资料介绍,下面这个是和“搜狗”类似的事情,就是花卉的识别。我们采集了几十万图像样本,能做到超过80%的一个准确率。

  在去年年底我们推出了唇语识别,我们搜狗的唇语识别在开放的综合语序上可以达到60%,在行车的封闭场景里,居家的封闭场景,我们通过视觉的唇语识别大概达到90%的准确率。唇语识别,主要有几个核心点,第一个是要检测人脸,这个已经有相对比较成熟的技术了,真正的难点是唇形的提取,以及做一个识别引擎。从刚才我们整个的战略布局来看,实际上就是在整个对于视觉和听觉的感知上,把我们两个核心的产品,做一个AI化的升级。对话方面,输入法我们每天都会使用,从推出到今天已经有11年的历史,超过300项的专利,在中国用户渗透率超过98%,每年输入的字数大概15万亿。

  在输入法里,用过搜狗输入法的朋友可以感受到有一些很好玩的体验,比如说第一个诗词补全,你写上诗的上半句,它可以在给你补充下半句,再比如说你想跟女朋友聊天,你没有找到很好的语言来表达,输入法可以给你提供一个更好的说法,再比如说原来的输入法,一直是一个填空题,未来我们希望能够变成选择题,理解对方在讲这个话的意思之后,给他一个更好的答案,给他提供智能回复的功能,用户只要轻轻点一下,不需要自己输入。

  后面还有一个智能分享,在整个输入场景中,用户的需求非常发散,有一些垂直化的需求,需要跳出输入法才能满足,比如说要查找位置,查看电影院,或者定餐,我们可以通过输入法的快速分享,不跳出聊天界面就能完成。

  下一个是问答,搜索本身就是问答的体现,未来搜索的下一步,也就是问答。为什么给大家提供一个搜索的列表,那是因为之前的技术还不能做到直接给你唯一的答案,更好的体验就是直接告诉你唯一答案,这方面我们搜狗做了比较有意思的事情。

  第一我们跟清华天工智能计算研究院合作推出了汪仔问答机器人,参加江苏卫视《一站到底》,战胜了真人选手20+次。所有的选手都研究怎么战胜汪仔,但是后来发现,一旦汪仔理解题目之后,基本就战胜不了,选手就会找一些技巧,因为人的推理能力还是很强的,你说一句题目的前两个字,甚至前5个字的时候,就能猜到这个题目,在这样的场景下,最后汪仔败给了人类。

  第二是搜狗的立知,在大量垂直的文献以及文本语料中搜索,帮你过滤一些你不想要的东西,寻找搜索结果给出答案,通过对语义的理解,问题的分析,形成知识图谱,最后帮助人们。大家知道搜索引擎有一个很关键的叫关键词,引擎不能很好的理解你,被迫让人有一种更机械的方式去交互,要把问的问题,提炼出关键词。自然的交互是会输一些问题,所以搜狗的立知,能让你很自然的去问他,你的问题是什么,并能告诉你一个答案,目前来讲搜狗已经有8到20个点可以明确给出答案。

  最后一个,也是蛮有趣的事情,今年年初有一波非常狂热的直播答题,我们做了一个答题助手的应用,搜狗的答题助手,调用了整个视频流、音频流,能听出这个主持人问的是什么问题,然后在两秒以内可以给出正确答案。准确率达到95%左右。用了搜狗答题助手的用户,基本上都可以分享现金,所有后来直播平台联合把我们封杀掉了。

  再谈谈我们在翻译领域的布局,搜狗本身是希望让用户表达和获取信息更简单,翻译就是说让用户跨语言表达和获取信息更简单。

  从软件上,在我们自己核心产品里,我们已经把我们的技术大量融合到产品中,包括输入法、浏览器、翻译APP,机器同传。硬件方面,我们推出了搜狗旅行翻译宝和搜狗录音翻译笔,后续还会有1到2款新产品推出。

  翻译技术方面,我们有端对端神经机器翻译模型,使得一个完全不可控的翻译模式在可视化的情况下,可以针对性的进行调优,包括交互方式,语音、文字、对话、图像都可以翻译了,还有这个翻译语种的数字涨得非常快,最早是需要大量的语料,我们做搜索引擎积累了丰富的语料,但是作为一些小语种来讲是很难获得这些语料,所以我们现在就在自己的语料情况下做一些技术的突破,通过搜狗语言,不断的迭代,使得模型接近相对比较优的状况,然后快速地扩充了翻译语种。

  翻译的需求,每天有1.4亿次,已经覆盖超过1000万的用户,这个量是非常大的。

  我们看一下输入法里的翻译功能,这是一个语音输入的场景,你说中文就可以直接识别,并给出翻译结果,这个智能,你只要点一下,就能给你翻译成多语言的选择等等。

  然后对于英文搜索,是挺革命的一个事情,中文信息占到全球信息的储备量,其实是不到10%的,而且本身从我们自己自身的搜索引擎的需求量来讲,接近15个点是有跨语言搜索需求的,所以基于这个,我们就做了一个能够跨语言的搜索,我们把海外一些相对优质的,比如说和医疗相关的,人文相关的,科技相关的资讯,通过我们的搜索引擎收录其中,然后对照翻译,只要在里面输入一些,比如细胞免疫疗法,就可以直接有这个结果,能看原文、译文以及双语对照。今年1月的时候,我们把英文扩大到日韩语种,比如说搜索日本名人的时候,下面就已经有我们从海外别的网站里搜到的信息,使得你更好的了解全球资讯。

  还有翻译APP,在OCR上我们的准确率达到96个点,因为OCR其实是在计算视觉上是非常难的点,跟你的拍摄,包括跟你的光线、角度有关,这些都是蛮有挑战的事情,前面的对话、文本翻译,是传统的,翻译技术。然后这个OCR功能,有兴趣的朋友可以去体验一下,当你在国外看到一些,比如说菜单、路牌这些,拍照翻译就非常方便,不光是英文,日文我们也支持。

  然后机器同传,搜狗是第一家推出商用机器同传,在乌镇互联网大会上,我们CEO王小川先生第一次去演讲的时候,大屏幕上会实时显示中文和英文的字幕。我们的机器同传已经支持100多次这样的大会了。

  下面是我们今年新推出的硬件产品,叫做搜狗旅行翻译宝,一听这个名字就是针对旅游场景,因为在翻译场景,我们可以看到其它的需求方,有学习的,也有商务的,然后旅游是很大的一类,所以我们推出这个产品,是针对旅游场景来做的。现在支持24种语言,覆盖200多个国家,这个产品有两大创新,第一个它是第一个能做到完全离线的翻译机器,这是非常非常厉害的,早期我们可以看到很多传统的翻译模型,是基于统计模型,我们把它是叫做SMT,那个听上去就很明显,但是效果非常差,我们是第一个可以完整的放到模型上去,而且识别准确度是跟云端基本保持一致。第二个是OCR的翻译,在我们之前,其实也有友商推出相似的产品,但我们是第一个做到OCR视觉翻译的,其实直到现在,我们很多人特别是东方人,他还是比较含蓄的,即使你有翻译机,遇到什么事去问一下,还是有蛮大挑战的,能自己搞定就自己搞定,所以拍照翻译这个非常重要,包括你看到商品信息的时候,直接拍照就可以把它翻译成想要的信息。

  再分享一下我们的离线翻译,这是非常独特的一个技术,首先来讲,在一个翻译机上,中间有三个核心技术,第一个是做到语音的识别,第二个才是翻译,第三个是做的TPS语音合成。现在有很多家都是类似的技术,但是我们的技术建立在云端之上,为什么现在机器学习很厉害?是因为我们计算力带宽非常足够,你要把这个神经网络模型压缩到非常小类似于手机这样的模型,这个是非常具有挑战的。我们把翻译模型压缩,压缩之后有两种,如果压的很厉害,效果会非常差,如果模型很大,效率会很低,这三个是互相牵制的。第一要把模型压的非常小,第二是这个效率要非常高,第三,我们怎么把这个准确性给找回来。在这方面,直到今天,我们可以非常自豪地讲,我们在整个行业是最厉害的。

  然后是OCR的实景拍照,其中会有一些技术上的挑战,比如说你的光线不是特别好,然后有一些曲面,我们的OCR技术能够避免这些情况,并给出对应的翻译结果。这是我们翻译宝主要的功能,最主要就是能够离线翻译,还能OCR拍照翻译,并且能翻译多个语种翻译,未来我们会做一些和旅行相关的助手功能。

  最后,我认为语言,首先它是一个民族,是文化的一个载体,它可能决定这部分人的思维模式、价值观。从另外一个角度来讲,语言是人与人之间非常方便的交流工具,大部分人在学语言,其实是需要我们跟别的国家的人,更好的交流,我觉得这部分,以后从技术上就可以完全的实现,关于交流这些交给搜狗这样的公司就可以了,谢谢大家,我的分享就到这。

  新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

责任编辑:谢长杉

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

7X24小时

Array
Array

股市直播

  • 图文直播间
  • 视频直播间