吴滔谈搜狗AI布局：以语言为核心从感知到认知|中国金融论坛_新浪财经

搜狗副总裁吴滔

　　新浪财经讯 “2018科博会中国科技创新论坛”于5月19日在北京·全国政协礼堂举办，搜狗副总裁吴滔出席并演讲。

　　从产品角度来讲，搜狗是围绕语言的输入和输出为核心的一家技术公司，在AI布局上，整体来讲也是围绕语言为核心。从语音，输入的感知，到视觉输入的感知，从感知到认知，提供跨国语言平台的交流，这是搜狗在AI方面以语言为核心的布局。

　　以下为演讲全文：

　　吴滔：各位来宾，各位朋友，大家早上好！

　　今天非常荣幸来到这给大家分享一下搜狗在AI的布局以及落地的产品。

　　首先给大家介绍一下搜狗公司，我们主要是一个2C的公司，从用户数来看，搜狗是中国互联网第四大公司，仅次于BAT。主要的用户来源于后面两个产品，一个是搜索，我们现在是国内第二大搜索引擎，从流量的角度来看，从整个全球来排我们是第三，仅次于谷歌和百度。另一个是大家非常熟知的搜狗的明星产品，搜狗输入法，在中国输入法领域是处于垄断的地位。

　　下面分享一下搜狗在AI领域的战略布局。

　　从产品角度来讲，搜狗是围绕语言的输入和输出为核心的一家公司，所以我们在AI布局上，整体也是围绕语言为核心来做的，这上面是感知层面的，从语音输入的感知，到视觉输入的感知，下面是对话，这是认知层面的。从感知到认知，认知到最后，是能够跨语言的交流，这是搜狗在AI方面整个以语言为核心的布局。下面我会为大家介绍一下我们的AI成果。

　　这是我们在各个领域拿到的一些奖项，一个是PAscal VOC，我们在其中一个子任务里面拿到了全球第一，打破了世界纪录。第二是刚刚在上个月NLPCC，一个语义理解的大赛，搜狗也拿到了第一。2017年的NTCIR评测比赛，这是在日本的大赛，在这个大赛里也是拿到全球第一。下面是中英翻译的一个国际大赛WMT2017，也是拿到全球第一。同时我们在2016年第一个推出实时的神经网络翻译同传技术，是在2016年底乌镇大会推出的。此外，我们在业界也首次推出了跨语言的搜索，搜狗英文搜索。

　　在语音识别上，语音识别的技术相对比较成熟，准确率达到97%，这是非常高的一个指标，我们有大量的用户每天使用我们的产品，积累了大量的数据来迭代我们的模型，现在每天搜狗语音请求次数已突破3亿，每天产生的语料规模24万小时，在中国我们基本上可以说是首屈一指的。

　　这块是基于图像的识别，因为我们名字叫搜狗，所以我们真的做了一个搜狗的产品，把狗的图片上传到搜索引擎里，能够快速识别这个狗是什么品类，并给出详细的资料介绍，下面这个是和“搜狗”类似的事情，就是花卉的识别。我们采集了几十万图像样本，能做到超过80%的一个准确率。

　　在去年年底我们推出了唇语识别，我们搜狗的唇语识别在开放的综合语序上可以达到60%，在行车的封闭场景里，居家的封闭场景，我们通过视觉的唇语识别大概达到90%的准确率。唇语识别，主要有几个核心点，第一个是要检测人脸，这个已经有相对比较成熟的技术了，真正的难点是唇形的提取，以及做一个识别引擎。从刚才我们整个的战略布局来看，实际上就是在整个对于视觉和听觉的感知上，把我们两个核心的产品，做一个AI化的升级。对话方面，输入法我们每天都会使用，从推出到今天已经有11年的历史，超过300项的专利，在中国用户渗透率超过98%，每年输入的字数大概15万亿。

　　在输入法里，用过搜狗输入法的朋友可以感受到有一些很好玩的体验，比如说第一个诗词补全，你写上诗的上半句，它可以在给你补充下半句，再比如说你想跟女朋友聊天，你没有找到很好的语言来表达，输入法可以给你提供一个更好的说法，再比如说原来的输入法，一直是一个填空题，未来我们希望能够变成选择题，理解对方在讲这个话的意思之后，给他一个更好的答案，给他提供智能回复的功能，用户只要轻轻点一下，不需要自己输入。

　　后面还有一个智能分享，在整个输入场景中，用户的需求非常发散，有一些垂直化的需求，需要跳出输入法才能满足，比如说要查找位置，查看电影院，或者定餐，我们可以通过输入法的快速分享，不跳出聊天界面就能完成。

　　下一个是问答，搜索本身就是问答的体现，未来搜索的下一步，也就是问答。为什么给大家提供一个搜索的列表，那是因为之前的技术还不能做到直接给你唯一的答案，更好的体验就是直接告诉你唯一答案，这方面我们搜狗做了比较有意思的事情。

　　第一我们跟清华天工智能计算研究院合作推出了汪仔问答机器人，参加江苏卫视《一站到底》，战胜了真人选手20+次。所有的选手都研究怎么战胜汪仔，但是后来发现，一旦汪仔理解题目之后，基本就战胜不了，选手就会找一些技巧，因为人的推理能力还是很强的，你说一句题目的前两个字，甚至前5个字的时候，就能猜到这个题目，在这样的场景下，最后汪仔败给了人类。

　　第二是搜狗的立知，在大量垂直的文献以及文本语料中搜索，帮你过滤一些你不想要的东西，寻找搜索结果给出答案，通过对语义的理解，问题的分析，形成知识图谱，最后帮助人们。大家知道搜索引擎有一个很关键的叫关键词，引擎不能很好的理解你，被迫让人有一种更机械的方式去交互，要把问的问题，提炼出关键词。自然的交互是会输一些问题，所以搜狗的立知，能让你很自然的去问他，你的问题是什么，并能告诉你一个答案，目前来讲搜狗已经有8到20个点可以明确给出答案。

　　最后一个，也是蛮有趣的事情，今年年初有一波非常狂热的直播答题，我们做了一个答题助手的应用，搜狗的答题助手，调用了整个视频流、音频流，能听出这个主持人问的是什么问题，然后在两秒以内可以给出正确答案。准确率达到95%左右。用了搜狗答题助手的用户，基本上都可以分享现金，所有后来直播平台联合把我们封杀掉了。

　　再谈谈我们在翻译领域的布局，搜狗本身是希望让用户表达和获取信息更简单，翻译就是说让用户跨语言表达和获取信息更简单。

　　从软件上，在我们自己核心产品里，我们已经把我们的技术大量融合到产品中，包括输入法、浏览器、翻译APP，机器同传。硬件方面，我们推出了搜狗旅行翻译宝和搜狗录音翻译笔，后续还会有1到2款新产品推出。

　　翻译技术方面，我们有端对端神经机器翻译模型，使得一个完全不可控的翻译模式在可视化的情况下，可以针对性的进行调优，包括交互方式，语音、文字、对话、图像都可以翻译了，还有这个翻译语种的数字涨得非常快，最早是需要大量的语料，我们做搜索引擎积累了丰富的语料，但是作为一些小语种来讲是很难获得这些语料，所以我们现在就在自己的语料情况下做一些技术的突破，通过搜狗语言，不断的迭代，使得模型接近相对比较优的状况，然后快速地扩充了翻译语种。

　　翻译的需求，每天有1.4亿次，已经覆盖超过1000万的用户，这个量是非常大的。

　　我们看一下输入法里的翻译功能，这是一个语音输入的场景，你说中文就可以直接识别，并给出翻译结果，这个智能，你只要点一下，就能给你翻译成多语言的选择等等。

　　然后对于英文搜索，是挺革命的一个事情，中文信息占到全球信息的储备量，其实是不到10%的，而且本身从我们自己自身的搜索引擎的需求量来讲，接近15个点是有跨语言搜索需求的，所以基于这个，我们就做了一个能够跨语言的搜索，我们把海外一些相对优质的，比如说和医疗相关的，人文相关的，科技相关的资讯，通过我们的搜索引擎收录其中，然后对照翻译，只要在里面输入一些，比如细胞免疫疗法，就可以直接有这个结果，能看原文、译文以及双语对照。今年1月的时候，我们把英文扩大到日韩语种，比如说搜索日本名人的时候，下面就已经有我们从海外别的网站里搜到的信息，使得你更好的了解全球资讯。

　　还有翻译APP，在OCR上我们的准确率达到96个点，因为OCR其实是在计算视觉上是非常难的点，跟你的拍摄，包括跟你的光线、角度有关，这些都是蛮有挑战的事情，前面的对话、文本翻译，是传统的，翻译技术。然后这个OCR功能，有兴趣的朋友可以去体验一下，当你在国外看到一些，比如说菜单、路牌这些，拍照翻译就非常方便，不光是英文，日文我们也支持。

　　然后机器同传，搜狗是第一家推出商用机器同传，在乌镇互联网大会上，我们CEO王小川先生第一次去演讲的时候，大屏幕上会实时显示中文和英文的字幕。我们的机器同传已经支持100多次这样的大会了。

　　下面是我们今年新推出的硬件产品，叫做搜狗旅行翻译宝，一听这个名字就是针对旅游场景，因为在翻译场景，我们可以看到其它的需求方，有学习的，也有商务的，然后旅游是很大的一类，所以我们推出这个产品，是针对旅游场景来做的。现在支持24种语言，覆盖200多个国家，这个产品有两大创新，第一个它是第一个能做到完全离线的翻译机器，这是非常非常厉害的，早期我们可以看到很多传统的翻译模型，是基于统计模型，我们把它是叫做SMT，那个听上去就很明显，但是效果非常差，我们是第一个可以完整的放到模型上去，而且识别准确度是跟云端基本保持一致。第二个是OCR的翻译，在我们之前，其实也有友商推出相似的产品，但我们是第一个做到OCR视觉翻译的，其实直到现在，我们很多人特别是东方人，他还是比较含蓄的，即使你有翻译机，遇到什么事去问一下，还是有蛮大挑战的，能自己搞定就自己搞定，所以拍照翻译这个非常重要，包括你看到商品信息的时候，直接拍照就可以把它翻译成想要的信息。

　　再分享一下我们的离线翻译，这是非常独特的一个技术，首先来讲，在一个翻译机上，中间有三个核心技术，第一个是做到语音的识别，第二个才是翻译，第三个是做的TPS语音合成。现在有很多家都是类似的技术，但是我们的技术建立在云端之上，为什么现在机器学习很厉害？是因为我们计算力带宽非常足够，你要把这个神经网络模型压缩到非常小类似于手机这样的模型，这个是非常具有挑战的。我们把翻译模型压缩，压缩之后有两种，如果压的很厉害，效果会非常差，如果模型很大，效率会很低，这三个是互相牵制的。第一要把模型压的非常小，第二是这个效率要非常高，第三，我们怎么把这个准确性给找回来。在这方面，直到今天，我们可以非常自豪地讲，我们在整个行业是最厉害的。

　　然后是OCR的实景拍照，其中会有一些技术上的挑战，比如说你的光线不是特别好，然后有一些曲面，我们的OCR技术能够避免这些情况，并给出对应的翻译结果。这是我们翻译宝主要的功能，最主要就是能够离线翻译，还能OCR拍照翻译，并且能翻译多个语种翻译，未来我们会做一些和旅行相关的助手功能。

　　最后，我认为语言，首先它是一个民族，是文化的一个载体，它可能决定这部分人的思维模式、价值观。从另外一个角度来讲，语言是人与人之间非常方便的交流工具，大部分人在学语言，其实是需要我们跟别的国家的人，更好的交流，我觉得这部分，以后从技术上就可以完全的实现，关于交流这些交给搜狗这样的公司就可以了，谢谢大家，我的分享就到这。

　　新浪声明：所有会议实录均为现场速记整理，未经演讲者审阅，新浪网登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

责任编辑：谢长杉

文章关键词：中国金融论坛金融科技金融

我要反馈

相关专题： 2018科博会主题报告会暨中国科技创新论坛专题