张胜：智能语音交互与机器人服务渐入佳境_新浪财经

安装新浪财经客户端第一时间接收最全面的市场资讯→【下载地址】

　　新浪财经讯由中国商务部、科技部、工信部、国家发改委、农业农村部、国家知识产权局、中国科学院、中国工程院等国家部委和深圳市人民政府共同举办的“第二十一届中国国际高新技术成果交易会”于2019年11月13日-17日在中国深圳举行。灵聚信息科技有限公司CEO张胜出席“未来科技峰会”交流会并演讲。

　　张胜表示，人类的语言和知识是开放性的，在这种开放性的背景下，让机器达到完全正确响应人类对话，是一件非常难做到的事情。所以自然语言处理才被比尔盖茨称为“人工智能皇冠上的明珠”。另外，在限定域下响应度自然语言处理技术就可以做到比较高的响应度，用灵聚的数据举例，目前可以做到99%以上。例如回答医疗服务的问题，进行语音交互的知识问答游戏等等，目前都可以做到高可用的响应度。

　　以下为演讲实录：

　　各位来宾大家好，非常荣幸和大家分享我们观察到的智能语音服务的发展趋势。我本人在2013年创立广州灵聚信息科技有限公司，同时我也是广东省游戏产业协会的秘书长。

　　自创办以来，灵聚一直在坚持NLP底层技术研发，目前灵聚公司是拥有NLP核心技术的智能语音服务方案集成商。简单来说，机器人与人的对话是不是够聪明，准确响应度如何，其实就是由NLP技术决定的。灵聚一方面提供通用NLP技术对外提供赋能服务，比如华为、思必驰等平台以及软银、优必选、康力优蓝、穿山甲等机器人；同时灵聚也在打造服务垂直场景，使用Super Skills的方式，实现跨平台、跨终端，最终形成生态。在这一方面，灵聚也在与BAT、米等各大平台进行合作，目前在医疗、税务、教育等场景推动落地。

　　在正式分享之前先给大家看一段视频，这是知名度很高的机器人索菲亚，最近一个科技展上又报导了它。

　　视频看完了，大家通常会惊呼，这个机器人这么聪明吗？那么索非亚到底怎么回事？真的那么厉害吗？索非亚最厉害的是面部表情控制。刚才那段视频其实在最后主持人有讲到：今天我们所有的对话其实是预先设定好的，但是大家都没有注意那句话，结果很多人误以为索菲亚特别厉害。

　　另外，日常生活中我们经常接到一些推销电话，听了好半天，才发现原来是一个机器人。这类机器人大多是用了一点关键词加上预先录好的录音。所以人反问几句话马上知道它是机器人，不是真人。

　　当前技术和市场环境下，人工智能还做不到真正自如的对话，尤其是机器人还没有自己的思考和观点。

　　我们目前在落地智能语音服务场景的时候会遇到很多掣肘的问题，现在我们来看看当前的技术到底发展到什么程度。

　　首先我们明确机器人的概念，机器人不一定有硬件本体，它可能也是虚拟的形象。例如它可能是手机的智能助理，它的载体也可能是一个音箱。

　　第二，机器人智能语音服务不是机器人硬件终端，其智能是由背后的“大脑”产生的。而这个“大脑”通常是在服务端。目前NLP技术需要依赖大量的数据和算法，知识图谱和深度学习训练的数据都非常大，开放域通用NLP的数据量和计算模型数量更加庞大，所以一般无法在算力较小的终端芯片中运行，也正因为如此，“大脑”也常被人们称为“云脑”。不过，在特殊行业应用中，我们可以把云端的能力固化到本地局域网的服务器或者是PC上，这是离线本地化交付。

　　第三，机器人不是无所不能的。现在的企业用户越来越务实的认识到机器人擅长：重复性的工作和人无法做的工作，比如一些危险的工作，也例如安防巡逻工作，或者是7×24小时的不间断客服工作。基于这样的务实认知，才有现在更加务实和广泛的商业落地场景。

　　那么从技术角度出发，目前的NLP技术到底能实现什么？从我们自己的实验数据分析，首先在开放域对话中，机器的真实响应度接近50%。人类的语言和知识是开放性的，在这种开放性的背景下，让机器达到完全正确响应人类对话，是一件非常难做到的事情。所以自然语言处理才被比尔盖茨称为“人工智能皇冠上的明珠”。另外，在限定域下响应度自然语言处理技术就可以做到比较高的响应度，用灵聚的数据举例，目前可以做到99%以上。例如回答医疗服务的问题，进行语音交互的知识问答游戏等等，目前都可以做到高可用的响应度。另外从技术上来讲，还有另外一个词汇，叫做多轮交互，通常是指人类与机器人对话所能达到的对话轮次。从理论角度，多轮交互无论是开放域还是限定域都可以做到无限轮次，但是人的心理体验不同，不一定能进行无限轮次。比如，在当前开放域对话测试时，用户和机器人对话20多轮之后就不想说话了，因为随着聊天的推进，用户会发现交互的内容在兜圈子，或者机器人发起的话题引不起用户的聊天兴趣，用户就终止对话了。因为目前机器人，还不能从语音语义和视觉的角度去理解人类的情感，而对话通常是以情感作为支撑的，所以目前在通用的开放域对话下，多轮对话做的并不够好。当然在一些任务型场景下，多轮的对话就可以支撑用户完成一项任务，例如灵聚可以通过任务型对话，在用户不看屏幕的情况下，呼出电话、发出短信。

　　在智能语音服务能力方面，现在我们已经可以做很多事情。早几年大家都想拥有一个像科幻电影中的机器人，但以目前的软硬件技术目前还做不到。但是，当行业内的需求开始务实之后，我们发现很多领域已经可以提供有价值的服务了。比如说，刚刚提到的生活助理可以帮你呼出电话、制定提醒，在一些商务场景中，机器人可以提供迎宾、讲解、导购、推荐、客服服务等。

　　通过开放域加限定域的组合，目前已经可以在垂直场景中做到比较好的体验，尤其是可以在局部替代人工的工作。这里有一段视频，是展示实际的点餐案例，大家可以先看一下。从视频中大家可以看到这样一些能力：第一，一句话包含多个意图，甚至相反的意图，机器都可以理解，例如：给我来两杯咖啡，一杯要冷的一杯要热的，冷的要拿铁，热的要卡布奇诺，算了拿铁不要了；第二，通过配套的CMS系统，餐厅服务员可以自己修改菜单内容，不再需要有技术公司进行训练，这样就方便大规模的普及应用。像这样一些服务技能可以同时ToB和ToC，比如我们做的医疗服务技能也是如此。

　　另外在机器人的情感表现力方面也取得一些进步。比如像阿里和百度的TTS现在都支持SSML标签。通过人工大脑分析语境和输出内容的语义自动插入SSML标签就可以控制语音合成的效果了。这样，语音合成不再是单一的语速和语调，而是根据语境和语义有不同的节奏，甚至是自动配背景音乐。接下来有一段视频，朗读诗词时的背景音乐都是TTS自动合成进去的。未来这样的技术会使得我们机器人的情感表达更丰富。另外，在高噪声环境下的语音识别一直是很头痛的问题，目前通过非等距MIC阵列+机器视觉成功解决了高噪杂环境的语音识别问题，也使得智能语音服务的场景可以更广泛了。

　　对于未来的趋势我们也有一些观察，这里和大家分享一下。

　　首先就是超级技能的生态。从亚马逊开始，国内的阿里、华为、小米、百度、腾讯、讯飞都在构筑自己智能开放平台。这些平台都采用了技能的方式，允许第三方服务商发布技能。但是这样发布的技能又存在一些问题，例如它没有实现跨平台跨终端的服务。包括基于平台本身的能力所研发的技能，它的服务能力非常有限。所以Super Skills就显得很有必要。Super Skills具备两个特征，第一，一个技能里面包含多个技能、能力，可以更完美的解决场景的服务需求；第二，它打通了各个不同的平台和终端，甚至连B端和C端都打通，比如灵聚最近推出的智慧医疗服务技能。将来就是同时使用天猫精灵音箱和百度音箱的人实际是可以互通他的个人数据的。

　　第二是轻量级的智慧服务。此前许多智能语音服务需要与业务系统深度对接，遇到实现难度大、交付周期长等诸多问题，主要是想一步到位解决问题，但目前人工智能技术整体处于初级阶段，还在快速发展，现阶段不可能一步到位解决所有问题。打造高性价比和快速个性化的轻量级智能语音服务集成方案可以在很多场所替代人，因此更容易大规模普及应用。

　　第三在智慧养老和智能家居方面的趋势。我认为未来大屏幕电视机可能会成为智慧养老的一个真正的智能控制中心，而不是一个具体的机器人。因为在电视机上的虚拟人既可以成为老人的孙子形象，也可以是老人当年梦中情人的印象。通过电视和分布在屋内多处的语音交互控制模组可以控制全屋，而全屋各个设备不需要全部装上主机和屏幕。此外还可以跟老人的智能手表进行协同控制，并且可以实现控制权自动交接等等。

　　最后，对于未来，随着人工智能越来越多普及到生活的方方面面，在便捷的同时我们将面临一个很大的问题，就是用户隐私与更加优质的用户体验之间的矛盾问题。这个问题需要所有从业者一起思考如何平衡这个矛盾。谢谢大家。

　　新浪声明：所有会议实录均为现场速记整理，未经演讲者审阅，新浪网登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

责任编辑：李昂

我要反馈

相关专题： 2019中国高新技术论坛专题