杜小军:中润普达在人工智能语义识别领域的成果

杜小军:中润普达在人工智能语义识别领域的成果
2019年05月30日 16:01 新浪财经

牛市来了?安装新浪财经客户端第一时间接收最全面的市场资讯→【下载地址

北京中润普达(集团)有限公司联合创始人、CEO杜小军 北京中润普达(集团)有限公司联合创始人、CEO杜小军

  新浪财经讯 “2019中国智能产业论坛”于2019年5月30日在北京举行,本次活动为京交会论坛活动之一,主题为:“智能+”引领未来,北京中润普达(集团)有限公司联合创始人、CEO杜小军出席并演讲。

  杜小军曾经接受马来西亚国家工业和信息化部、美国的贝尔实验室以及一带一路的政府和机构的邀请,共同致力于全球中文大数据跨国研究和技术的实践。

  以下为演讲实录:

  杜小军:非常感谢再这样一个场合和机会,我想向和大家分享一下我们团队在人工智能的语义识别方面近两年一些研发和应用实践。我记得去年在第二十届深圳的高交会上,中普达在中文语义识别方面获得一些技术的突破,在技术的底层研发上,形成了对中文语义识别的一个技术研发思路和找到一些突破口。今天我就把这我们最近的实践成果跟大家作一个分享和汇报。

  中润普达核心技术是围绕中文语义识别,构建在人工智能产业技术实践路线。前面无论是联想还是微软的同事他们聚焦在人工智能的工业、产业赋能方面,取得了很大的成就。这些公司研发实力很强,投入也很大,效果也比较明显,但有一个共同的特点都是在人工智能深度学习方面,都在持续进行探索,从这一点来说,大家的机会的平等的。我们都看到认知计算是泛人工智能核心技术之一。正如联想的徐总谈到的一样,过去的人工智能大家提出的思路是“让机器想人一样”,所以大家都把机器设计和开发的形状和动作像人一样,比较长得像人。但是我们提出来“机器像人一样思考”这个目标,在这方向上我们希望机器长得怎样不是重点,重要的是应该像人一样去理解、解释、规划,甚至可以演绎、归纳等这样的思维能力。具备这样一些可能,这当然是我们的一个想法或者是我们下一阶段的一个目标。

  为了实现这一个想法和目标,当前的很多工作尤其是技术研发工作需要去做。近两年投了不少的资金,在这方面深度研发上做了一些工作,实事求是的讲,正如微软的韦青总刚才讲的一样,越往前走感觉难度越大,越是无人区。比如说语义这里面任何一个问题,让机器人去理解,让机器人推意归纳,通过构建知识图谱,搭建深度的学习模型,在算法上提升等,都是一些解决办法,但对中文来说,这些确无法解决到应用层面,最终效果不好。达到技术商用的目标还有很长的一段距离。但是我们必然往前走,这个也是大家的共识。我今天就想重点介绍一下,我们团队在实现这样一个问题上的路径是怎来做的?

  我们认为认知智能是AI发展的焦点,也是释放AI产能的关键。在这领域我们过去看到计算智能,它里面非常有明确的规则,也适合我们现在的一些特定的领域,也就是当我们数据足够量大的时候,数据算法足够明晰和能力够强的时候,从计算智能到感知智能发展是非常快的。从BI(商业智能)应用到IOT(物联网)应用,应用层出不穷,市场上已经相对比较成熟的应用。但到认知智能这一块,需要通过语音、图像、语义等数据通过机器来识别和理解清楚,实现应用,这个的难度就不是一般的大。在中文语义方面尤其是比较明显。

  非常值得一提的是,我们选择在认知智能这一个领域不断的进行突破,让机器像人一样的思维能力,那么怎么做到呢?我们看到有几个条件来让我们距离这一目标的实现也有基本条件。一是海量的数据,为机器学习提供了养料,但是数据融合和流通是当下的难题。我们看一下互联网技术让我们衣食住行行业的互联网化、数据化在这过程当中产生的数据是海量的,无论是数据是结构化还是非结构化的数据,当前都需要进行第三方机构参与,构建第三方数据的流通和交易平台,这个才能够为人工智能产业提供基本的“粮食”。中润普达公司参投和运营了多个大数据交易中心和平台,就是为这个事情做的准备。我们还参与了江苏省大数据流通和交易工程实验室,目的是工程技术方面为第三方数据流通和交易市场提供公共研究平台,助力大数据和人工智能产业的发展。做这个事情的核心目的也是为未来的机器提供足够多的有价值的这种海量的数据资源,让机器有获得足够的“粮食”,这也是我们在人工智能产业发展中的一个提前布局。

  二个是语义识别技术到产业端的应用,紧紧数据是不够的,还需要通过对数据的价值挖掘,通过产业级的知识体系的重新构建,让应用的创新变得可能。我给大家作一个简单的汇报。

  、像大健康行业,我们看到亿欧智库发布了一个报告,到2020年人类产生的医疗数据总量达到40万亿的GB,这个数据规模挺大的,但是问题是不是都能够被机器认知,是不是都能服务于人工智能智能化的场景应用里面去,这是当前我们碰到的一个核心问题。一种做法是比如我们现在的理论和研发体系都是把所有的数据都进行结构化,这样机器才能够使用。但这个是不够的,医疗行业的病历数据、问诊数据等都不是一样的数据结构。我们的做法是从新构建知识体系,把这些数据按照用户和应用场景的的需要融合起来,再设计让机器理解了得语言环境和体系。在这个知识体系重构过程中,每个团队都有自己的发挥空间,把创新的支点从单点走向多点。这个是我们的一个首创。

  我们也认为认知计算目前有三大商业应用:一个是产品类应用将认知计算嵌入到产品内,来实现智能行为、自然交流(比如说和看)以及自动化;二个是流程类应用使用认知计算来实现业务流程自动化;三个是分析类应用使用认知计算来揭示模式、做出预测以及指导更有效的行动。做和这三个方面的商业应用落地,这样就有方向。

  三是有了知识体系的重构,有了落地的方向,但应用的创新也需要和具体的场景和产业应用结合起来。我们的具体做法就是,在具体的场景和目标任务下,通过添加分词,分词就含有意群,并植入这类脑计算系统,无需写代码,系统可以帮助网络机器和设备具备自我学习、发现、理解、推理整个的能力,并形成自我认知的知识体系。当前对于我们来说我们希望把行业的知识图谱和我们自己构建的这种知识图谱能够结合起来也是下一步的重点工作。

  我们开发的魔系AI,就是从这个角度,能让机器人和人一样一样实现智能对话、智能客服、智能聊天,句子生成、知识发现、模式识别、智能分析等基本类人化行为,并按照专署应用场景的知识业务,实现和场景的结合。现在是1.0版,这只是初步解决了一些问题,还没有公开公测上线,这过程花费了大量的精力和时间在这领域进行突破。

  围绕这一个领域我们把一些应用和行业结合起来,这就是我们碰到现实的客观问题,紧紧依靠我们这技术它很难走向深入,所以我们就不断的和相关行业结合起来,形成了一些微创新,这一些微创新进一步补充和丰富目前的中文语义识别技术的产业化创新。

  第一个健康拍征,拍征是成熟的语义识别智能诊断辅助系统,通过海量的疾病知识的体系构建形成的辅助诊断,从科学上把诊断搞清楚,而不是目前这个行业里面的诊断的“黑匣子”,我们做到把中医的“望闻问切”全部搬到互联网上,我们把数千种疾病的知识体系重构了一遍,为每一个疾病和细分类别构建了新的纬度,再融合实时的病症拍照、识别血样检测数据等,再辅助以根据场景需要的算法,并通过用户的使用来让机器参与深度学习。这个在国内也是很少见的一种创新做法。

  我们为了弥补疾病数据的不足,在化验单的数据的挖掘方面,我们开发出了血常规的拍征。我们都知道血常规,也就是化验单是一些老百姓看不懂的一些维度和数据。我们用中文语义识别技术,把病历结构化并且挖掘陈数据深层的价值。我们目前很多拿到化验单以后都是在椅子排队等着医生看到底什么问题,其实很多过程中,我们把这样一个化验单拍完以后我们马上可以实现像医生一样对你验尿、血常规等其他生化检测做出快速的分析。这些数据就是对前面疾病知识体系的补充和融合。

  我们做了的健康拍征,将这领域进一步和产业进行深度融合。比如优食健科技,是我们和中科院院士团队合作,开发的前面是智能诊断,后面是精准的功能性食品的提供,就是把智能技术仅仅作为整个产业链的环节。这样把人工智能语义识别技术和大健康行业结合起来。所以我们目前优食健康科技专门致力于功能食品的研发和销售。为糖尿病斌任,高血压和肥胖病人提供功能性食品就是这样的一个商业模式。那么,怎么确定你是慢性病人呢?我们要在随时诊断的过程中提供科学的诊断服务,人工智能语义识别的智能诊断工具就派上用场了,并且这个是非常科学的。所以这是我们目前赋能在产业链上的一个案例。   

  类似的,汽车拍征也是利用这个思路来做的汽车各种症状和征兆的知识体系重新梳理和生成。自古咱们国家的中医讲“望闻问切”,很多有经验的汽车技师可以根据汽车发出的各种声音辨别故障。车征宝是一款专注于汽车故障智能诊断的手机APP应用,采用汽车通用的故障检测、诊断流程,运用中文语义、人工智能、大数据和语音识别技术,在线模拟检测、诊断、维修场景,一键自诊,快速诊断和预测汽车可能的故障和危险。汽车故障千千万,任何车辆在出现故障前,都会有不同的症状和先兆(或者苗头)出现,不同的症状和先兆(或者苗头)显示出不同的故障和危害。如果反应太慢,或者掉以轻心,甚至不当回事情,可能出现车毁人亡的危险。这个里面大量的汽车知识体系的构建,和场景中的图片、声响和用户描述的数据,都需要让机器能够读懂。我们的目的是,3分钟让你成为一个专家,也就是汽车诊断的辅助系统。

  还有作物拍征,我们是为每一个农作物拍一个照片,我们告诉你作物害了什么病,下面有一个农业科技的人助手,也是我们行业和实体经济密切结合起来。还有菜品拍征,我们把每一次营养、健康等等和日常生活密切结合起来,同样可以为我们的健康服务。

  最后我们把魔系和拍征结合起来,把语义识别、语音识别、图像识别的技术结合起来,为每一个终端装上专属场景的有知识会聊天的能决策、能自主学习的并且有性格、有性感的中文语言交流沟通的大脑也就是类大脑系统,当然现在不是叫大脑是叫类大脑系统。

  目前这研发应该说是已经在这一条路上很坚定的往前走,逐步会有一些具体的应用在行业当中展开。当然这过程当中也希望得到各位的支持和帮助。

  好,谢谢大家。

  新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

责任编辑:谢长杉

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

7X24小时

  • 06-24 红塔证券 601236 3.46
  • 06-11 松炀资源 603863 9.95
  • 06-11 元利科技 603217 54.96
  • 06-04 国茂股份 603915 --
  • 06-04 卓胜微 300782 --
  • 股市直播

    • 图文直播间
    • 视频直播间