杜小军:中文语义识别类脑辅助系统实现与应用

杜小军:中文语义识别类脑辅助系统实现与应用
2018年11月14日 15:06 新浪财经
北京中润普达(集团)有限公司联合创始人、CEO杜小军 北京中润普达(集团)有限公司联合创始人、CEO杜小军

  新浪财经讯 “第二十届高交会-中国高新技术论坛”于2018年11月14日-16日在深圳举行,本次论坛的主题为“坚持新发展理念、推动高质量发展”,北京中润普达(集团)有限公司联合创始人、CEO杜小军出席配套会议“未来科技峰会”并演讲。

  杜小军称,人工智能是AI发展的焦点,也是释放AI产能的关键,图象识别已经在智慧城市广泛应用,相关的大数据金融方面的应用已经蓬勃开展,这个从根本上推动了技术的创新和产业的发展。他认为,从认知智能到感知智能向人知智能趋势是必然的。

  以下为演讲实录:

  杜小军:非常感谢有这样的机会,我们公司从2014年开始创业,主要聚焦大数据方面,最近我们团队围绕中文大数据做了一些探讨,有一些成果和一些基本思路在这里跟大家汇报一下,坦率讲,今天韦总提到很多思路和想法,给了我们创业者更多的指导,通过这样的一些实践,或许让更多在人工智能领域技术创新者少走一些弯路,我们走过的弯路,希望大家少走一些。

  人工智能,我们为什么聚焦在语义识别方面?目前中国的语音识别以科大讯飞为代表,图象识别以商汤旷世为主。

  我们服务过十多个部委包括300多家民营企业,在这个过程中,对互联网开放的数据如何用技术解决数据采集构建语义识别方面积累了大量经验,所以在这个领域我们投入了将近2-3个亿的研发资金,进行深入探讨,我把我们在这方面探讨的基本情况作个简单汇报。

  我们认为,无论图象识别、语音识别、语义识别都是我们类脑系统里面基本的基础性技术,这些技术如此庞大复杂,单纯靠民营企业是无法把这个事情说清楚的。但是我们选择这个,有几个基本判断,认知计算是泛人工智能的核心技术之一,现有的技术还难以解决认知智能的一些问题,根本原因是,过去用的数学模型包括一些语音体系在解决这个问题。但是,我们更多的是希望机器人能够具备理解能力、归纳能力、演绎能力、推理能力等等,我们看到还没有一些突破点能够让机器具备这个基础能力,怎么办呢?我们认为认知智能是AI发展的焦点,也是释放AI产能的关键。目前基于图象识别,已经有一些创业者进行突破,并在智慧城市应用,包括大数据金融方面,已经蓬勃开展,这从根本上推动了我们技术的创新和产业的发展。

  从运算智能到感知智能,到下一步向认知智能发展,这个趋势是必然的。在这个过程中我们缺少语言领域大量的理论工作,如果说机器可以理解或者至少是有机器可以识别人类自然语言的词汇体系,如果这是一种可能的话,那么应该有一套对初始词汇的完整定义,通过特定的机制,包括分词、句子的体系,来添加新的词汇定义。我们团队包括我个人认为如果哪一天,语言学摸到了“基因”层面,人工智能也就真正摸到了“自然语言”的大门口,从这个角度,也是我们团队根本原因是切入到自然语言的处理的考虑。

  基于过去一两年研发的实践,我们构建了一个AI中文类脑辅助系统。这个系统我简单介绍一下,是基于我们专家技术团队产生了一个发明专利,首次提出把人脑当作系统信息处理考虑,从整体动态角度构建一个分词,包括动态的认知矩阵和模型,在此基础上让各种场景的汉语分词,包括模型之间形成竞争关系和类脑系统的加工模式,完成类脑的集散,并解释语言、分词、意群以及句子等生成的神经机制和原理。包括我在内理解这个事情都比较困难,这个发明专利诞生后,我们据此形成了这套类脑系统,简单理解就是一个“中国人的大脑”,我们的汉语和英文在处理上有根本差别,未来中美在人工智能的争夺战,中国要胜出的话,尤其在中文语义识别方面,我们远远要比美国强得多。我们构建了新的算法和颠覆性的应用,我们做的是让机器与人沟通交流的人工智能中文语义类脑辅助系统,目前的泛人工智能还做不到代替人脑或者跟人脑有多么强的关联性,所以我们认为它是辅助系统。

  在具体的场景目标任务下,通过添加分词并植入这个类脑计算系统,无需写代码,系统可以帮助终端、机器和设备等具备自我学习、发现、理解、推理等各种能力,并形成自我知识体系。它让机器像人一样,实现智能对话、智能客服、智能聊天、句子生成、知识发现、知识生成、模式识别等等。

  “魔系AI”为各类机器人配备中文语义大脑,使其能够听懂用户的基本意思,更好地与人类交互。这是我们目前阶段的水平和能力,魔系本质上是为各行业具备场景化定制我们的基础技术能力的输出,同时为每个机器设备提供基于数据能力开放的接口,在这种技术模式下实现我们后面的商业模式。所以人工智能的语义类脑计算技术四大特点,第一是中文分词矩阵模型,我们的特征是基于中文分词的模型矩阵。第二是多模态话语识别技术,在交流过程中词与词的矩阵式同时动态发生,不是静态的,而我们大部分的数据模型,相对静态,固定化。第三个是机器学习融合人类知识,在这些背后都有大量基础数据处理,需要大量的人工来实现对语义的人工处理,这个我们深受其苦。第四是扩展场景。

  我们能够快速搭建中文语义类脑系统,是基于按照魔系AI的操作程序,只需添加分词、意群和句子,导入模板,引用新的技术。我们已经在部分行业有相应的后台基础模板,能够快速生成人机对话的应用场景。

  “魔系AI”针对不同用户需求提出多样化解决方案,针对不同场景提供行业的应用。我们想法是,不仅仅融入中文语义识别技术,还要考虑头像识别技术等等人工智能技术,这个想法非常庞大,也期待未来跟更多的合作伙伴在这个领域发展,在融合技术方面我们也需要加强。

  最后,我们赋予机器和设备人工智能初级的语义能力,基于分词矩阵形成的语义大脑,不是为了制造什么噱头,而是希望机器人真正从语言和词汇入手,拥有一个类人脑语言和语义的发挥系统,哪怕是一点点类脑功能,帮助人类更好的生活、工作,解决生产中的各种问题,在我们的不断努力下,充分释放AI技术的潜力,使每个机构与个人都能拥有平等的机会,拥抱崭新的AI时代,也就实现了我们最终的目标。

  我的演讲完了,谢谢。

  新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

责任编辑:谢长杉

高交会 科技 峰会

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

7X24小时

  • 11-22 新农股份 002942 14.33
  • 11-20 宇晶股份 002943 --
  • 11-19 海容冷链 603187 32.25
  • 11-15 新疆交建 002941 7.18
  • 11-06 贝通信 603220 7.85
  • 股市直播

    • 图文直播间
    • 视频直播间