一年前的标准已过时!Facebook推出新NLP标准测试平台

一年前的标准已过时!Facebook推出新NLP标准测试平台
2019年08月17日 07:00 智东西

2019“银华基金杯”新浪银行理财师大赛重磅来袭,报名即可领取666元超值好礼,还有机会获得经济学家、高校教授等明星评委专业指导,拿万元奖金,上新浪头条。【点击看详情

原标题:一年前的标准已过时!Facebook推出新NLP标准测试平台 来源:智东西

智东西(公众号:zhidxcom)编 | 年年

导语:原有NLP能力测试OUT了!新NLP测试基准平台“SuperGLUE”来啦。

智东西8月16日消息,据外媒报道,Facebook AI联合谷歌DeepMind、华盛顿大学和纽约大学,推出了一个衡量人工智能NLP(自然语言处理)能力的基准平台——SuperGLUE。

SuperGLUE是在GLUE平台的基础之上成立的,通过综合人类表现建立了一个更加困难的NLP衡量标准,能够测试NLP在问题处理和语义理解方面的能力,并在测试后给于相应的分数。

据了解,SuperGLUE的创建是由于对话式人工智能模型在各种测试基准上已经“达到了一个上限”,需要更大的挑战来提高其NLP能力,2019年1月至今,GLUE榜头名已经被微软、谷歌、Facebook刷新3次。

一、对话式AI基准已达上限

近日,Facebook AI实验室与纽约大学、谷歌DeepMind实验室和华盛顿大学合作,推出了一个衡量人工智能自然语言处理(NLP)能力的基准平台——SuperGLUE。

GLUE平台

Facebook AI表示,这个名为SuperGLUE的基准测试平台建立在一个名为GLUE的旧平台之上,该平台是由谷歌DeepMind、华盛顿大学和纽约大学在2018年成立的。

SuperGLUE的创建是由于对话式人工智能系统在各种基准上“达到了一个上限”,从今年1月到现在,GLUE榜单的头名已经被微软、谷歌、Facebook刷新了3次。

“在发布后的一年内,几个NLP模型已经超过了GLUE基准测试中的人类表现。目前的模型已经推出了一个更有效的方法,它将大型文本数据集上的语言预训练模型与简单的多任务和转移学习技术相结合,”Facebook表示。

根据Facebook AI,SuperGLUE的基准测试包括一系列十分困难的NLP任务的创新,这些创新集中在机器学习的一些核心领域的上,包括采样效率、传输、多任务和自我监督学习。

在执行基准测试之后,Superglue提供了一个单一的数字度量,总结了人工智能在完成基准测试后处理各种NLP任务的能力。

二、BERT COPA测试准确率仅有74%

根据Facebook AI,人类可以在可信的替代选择(COPA)测试上获得100%的准确率,而谷歌的BERT仅达到74%,这意味着NLP有很大的改进空间。

该研究联盟还开发了一个排行榜和PyTorch工具包,用于与SuperGLUE一起进行研究。

Facebook AI也在7月份推出了一套独立的长格式问答数据集和基准测试,这要求机器提供长而复杂的答案——这是现有算法以前从未遇到过的挑战。这个长格式问答挑战需要机器对开放式问题进行深入的回答,例如“没有大脑水母是如何工作的?”

XLNet在一些NLP任务上超过BERT

与此同时,Google在6月推出了一款名为XLNet的神经网络,该搜索巨头表示,在实际训练计算机如何在真实世界文档中显示语言方面,它比BERT更好。

“BERT”是谷歌在2018年10月正式推出的基于双向 Transformer 的大规模预训练语言模型,其能高效抽取文本信息并应用于各种 NLP 任务,所以非常适合语言理解任务。

结语:NLP水平提升迅速

近几年AI发展迅速,作为AI能力的重要一环,NLP水平也在不断的研究下得到了飞速的发展,目前智能语音识别准确率已经达到了95%,语义理解准确率也比最初提升了一大截。

随着AI水平的不断提高,原有的能力测试平台已经不能够满足现有技术水平下NLP能力测试,这也是Facebook AI这次联合谷歌DeepMind和华盛顿大学、纽约大学推出的SuperGLUE的原因。

Facebook 基准测试

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

7X24小时

  • 08-21 南华期货 603093 --
  • 08-15 日辰股份 603755 15.7
  • 08-14 小熊电器 002959 34.25
  • 08-14 唐源电气 300789 35.58
  • 08-14 松霖科技 603992 13.54
  • 股市直播

    • 图文直播间
    • 视频直播间