设为书签 Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。 您也可下载桌面快捷方式。点击下载 | 新浪科技 | 新浪首页 | 新浪导航

“万能生成器”GPT-3斩获NeurIPS最佳论文

2020-12-10 09:28:05    创事记 微博 作者:   

来源:硅星人

文|杜晨    编辑|Vicky Xiao

近日,人工智能顶级学术会议 NeurIPS 2020,因为疫情的影响,在网络上正式召开。

大会组委会公布了参会者和全球AI研究者、实践者最为期待的奖项名单,结果也在意料之中:科研劲旅 OpenAI 提交的超强生成模型 GPT-3 论文(和另外两篇论文一起)斩获本届 NeurIPS 最佳论文奖!

这篇论文标题为 Language Models are Few-Shot Learners, 意即语言模型也可以成为小样本学习的利器。(arXiv:2005.14165)

OpenAI 研发多年的 GPT 语言生成模型迭代到第三代后,不仅能够生成各种格式(如新闻、小说、对话等)以假乱真的文本内容,还获得了十分强大并且多样的新能力,包括并不限于翻译、问答、算数等。

不仅如此,OpenAI 还前所未有地将 GPT-3 开发成了一个服务,提供了可以调用的 OpenAI API,并少量提供给包括学术机构、商业公司和个人开发者在内的公众进行测试。

在今年早些时候的一篇文章中,我们着重介绍这些拿到 OpenAI API 体验资格的人士,在 GPT-3 强大能力的加持下做出的很多有趣的 demo. 

比如,有人利用 GPT-3 的翻译能力,开发出了英语→LaTeX 数学公式的翻译器:

还可以用自然语言进行描述,十秒钟生成一个Google 首页:

如果把 GPT-3 放到谷歌表格里,做成一个可以调用的函数,它将无所不能,可以自动查找美国各州的人口,还能查询知名人物的社交网络账号:

个人开发者 Kevin Lacker 对 GPT-3 做了一次图灵测试,发现它在绝大部分知识类、常识类、逻辑类的问题,甚至很多角度十分刁钻的问题上,表现非常令人惊讶。“如果十年前用同样的问题做测试,我会认为答题者一定是人。现在,我们不能再以为 AI 回答不了常识性的问题了。” Lacker 在他的博客文章里写道。

GPT-3 取得这样的能力也有着巨大的代价,也恐怕只有财力雄厚的 OpenAI 能够支持:它的训练过程使用了超过1750亿参数,是其它已知的非稀疏语言模型的十倍。

NeurIPS 2020 组委会在评语中写道:当语言模型的参数提升到如此前所未有的规模时,它能够成为小样本学习模型,而且竟然还可以在无需额外训练的基础上,在很多任务上取得非常有竞争力的成绩。

对于这篇论文在人工智能研究之于社会影响方面的探讨,组委会也是赞不绝口。评语写道:这篇论文对于其研究更广泛的影响也进行了非常深入和有深思熟虑的阐述,对于整个 NeurIPS 社区在思考科研对于真实世界的影响提供了一份范例。

NeurIPS 2020 组委会甚至有点预告 GPT-3 在十年后很有可能获得时间检验奖(Test of Time Award, 地位等于其它学术会议的经典论文奖)的意思。它的评语是这样写的:(GPT-3取得的)结果非常令人惊讶,将会在相关领域内造成深远的影响,并且有可能经受住时间的考验。

另外两篇最佳论文奖得主:

No-Regret Learning Dynamics for Extensive-Form Corellated Equilibrium. (arXiv:2004.00603)

这篇米兰理工大学和卡内基梅隆大学研究者的机器学习论文,解决的是一个对于现实世界特别有意义的问题:如何在社会活动中更好地找到均衡。更准确来说,这种均衡叫做“相关均衡”(correlated equilibrium),比人们更经常听说的“纳什均衡”对于社会更有帮助,而且用机器学习的方式更容易计算出来。

而这篇论文提出的结果,解决了博弈论、计算机科学和经济学交界的一个长期存在的问题,对于诸如导航软件路线规划等涉及到博弈论的应用场景,都会有很大的帮助。

Improved Guarantees and a Multiple-Descent Curve for Column Subset Selection and the Nyström Method. (arXiv:2002.09073)

在机器学习的过程中,数据总结是一项重要的工作,但在过去很长时间以来,人们往往认为从越来越大的数据集中提取小且又代表性的子集作为数据总结,是一件很难的事情。而这篇来自UC伯克利的论文指出更优秀的数据总结方法是存在的,对于机器学习研究者可以说是期待已久的福音。

NeurIPS 2020 时间检验奖:

HOGWILD!: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent (arXiv:1106.5730)

梯度下降是机器学习范畴内的和新方法,而随机梯度下降 (stochastic gradient descent) 是机器学习的关键算法之一。为了优化机器学习模型,以前的研究者需要并行运行随机梯度下降算法,但当时同行提出的一些方法都对于性能有明显影响。

由华人第一作者 Feng Niu 等人在 NIPS 2011 上发表这篇论文,提出了一种全新的并行运行随机梯度下降的 HOGWILD!: 方法,在同行方法上有较大的创新,对于机器学习训练的优化带来了很大的帮助,显著影响了后来的机器学习研究。

通过比较历史引用、近期引用数量,以及召集本届组委会的高级专家投票,Feng Niu 等人的这篇论文,从2009-2011年的12篇 NIPS 论文中脱颖而出,获得了今年 NeurIPS 的时间检验奖。

(声明:本文仅代表作者观点,不代表新浪网立场。)

分享到:
保存   |   打印   |   关闭