“神经网络之父”Hinton 引领机器感知浩瀚的人类语言文明【算力全球瞭望塔】|单词_新浪财经

下载新浪财经app，追踪全球币市行情

作者：周嘉莉

编辑：生煎

算力说

在自然语言处理（NPL）领域，深度学习正是目前热门的研究方向。在谈到实体识别、机器翻译等神经网络的高级功能前，最先需要解决的问题是如何让人类语言成为神经网络可以识别的数据类型。相比于图像、语音等较为低级的数据表示形式，语言是人类在数百万年演进中产生的一种抽象思维表达工具，机器在字面不同的两个词面前难以刻画它们之间的联系。视觉图像嵌入技术将帮助神经网络在复杂的上下文中获得丰富的语义信息，跨越语义的鸿沟。

本期编译文章来自于“深度学习之父”Geoffrey Hinton于2018年在自然语言处理领域顶级会议ACL上的获奖论文——《说明性语言理解:大规模的视觉基础与图像搜索》（Illustrative Language Understanding: Large-Scale Visual Grounding with Image Search）。Hinton在该文中探讨了图像搜索引擎在获得语言和图像之间通信的作用，重点介绍了一种大规模的基础语言查找操作系统Picturebook，并在单词相似性、语义相关性、情感/主题分类等广泛的任务中进行实验并报告结果。

Geoffrey Hinton被称为“神经网络之父”、“深度学习教父”，是美国人工智能协会AAAI院士，谷歌人工智能首席科学家，首先将反向传播算法应用到神经网络与深度学习领域。

【算力观点】

自然语言处理领域中，尽管词嵌入技术在将文本数据转换成便于机器直接使用的实值向量时是有效的，基于图像搜索引擎的视觉化语言模型将允许模型学习语言的更高级细微差别。Word2Vec、Grove等词嵌入技术通过分析一个词的邻词（也称作语境）来确定该词的含义并转换为易于使用的数字特征，但词嵌入技术无法捕捉到可能发挥更大作用的高层次信息，且初始化的模型需要从头开始学习。

Picturebook嵌入法作为使用图像获取单词表达的新方式，将在大型数据集上学习分类图像，并可以与其他信息嵌入模式相融合。在本文的一系列模型实验中，这种嵌入方式在辨识单词近邻、情感偏向和机器翻译等任务中表现良好，这预示着自然语言处理或取得阶段性进步。

构建自然语言的基础表征：一个有希望实现类人语言学习的步骤

近年来，大量的研究集中在视觉与语言的结合上，以获得视觉化的单词和句子表征。在现有的工作中，被使用的一个基础资源是图像搜索引擎。搜索引擎允许我们获得语言和图像之间的通信，这比现有的多模态数据集的词汇限制要小得多。虽然真正的自然语言理解可能需要完全嵌入的认知，但搜索引擎让我们能够从数百万覆盖了物理世界的“快照”中找到准基础。

本文将介绍使用单词作为查询对象进行图像搜索生成的Picturebook嵌入法。Picturebook嵌入法是通过一个经语义排序和目标训练的卷积网络，在一个拥有1亿多张图像的专有图像数据集上获得。使用谷歌图像搜索，将卷积网络的k个特征向量连接到检索到的top-k搜索结果上，便可以得到一个单词的图集嵌入。

图1：ImageNet 大规模视觉识别挑战赛（图片来源：Xavier Giro-o-Nieto）

Picturebook嵌入：一种隐式图像搜索形式

使用图像搜索获取单词表示集合并不新鲜，已有研究使用其他图像来源，如ImageNet （Kiela和Bottou, 2014），Flickr photos and captions (Joulin et al.，2016)。我们的方法主要在三个方面不同于以上方法:

a. 我们基于搜索获得的表示超过二百万字而不是几千。

b. 我们的表示可以应用到更多样化的任务中。

c. 我们引入一个多通道闸门机制,允许更灵活的集成而不仅仅是连接。

图2：图像搜索的现有方法及其考虑的任务（图片来源：该篇论文Table 1）

在生成模型问题时，我们希望执行相反的操作。给定一个图片集嵌入，我们希望找到与其表示形式最接近的单词或短语。例如，给定英语单词“bicycle”及其图册嵌入，能够生成这种表示的最相近法语单词(即“vélo”)。我们想要在Picturebook嵌入法下执行这个逆图像搜索操作，所以引入一种辨别机制（differentiable mechanism），它将允许我们在图片集嵌入域内对源语言和目标语言中的单词进行对齐。

相关实验：评估嵌入的有效性

单词的近邻

为了了解模型学习的表示形式，我们首先计算几个单词的最近邻结果，如图3所示。这些结果可以这样解释:“邻近单词”与查询中的单词在语义上相似，通常这也能捕捉到视觉上的相似性。

图3：语言的近邻：检索超过10万个最频繁的单词（图片来源：该篇论文Table 2）

有些词具有多模态性，比如“deep”既指深海，也指人工智能；像“sun”这样的单词在不同的语言中也会返回相应的单词，比如西班牙语中的“Sol”和法语中的“Soleil”。

值得强调的是，一个单词最频繁的关联可能不是图像搜索结果中所表示的。例如，“is”这个词会被返回到与恐怖主义有关的词汇中，而“it”则会被返回到与恐怖主义和小丑有关的词汇中，因为2017年上映的同名电影中出现了这些词汇。

捕获单词相似性

此定量实验旨在确定Picturebook嵌入在捕获单词相似性上的能力。我们使用SimLex-999数据集，报告9个类别的结果：all(整体评估)、adjs（形容词）、nouns（名词）、verbs（动词）、 conc-q（具结四分位数）和最难的333对。对于具结四分位数，第一个四分位数对应最抽象的单词，而最后一个四分位数对应最具体的单词。最难的配对是那些很难区分相似性和亲缘关系的配对。