不仅是GPT-3 还有2020年每年10篇要求的自然语言处理突破性论文
图片来源:unsplash.com
虽然2020年是具有挑战性的一年,但人工智能的学术研究并没有停滞不前,许多重大的技术突破已经诞生。在NLP领域,OpenAI的GPT-3可能是最“圈外”的,但除此之外,肯定还有很多其他值得关注的研究论文。
总的来说,2020年NLP的主要研究进展还是以大规模的预训练语言模型为主,尤其是变形金刚。今年有很多有趣的更新,让变形金刚架构更高效,更适合长文档。
另一个热门话题与NLP模型在不同应用中的评价有关。该行业仍然缺乏一种通用的评估方法来明确定义模型在哪里失败以及如何解决这些问题。
此外,随着GPT-3等语言模型的不断增强,会话式人工智能正受到新一轮的关注。聊天机器人也在不断进步,今年顶尖科技公司推出的很多聊天机器人(比如Meena和Blender)都让人印象深刻。
2020年底,国外AI技术博客topbots.com总结了2020年10篇重要的机器学习研究论文。大部分入选论文都是今年最高会议论文奖的获得者,具有很高的权威性。“数据战斗学校”在此基础上进行延伸,让读者对今年NLP的研究进展有一个大致的了解。当然,除了榜单,还有很多值得一读的突破性论文。也欢迎读者在后台留言,与我们交流反馈。
2020年必读的10篇NLP突破性论文列表(关注“数据战斗派”,后天回复“202010NLP”领取论文包):
1.WinoGrande:大规模对抗式Winograd图式挑战
2.用统一的文本到文本转换器探索迁移学习的局限性
3.高效变压器
4.长变压器:长文档变压器
5.ELECTRA:预训练文本编码器作为鉴别器而不是生成器
6.语言模型是很难学的
7.超越准确性:使用核对表对自然语言处理模型进行行为测试
8.纠结于BLEU:重新评价自动机器翻译评价指标的评价
9.走向一个类似人类的开放域聊天机器人
10.构建开放域聊天机器人的方法
1.WinoGrande挑战赛
WSC挑战是对人类常识推理的测试。它包含了专家设计的273个问题,仅靠统计模型无法解决。然而,最新的语言模型在这个测试集中达到了90%的准确率。这就提出了一个问题,那就是语言模型真的是学习推理,还是仅仅依靠对数据集的一些偏好?
为了回答这个问题,华盛顿大学艾伦人工智能研究所(Allen Institute of Manual Intelligence)的一个团队提出了一个新的挑战——WINOGRANDE,一个新的用于常识推理的大规模数据集。WINOGRANDE是WSC挑战赛的升级版,增加了问题的难度和规模。
WINOGRANDE的开发有两个关键点:在众包设计的过程中,众包人员需要写出符合WSC要求的、包含一些锚词的双句子,最后收集的问题会被一群众包工作者验证。在收集的77,000个问题中,53K个被认为是有效的。
另一个关键是研究人员开发了一种新的系统偏差减少算法AfLite,它巧妙地将人类可检测的偏差转换为基于嵌入的机器可检测的偏差。应用AfLite算法后,无偏的WinoGrande数据集包含44K样本。
在WINOGRANDE测试集上,最佳方法只能达到59.479.1%的准确率,比人类表现(94.0%)低15%-35%。
用一句话概括实际影响:有助于探索新算法,减少系统偏差,避免其他NLP基准的偏差。
本文获得美国科学促进会2020年度杰出论文奖。
2.创造更强大的变压器
在用统一的文本到文本转换器探索迁移学习的局限性时,谷歌研究小组建议在NLP中采用统一的迁移学习方法,目标是在这一领域建立一个新的标准。为此,他们提出,每个NLP问题都应该被视为一个“文本到文本”的问题。这个框架将允许不同的任务使用相同的模型、目标、训练过程和解码过程,包括总结、情感分析、问答和机器翻译。
研究人员将他们为此目的创建的模型称为“文本到文本转换程序”(Transfer Text-to-Text Transformer,T5),并在大量捕捉互联网数据的语料库上对其进行训练。
通过对现有技术的探索和比较,T5的诞生为NLP的发展提供了一个全面的视角。特别是,每一个自然语言处理问题都被看作是一个文本到文本的任务,这为自然语言处理迁移引入了一种新的方法。T5可以理解应该执行哪些任务,因为特定任务的前缀被添加到原始输入句子中(例如,“将英语翻译成德语:”、“总结:”)。
随着T5的诞生,还有一个数据集叫C4。研究小组从Common Crawl(一个开放的web存档数据集,每月抓取约20TB的文本数据)中整理出750 GB的训练数据,命名为“庞大的干净抓取语料库”,用于训练T5。
最后,在本文提到的24个任务中,110亿参数的T5模型在17个任务上取得了最先进的性能,包括:GLUE 89.7分,在CoLA、RTE和WNLI任务上的性能有了很大提高;在SCAnD数据集上的精确匹配分数是90.06分。SuperGLUE的评分是88.9,明显高于之前最高级的成绩(84.6),非常接近人类的表现(89.8)。ROUGE-2-F在CNN/每日邮报摘要任务中得分21.55。
总之,总结了实际影响:即使本研究中引入的模型仍然有数十亿个参数,并且可能太重而无法在业务环境中应用,所提出的想法仍然可以帮助提高不同NLP任务的性能,包括总结、问答和情感分析。
3.更高效的重整器
变压器模型由于参数数量大,需要存储各层的激活进行反向传播,中间前馈层占了很大一部分内存使用,因此需要大量的计算资源。
面对这样一个“怪物”,只有大型研究实验室才有条件进行实战训练。
为了解决这个问题,谷歌的研究团队在文章重整器:《高效变压器》中引入了几种可以提高变压器效率的技术。
特别是,他们建议使用可逆层来为每一层只存储一次激活,并通过本地敏感散列来避免昂贵的softmax计算。在几个文本任务上的实验表明,本文介绍的重整器模型能够匹配整个变压器的性能,但运行速度更快,内存效率更高。虽然显示更高的速度和内存效率,重整器可以与完整的变压器模型竞争。比如newstest2014把机器从英语翻译成德语的任务中,重整器的基本型号得了27.6分,而变压器得了27.3分。
用一句话概括实际影响:重整器实现的效率提升可以助推更广泛的Transformer应用,尤其是对于依赖于大上下文数据的任务,如文本生成、视觉内容生成、音乐生成、时间序列预测等。
本文被选为ICLR 2020的口头报告。
4.长文档的长格式
自我关注机制是成功实现转换器架构的关键因素之一。然而,这也使得将基于Transformer的模型应用于长文档变得困难。
在现有技术中,长输入通常被分成多个块,然后使用复杂的结构来组合块中的信息。艾伦人工智能研究所的研究小组介绍了一个更优雅的解决方案。
他们提出的Longformer采用了一种新的注意模式,将局部自我注意和全局自我注意结合起来,在不损失效果的情况下提高效率。这种关注机制与序列长度成线性比例,可以处理数千个令牌的文档。由于滑动窗口注意力模式的实现需要带矩阵乘法的形式,这是现有深度学习库(如PyTorch和Tensorflow)所不支持的,作者还引入了一个自定义的CUDA内核来实现这些注意力操作。
实验表明,Longformer在字符级语言建模任务中取得了最先进的结果,经过预训练后,在长文档任务中始终优于RoBERTa。
用一句话概括实际影响:Longformer架构对于经常需要处理长文档的下游NLP任务,比如文件分类、问答、常用参考文献解析、摘要、语义搜索等,可能有更明显的优势。
5.ELECTRA,GAN的巧妙运用
流行的语言模型,如BERT和XLNet,在预训练任务中屏蔽一小部分未标记的输入,然后训练网络恢复原始输入。
虽然这种叫做MLM(Masked language modeling)的训练方法是有效的,但是它的数据效率并不是特别高,因为它只能从少量的标记中学习(通常是15%左右)。这种方法在迁移到下游NLP任务时可以得到更好的结果,但往往需要很大的计算能力。
作为替代方案,斯坦福大学和谷歌大脑的研究人员基于伯特模型和遗传神经网络的思想,提出了一种新的预训练方法——RTD,取代了令牌检测。RTD没有屏蔽输入,而是从生成器中采样真实的令牌,并替换原始输入中的令牌。
结果表明,该方法能显著加快训练速度,提高下游NLP任务的准确性:ELECTRA-Small的GLUE评分为79.9,优于相同的BERT模型(评分75.1)和较大的GPT模型(评分78.8);与XLNet和RoBERTa相当的ELECTRA模型,只使用了其训练前计算的25%;ELECTRA-Large在GLUE和SQuAD基准测试中优于其他最新机型,仍然需要较少的预训练计算。
一句话概括了实际的影响:由于计算效率高,ELECTRA方法可以让从业者更容易使用预先训练好的文本编码器。
6.GPT的诞生-3
如果每一个新的语言任务都需要一个对应的标注数据集,肯定会限制语言模型的适用性。
考虑到语言任务范围广,而且往往很难收集到大量可用于训练的标注数据集,OpenAI研究人员提出了另一种解决方案,即扩大语言模型的规模,用175 B参数训练GPT-3。
该团队希望GPT-3能够成为一个更通用的NLP模型,解决目前的BERT等模型的两个缺点:过度依赖域内标记数据,域数据分布过拟合。
他们在三个不同的环境中评估了GPT 3号:
少量学习,在推理过程中向模型演示一些任务(通常是10到100个),但不允许权重更新。
一次性学习,只允许对任务进行一次演示和自然语言描述。
零镜头,当不允许演示并且模型只能访问任务的自然语言描述时。
这三个评价表明,只训练一个语言模型,不微调任何任务的GPT-3,可以完成很多NLP任务,每个任务都可以得到很好的效果。
也就是说,当这样的语言模型扩展到前所未有的参数数量时,语言模型本身就可以作为学习的工具,样本很少,不需要任何额外的训练,就可以在很多任务上取得非常有竞争力的表现。
用一句话概括实际影响:一个175B参数的模型的资源消耗不符合实际考虑,但是如果研究者试图将这个模型缩小到一个可行的大小,那么它就可以应用到各种语言任务中,包括问答和广告文案生成。
7.一种全新的NLP模型测试方法“核对表”
可以开发像Glue(通用语言理解评估)和SuperGLUE这样的基准来评估NLP模型执行自然语言理解任务的能力。通常,将自然语言处理模型的性能与验证准确性的结果进行比较。需要注意的是,使用验证精度存在固有的局限性,如过拟合、验证集的数据分布不同等。这可能会干扰正确的判断。
在美国公民自由联盟2020年发表的论文《超越准确性:用检查表对自然语言处理模型进行行为测试》中,作者提出了一个框架,一种新的自然语言处理模型评估方法:检查表。核对表借鉴了软件工程的传统测试准则,通过模板快速生成大量样本,全面测试模型的各种能力,几乎可以用于所有的NLP任务。
检查表建议使用三种不同的测试方法:
最低功能测试(MFT),其中预期黄金标准用于生成示例;
不变性测试(inv),其中从给定的例子中创建新的例子,其中金本位被翻转;
方向预期测验(DIR)修改原句,金本位改为预期方向(正/负)。
作者建议尽可能用这三种方法来检验自然语言处理模型的各项能力。
用一句话概括实际影响:核对表可以用来为各种NLP任务创建更详细的测试,有助于识别更多的错误,带来更强大的NLP系统。
这篇论文获得了2020年美国公民自由联盟最佳论文奖。
8.重新评价自动机器翻译的评价指标
自动化指标是开发和评价机器翻译系统的基础。自动测量标准是否符合人类评估的黄金标准并不容易判断。
墨尔本大学计算与信息系统学院的这项研究表明,目前的指标评估方法对用于评估的翻译系统非常敏感,尤其是当存在异常值时,通常会导致对评估效果的错误和自信的判断。例如,如果使用大量翻译系统来计算领先指标和人工评估之间的相关性,则相关性通常较高(即0.9)。然而,如果只考虑几个最优系统,相关性将显著降低,在某些情况下甚至可能是负的。
因此,他们提出了一种在自动测量标准下,以人的判断为阈值来提高性能的方法,可以量化I型误差和II型误差,即人的判断质量可接受的差异和人的判断不可接受的差异。与BLEU和TER相比,chrF、YiSi-1和ESIM优先。
一句话,总结了实际影响:这些发现改进了机器翻译中的度量评估和系统性能评估协议。
该研究入围了2020年美国公民自由联盟的荣誉提名论文。
9.聊天机器人米娜
开放域聊天机器人还是有很明显的弱点,比如他们的回应通常没有意义或者过于模糊或者笼统。
为了解决这些问题,谷歌研究团队引入了Meena(一种带有2.6B参数的生成式会话模型)。Meena的seq2seq模型的每一层都使用了进化变压器(ET)模块。编码器使用一个ET层(相当于2层变压器),解码器使用13个ET层(相当于26层变压器)。
多回合会话中的训练模型,输入序列包括所有回合的上下文(最多7个),输出序列为响应。与使用40GB文档数据的GPT-2训练相比,米娜训练使用341GB对话数据。米娜的模型参数已经达到2.6B,比GPT-2大得多。
与此同时,为了衡量Meena等开放域聊天机器人的质量,研究人员引入了一种新的人类评价指标,称为敏感度和敏感度平均值(Signity and灵敏度Average,SSA),可以衡量聊天机器人的两个基本方面。
Meena的出现是对计算机交互人性化的进一步探索,可以帮助提高外语实践,使互动电影和电子游戏角色具有关联性等应用场景。
然而,考虑到模型中与安全性和偏差相关的挑战,研究团队尚未打开模型。
10、搅拌机机器人
Facebook AI研究小组表明,通过适当的培训数据和生成策略,大型模型可以学习许多重要的会话技能,如提高参与度、应用知识、富有同情心和保持角色一致性。
他们建造了一个名为“混合机器人”的高级对话机器人。使用这个带有9.4B参数的模型,团队为一个叫做混合技能对话的新任务对它进行了训练。
建立一个像混合机器人这样的开放域聊天机器人有三个关键要素:
规模大。最大的模型有94亿个参数,已经在15亿个提取对话的训练例子中训练过。
混合技能。聊天机器人接受“混合技能对话”任务的训练,学习运用个性、运用知识、表达同情等技能。
波束搜索解码。
与上述第九项研究相比,Meena、Facebook的工作进一步提高了基于预训练模型的聊天机器人的回复效果,甚至在短对话的人工评价中(14轮以下)获得了非常接近人类的评分。