新智元报导
修改:小芹,鹏飞
【新智元导读】ICLR 2020提交论文数量到达2594篇,比上一年添加了近1000篇。其间,来自谷歌的一篇论文引起分外注目,该论文提出ALBERT模型,比BERT-large 参数更少,却在GLUE、RACE和SQuAD三大NLP基准测验中取得榜首。>>>人工智能改动我国,咱们还要跨过这三座大山 | 献礼70周年
由图灵奖取得者、人工智能巨子Yoshua Bengio 和 Yann LeCun牵头兴办的尖端会议ICLR,被誉为深度学习“无冕之王”,取得学术研讨者们广泛认可。
ICLR 2019 共收到 1591 篇论文投稿,其间 oral 论文 24 篇,poster 论文 476 篇。
ICLR 2020 更张狂,到9月25日论文提交截止日期,已投稿的论文有2594篇!
悉数论文:
https://openreview.net/group?id=ICLR.cc/2020/Conference
当然这也不算特别震动,终究最近几年顶会论文的张狂添加咱们早就有了心理准备。
在这么多投稿中,一篇来自谷歌的论文很快引起研讨社区注目。该论文提出一个名为ALBERT的模型,比BERT-large 参数更少,却在 GLUE 基准远远甩开 BERT-Large 拿到榜首。不只如此,该模型横扫 GLUE、RACE 和 SQuAD,以显着的优势稳坐榜首。
工作经过是这样的:
有Reddit网友发现,一个叫做 ALBERT 的模型,在 SQuAD 2.0 leaderboard 和 GLUE benchmark 都到达了最佳水准。这是一个前所未见的新模型,引起了咱们的猎奇。
ALBERT在SQuAD 2.0上排名榜首
ALBERT在GLUE benchmark上排名榜首
不久,总算有网友扒出了这个模型的论文,原来是 ICLR 2020 的一篇投稿,出自谷歌。
ALBERT 又名 A LITE BERT,望文生义便是一个轻量级的 BERT 模型。模型大当然作用好,但也超吃资源。练习一次不只耗时、更费钱。乃至在某些情况下,由于 GPU/TPU 内存约束、练习时刻延伸以及意外的模型退化等原因,更难进步模型巨细。
谷歌研讨人员对此提出了经过两种参数约简技能来下降内存耗费,加速 BERT 的练习速度的思路,所以就有了 ALBERT。
接下来,咱们就来看一下这篇 ICLR 2020 投稿论文,来一探这个神仙模型的终究。
制霸三大基准测验,ALBERT用了两招
在练习自然言语标明时,添加模型巨细一般会进步下流使命的功能。可是,在某种程度上,由于GPU/TPU内存的约束、更长的练习时刻以及意想不到的model degradation,进一步增大模型会变得愈加困难。
为了处理这些问题,谷歌的研讨人员提出了两种参数约简技能,以下降内存耗费,并进步BERT的练习速度。
试验标明,本文提出的办法得到的模型比原始BERT模型更好。咱们还运用 self-supervised loss,专心于建模语句间的连接性,并标明它一直有助于多语句输入的下流使命。
根据此办法的最佳模型在GLUE、RACE和SQuAD基准上都得到了最新的SOTA成果,而且与BERT-large比较,参数更少。
构建更大的模型的一个妨碍是可用硬件的内存约束。考虑到现在最先进的模型一般有数亿乃至数十亿个参数,当咱们企图扩展模型时,很简略遇到这类约束。在分布式练习中,练习速度也会遭到很大的影响,由于通讯开支与模型参数的数量成正比。
咱们还观察到,简略滴添加模型的hidden size可能会导致功能下降,比方BERT-large。表1和图1给出了一个典型的比如,咱们简略地将这个BERT-xlarge模型的hidden size添加到2倍,成果却很糟糕。
表1:在RACE测验中,添加BERT-large的hidden size导致模型功能下降。
图1:较大模型的masked LM精度较低,但没有显着的过拟合痕迹。
针对上述问题,现有处理方案包含模型并行化(Shoeybi et al.,2019)和智能内存办理(Chen et al., 2016); Gomez et al., 2017)。这些处理方案处理了内存约束问题,但没有处理通讯开支和model degradation问题。在本文中,咱们经过规划一个比传统BERT架构参数少得多的架构来处理上述一切问题,称为A Lite BERT (ALBERT)。
ALBERT结合了两种参数约简(parameter reduction)技能,消除了在扩展预练习模型时的首要妨碍。
榜首个技能是对嵌入参数化进行因式分解(factorized embedding parameterization)。经过将大的词汇表嵌入矩阵分解为两个小的矩阵,将躲藏层的巨细与词汇表嵌入的巨细别离开来。这种别离使得在不显着添加词汇表嵌入的参数巨细的情况下,更简略添加躲藏巨细。
第二种技能是跨层参数同享(cross-layer parameter sharing)。这种技能可以避免参数跟着网络深度的添加而添加。
BERT和ALBERT模型的规划
这两种办法都在不严重影响功能的前提下,显着减少了BERT的参数数量,然后进步了参数功率。ALBERT的装备相似BERT-large,但参数量少了18倍,而且练习速度快1.7倍。参数约简技能还可以作为一种方式的正则化,可以使练习愈加安稳,而且有助于泛化。
为了进一步进步ALBERT的功能,咱们还引入了一个用于语句次序猜测(sentence-order prediction ,SOP)的自监督丢失。SOP 首要聚集于语句间的连接,旨在处理原始BERT模型中下一句猜测(NSP)丢失低效的问题。
根据这些规划,ALBERT可以扩展到更大的版别,参数量依然比BERT-large少,可是功能显着更好。
咱们在 GLUE、SQuAD 和 RACE 三大自然言语了解基准测验上都得到了新的SOTA成果:在 RACE 上的准确率进步到 89.4%,在 GLUE 上的得分进步到 89.4,在 SQuAD 2.0 上的 F1 得分到达 92.2。
表10:GLUE基准测验的State-of-the-art 成果。
表11:在SQuAD 和 RACE 两个基准测验上的State-of-the-art 成果
论文地址:
https://openreview.net/pdf?id=H1eA7AEtvS