谷歌全新轻量级新模型ALBERT刷新三大NLP基准

时间:2019-09-27 17:37:07 阅读：2359+ 作者：责任编辑NO。杜一帆0322

新智元报导

修改：小芹，鹏飞

【新智元导读】ICLR 2020提交论文数量到达2594篇，比上一年添加了近1000篇。其间，来自谷歌的一篇论文引起分外注目，该论文提出ALBERT模型，比BERT-large 参数更少，却在GLUE、RACE和SQuAD三大NLP基准测验中取得榜首。>>>人工智能改动我国，咱们还要跨过这三座大山 | 献礼70周年

由图灵奖取得者、人工智能巨子Yoshua Bengio 和 Yann LeCun牵头兴办的尖端会议ICLR，被誉为深度学习“无冕之王”，取得学术研讨者们广泛认可。

ICLR 2019 共收到 1591 篇论文投稿，其间 oral 论文 24 篇，poster 论文 476 篇。

ICLR 2020 更张狂，到9月25日论文提交截止日期，已投稿的论文有2594篇！

悉数论文：

https://openreview.net/group?id=ICLR.cc/2020/Conference

当然这也不算特别震动，终究最近几年顶会论文的张狂添加咱们早就有了心理准备。

在这么多投稿中，一篇来自谷歌的论文很快引起研讨社区注目。该论文提出一个名为ALBERT的模型，比BERT-large 参数更少，却在 GLUE 基准远远甩开 BERT-Large 拿到榜首。不只如此，该模型横扫 GLUE、RACE 和 SQuAD，以显着的优势稳坐榜首。

工作经过是这样的：

有Reddit网友发现，一个叫做 ALBERT 的模型，在 SQuAD 2.0 leaderboard 和 GLUE benchmark 都到达了最佳水准。这是一个前所未见的新模型，引起了咱们的猎奇。

ALBERT在SQuAD 2.0上排名榜首

ALBERT在GLUE benchmark上排名榜首

不久，总算有网友扒出了这个模型的论文，原来是 ICLR 2020 的一篇投稿，出自谷歌。

ALBERT 又名 A LITE BERT，望文生义便是一个轻量级的 BERT 模型。模型大当然作用好，但也超吃资源。练习一次不只耗时、更费钱。乃至在某些情况下，由于 GPU/TPU 内存约束、练习时刻延伸以及意外的模型退化等原因，更难进步模型巨细。

谷歌研讨人员对此提出了经过两种参数约简技能来下降内存耗费，加速 BERT 的练习速度的思路，所以就有了 ALBERT。

接下来，咱们就来看一下这篇 ICLR 2020 投稿论文，来一探这个神仙模型的终究。

制霸三大基准测验，ALBERT用了两招

在练习自然言语标明时，添加模型巨细一般会进步下流使命的功能。可是，在某种程度上，由于GPU/TPU内存的约束、更长的练习时刻以及意想不到的model degradation，进一步增大模型会变得愈加困难。

为了处理这些问题，谷歌的研讨人员提出了两种参数约简技能，以下降内存耗费，并进步BERT的练习速度。

试验标明，本文提出的办法得到的模型比原始BERT模型更好。咱们还运用 self-supervised loss，专心于建模语句间的连接性，并标明它一直有助于多语句输入的下流使命。

根据此办法的最佳模型在GLUE、RACE和SQuAD基准上都得到了最新的SOTA成果，而且与BERT-large比较，参数更少。

构建更大的模型的一个妨碍是可用硬件的内存约束。考虑到现在最先进的模型一般有数亿乃至数十亿个参数，当咱们企图扩展模型时，很简略遇到这类约束。在分布式练习中，练习速度也会遭到很大的影响，由于通讯开支与模型参数的数量成正比。

咱们还观察到，简略滴添加模型的hidden size可能会导致功能下降，比方BERT-large。表1和图1给出了一个典型的比如，咱们简略地将这个BERT-xlarge模型的hidden size添加到2倍，成果却很糟糕。

表1：在RACE测验中，添加BERT-large的hidden size导致模型功能下降。

图1：较大模型的masked LM精度较低，但没有显着的过拟合痕迹。

针对上述问题，现有处理方案包含模型并行化(Shoeybi et al.，2019)和智能内存办理(Chen et al.， 2016); Gomez et al., 2017)。这些处理方案处理了内存约束问题，但没有处理通讯开支和model degradation问题。在本文中，咱们经过规划一个比传统BERT架构参数少得多的架构来处理上述一切问题，称为A Lite BERT (ALBERT)。

ALBERT结合了两种参数约简(parameter reduction)技能，消除了在扩展预练习模型时的首要妨碍。

榜首个技能是对嵌入参数化进行因式分解(factorized embedding parameterization)。经过将大的词汇表嵌入矩阵分解为两个小的矩阵，将躲藏层的巨细与词汇表嵌入的巨细别离开来。这种别离使得在不显着添加词汇表嵌入的参数巨细的情况下，更简略添加躲藏巨细。

第二种技能是跨层参数同享(cross-layer parameter sharing)。这种技能可以避免参数跟着网络深度的添加而添加。

BERT和ALBERT模型的规划

这两种办法都在不严重影响功能的前提下，显着减少了BERT的参数数量，然后进步了参数功率。ALBERT的装备相似BERT-large，但参数量少了18倍，而且练习速度快1.7倍。参数约简技能还可以作为一种方式的正则化，可以使练习愈加安稳，而且有助于泛化。

为了进一步进步ALBERT的功能，咱们还引入了一个用于语句次序猜测(sentence-order prediction ,SOP)的自监督丢失。SOP 首要聚集于语句间的连接，旨在处理原始BERT模型中下一句猜测(NSP)丢失低效的问题。

根据这些规划，ALBERT可以扩展到更大的版别，参数量依然比BERT-large少，可是功能显着更好。

咱们在 GLUE、SQuAD 和 RACE 三大自然言语了解基准测验上都得到了新的SOTA成果：在 RACE 上的准确率进步到 89.4%，在 GLUE 上的得分进步到 89.4，在 SQuAD 2.0 上的 F1 得分到达 92.2。

表10：GLUE基准测验的State-of-the-art 成果。

表11：在SQuAD 和 RACE 两个基准测验上的State-of-the-art 成果

论文地址：

https://openreview.net/pdf?id=H1eA7AEtvS

上一篇：新一代液流大规模储能技术即将开发启动基金

下一篇：马斯克特斯拉Model电池组是SpaceX重返地球

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！

谷歌全新轻量级新模型ALBERT刷新三大NLP基准

热点资讯

移动互联

IT业界