热门:李航等提出多粒度AMBERT模型，CLUE、GLUE上优于BERT，中文提升显著-国土报中文版

本篇文章2818字，读完约7分钟

arxiv作者:新宋章，李航机器心编译:杜伟，小舟自Googlebert模型问世以来，各种bert变体模型活跃在自然语言理解任务中最近，字节跳动ai实验室的李航等人的研究者提出了在clue和glue任务中性能超过Googlebert、albert、xlnet等的新的多粒度Bert模型诸如bert之类的预训练语言模型在自然语言理解( nlu )的许多任务中显示了良好的性能模型中的token一般是精细的粒度，在英语这样的语言中，token是单词和子字。在中文这样的语言中，是单个汉字例如英语有由多个单词表达式组成的自然词汇单元。这似乎采用粗粒度标记化( tokenization )也是合理的实际上，细粒度和粗粒度标注化在学习预训练语言模型方面各有利弊最近，字节跳动新松张、李航两位研究者基于细粒度和粗粒度的标签化，提出了一种称为ambert (多粒度bert )的新的预训练语言模型在结构上，ambert具有两个编码器在英语的情况下，ambert是将单词序列(细粒度标记)和短语序列(粗粒度标记)标记化的输入，用一个编码器解决单词序列，用另一个编码器解决短语序列，利用两个编码器之间的共享参数，最终与单词论文链接: arxiv/pdf/2008.11869.pdf研究小组用clue、glue、squad、race等中文和英语基准数据集进行了实验实验结果表明，ambert的性能几乎在所有情况下都优于现有的最佳性能模型。特别是在中文中，ambert的提高效果显着首先来看一下中英语任务中细、粗粒度模型层的观察下面的图1显示了适用于中英文句子的细粒度模型的初层观察尝试你会发现有些token不恰当地出现在句子的其他token上。例如在英语句子中，“drawing”、“new”、“dog”分别对“portrait”、“york”、“food”这个词有很高的观察力的权重，但这是不合适的在中文句子中，汉字的“拍”、“北”、“长”分别对“卖”、“京”、“市”有很高的观察力权重，这也不合适下面的图2显示了与英语相同句子的粗粒度模型的第一层的观察努力英文句子中，由单词构成的短语有“drawing room”、“york minister”、“dog food”，在前两句中观察力合适，但在最后一句中由于不正确的标记化而出现了不合适的观察力同样，在中文句子中，观察力较高的“球拍”和“首都”是合理的，但“市长”是不合理的但请观察:错误的书写是不可避免的。其次详细解读ambert模型的细节和实验结果 ambert模型研究者将ambert的整体框架显示在图3中 ambert将副本作为输入。副本是一个文档中的长序列或两个不同文档中的两个短序列的级联然后，标记输入副本，获得细而粗的粒度token序列整个ambert模型的框架具体地说，ambert具有两个编码器，分别用于解决精细的粗粒度token序列各编码器具有与bert(devlin等)和transformer编码器( vaswani等)完全相同的体系结构另外，两个编码器在各自对应的层共享相同的参数，但两者的嵌入参数不同编码器在对应的层上根据细粒度token序列生成上下文表示，粗粒度编码器在对应的层上根据粗粒度token序列生成上下文表示最后，ambert分别输出细小的粗粒度token的上下文表现序列预训练ambert的预训练基于遮罩语言建模( mlm )，从两个精细粗粒度级别展开为了比较，研究者只把预测下面的句子( next sentence prediction，nsp )用于实验在分类任务上的ambert微调中，每个精细的粗粒度编码器都创建特定的[cls]表示法，并将这些表示法定义为分类任务中使用的函数的优化微调过程被定义为以下函数的优化。同样，可以微调“跨度检测”( span detection )任务的ambert。这里，细粒度token的表现和对应的粗粒度token的表现是级联的。替代模型研究者还提出了ambert的两种替代模型ambert-combo和ambert-hybrid，并依赖于多粒度的标记研究者在实验部分也比较了三者在实验部分，研究者分别用中英语标准数据集，比较了ambert和细、粗粒度bert基线以及ambert-combo和ambert-hybrid替代模型中文任务下表1显示了分类任务的结果 ambert将bert基线方法的平均得分提高了约1.0%，表明性能优于ambert-combo和ambert-hybrid替代模型下表2显示了机器阅读理解( mrc )任务中的结果可以看到，ambert将bert基线的平均得分提高了约3.0% 另外，研究者在clue排行榜上比较了ambert和现在的最佳模型，结果如下表所示，英语任务研究者在glue任务中比较了ambert和bert模型、ambert-combo、ambert-hybrid替代模型谷歌Bert的结果来自原来的论文，our bert的结果是研究者得到的如下表4所示，ambert在很多任务中性能优于其他模型，同时ambert等多粒度模型可以得到比单粒度模型更好的结果在多粒度模型中，ambert即使在参数和计算量少的情况下也依然实现了最佳的性能研究者在squad任务中将ambert与其他bert模型进行了比较谷歌Bert的结果可以从原论文中得到，也可以通过研究者使用官方代码执行得到 ambert在squad任务中比google bert更好，如下表5所示 our bert (word )一般表现良好，our bert (phrase )在跨度检测任务中表现不好此外，ambert在race任务中是所有开发集和测试集的基线中最好的 ambert是最佳的多粒度模型最后，研究者在表6中表示了在glue和mrc任务中比较ambert和sota模型的结果:样本研究者定性研究了bert和ambert的结果，结果如下表7所示，研究者表示了包含任务qnli和cmnli的随机例子数值“0”表示有包含关系，数值“1”表示没有包含关系 word/phrase表示our bert的词或短语机心共同开启科学技术在线公开课:零基础入门游视天元megengine在6节课中帮助开发者学习开发入门深度 9月1日，游戏科学技术移动商务团队研究员王鹏带来了第6课“展开的高度化:推理方的优化”，介绍了megengine框架中模型的量化方案、量化相关模块和采用方法，使用了megengine 欢迎大家入群学习。 © the end转载请联系本公众号获得许可后投稿或要求报道: content@jiqizhixin原标题:“李航等人提出了多粒度ambert模型，clue、glue优于BET，中文提高

来源：国土报中文版

标题：热门:李航等提出多粒度AMBERT模型，CLUE、GLUE上优于BERT，中文提升显著

地址：http://www.g3gw.com/new/27521.html