ELECTRA模型是一种用于自然语言处理的预训练模型,由Kevin Clark等人在2020年提出。相比于传统的基于掩码语言模型(Masked Language Modeling,MLM)的预训练方法,ELECTRA通过引入“替换词检测”(Replaced Token Detection,RTD)任务,实现了更高效的训练和更优的性能。最后训练得到的判别器将用于下游的任务。 2. ELECTRA模型结...
ELECTRA 模型(BASE 版本)本质是换一种方法来训练 BERT 模型的参数;BERT 模型主要是利用 MLM 的思想来训练参数,直接把需要预测的词给挖掉了,挖了 15%的比例。由于每次训练是一段话中 15%的 token,导致模型收敛更新较慢,需要的语料也比较庞大。同时为了兼顾处理阅读理解这样的任务,模型加入了 NSP,是个二分类任务...
ELECTRA (雷锋网)ELECTRA预训练模型的作者是斯坦福SAIL实验室Manning组和谷歌大脑研究团队,初次出现是在2019年北京智源大会上面。作为一种新的文本预训练模型,ELECTRA 新颖的设计思路、更少的计算资源消耗和更少的参数,迅速引起了大批关注者。特别是在去年 11 月 ICLR 2020 论文接收出炉后,曾引起NLP圈内不小的...
大ELECTRA模型的各项表现如下: 上面是各个模型在GLUE dev/text上的表现,可以看到ELECTRA仅用了1/4的计算量就达到了RoBERTa的效果。而且作者使用的是XLNet的语料,大约是126G,但RoBERTa用了160G。由于时间和精力问题,作者没有把ELECTRA训练更久(应该会有提升),也没有使用各种Trick。 5.4 结果分析 BERT的loss只计算被...
一、ELECTRA模型原理ELECTRA模型由生成器和判别器两部分组成。生成器负责替换句子中的部分单词,而判别器则判断一个句子中每个单词是否被替换。这种架构使得ELECTRA在训练过程中能够更高效地预测所有单词。与BERT相比,ELECTRA通过随机[mask]部分单词并使用生成器预测结果替换该单词,增强了模型的迷惑性。二、对比学习在ELECTRA...
1. Electra 模型的参数量主要包括两个部分:生成器和鉴别器。 2. 生成器部分主要包括了词嵌入层、位置编码、Transformer 编码器(由多层自注意力模块和前馈神经网络模块组成)、输出层等。 3. 鉴别器部分也包括了词嵌入层、位置编码、Transformer 编码器等,但在输出层采用了二元分类器。 4. 我们假设 Electra 模型的...
如上图所示,ELECTRA模型能够在训练步长更少的前提下得到了比其他预训练模型更好的效果。同样,在模型大小、数据和计算相同的情况下,ELECTRA的性能明显优于基于MLM的方法,如BERT和XLNet。所以,ELECTRA 与现有的生成式的语言表示学习方法相比,前者具有更高的计算效率和更少的参数(ELECTRA-small的参数量仅为BERT-base...
如上图所示,ELECTRA模型能够在训练步长更少的前提下得到了比其他预训练模型更好的效果。同样,在模型大小、数据和计算相同的情况下,ELECTRA的性能明显优于基于MLM的方法,如BERT和XLNet。 所以,ELECTRA 与现有的生成式的语言表示学习方法相比,前者具有更高的计算效率和更少的参数(ELECTRA-small的参数量仅为BERT-base的 ...
简介:ELECTRA:类似GAN的预训练语言模型 论文标题:ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators 论文链接:https://arxiv.org/abs/2003.10555 论文来源:ICLR 2020 一、概述 目前的SOTA语言表示学习方法可以看做是在学习一个去噪自编码器(denoising autoencoder),它们选择无标注的输入序...
论文:ELECTRA: PRE-TRAININGTEXTENCODERS ASDISCRIMINATORSRATHERTHANGENERATORS ELECTRA全称为Efficiently Learning an Encoder that Classifies Token Replacements Accurately 。论文中提出了一个新的任务—replaced token detection,简单来说该任务就是预测预训练语言模型生成的句子中哪些token是原本句子中的,哪些是由语言模型...