概述:1、padding mask:处理非定长序列,区分padding和非padding部分,如在RNN等模型和Attention机制中的应用等 2、sequence mask:防止标签泄露,如:Transformer decoder中的mask矩阵,BERT中的[Mask]位,XLNet…
这个mask操作来源于完型填空。当然可以改,但是你得有卡,有时间和资源来调优模型
最近我们在中文bert里观察到一些有趣的东西,特来分享一下。 1. multi-head很冗余,mask掉20%的head对效果几乎没有影响。在144个head(12层每层12个),有20多个head是对模型起着至关重要的作用,去掉一个效果腰斩。 2. head里有一部分是专门负责分词的,观察到四种粒度的分词(字/词/短语/ngram),标准宽松些只要...
1、padding mask:处理非定长序列,区分padding和非padding部分,如在RNN等模型和Attention机制中的应用等2、sequence mask:防止标签泄露,如:Transformer decoder中的mask矩阵,BERT中的[Mask]位,XLNet中的mask矩阵等PS:padding mask 和 sequence mask非官方命名 padding mask和sequence mask有一些不同,前者是补0,然后运算...
1、padding mask:处理非定长序列,区分padding和非padding部分,如在RNN等模型和Attention机制中的应用等 2、sequence mask:防止标签泄露,如:Transformer decoder中的mask矩阵,BERT中的[Mask]位,XLNet中的mask矩阵等 PS:padding mask 和 sequence mask非官方命名 ...