1.SpanBERT: Improving Pre-training by Representing and Predicting Spans 1.1. SpanBERT的技术改进点 相比于BERT,SpanBERT主要是在预训练阶段进行了调整,如图1所示,具体包含以下几部分: 随机地Masking一段连续的token 增加了一项新的预训练任务:Span boundary Objective (SBO) 去掉了NSP任务 图1 SpanBERT改进点汇总...
SBO训练目标:用被mask的span左右两边的token去把整个span预测出来,这就是SBO(Span Boundary Objective)目标,如图所示,就是用was、to两个token去预测an American football game。作者解释说SBO目标,有助于模型在boundary token存储到span-lvel的信息,或者换句话说,作者希望span的左右两边结尾能更好地总结span的内容。
图1 SpanBERT改进点汇总图 在接下来的内容中,我们将对这些预训练任务进行详细探讨,特别是前两个改进点。但是在正式讨论之前,我们先来回顾一下经典的BERT模型中的预训练任务。 2. BERT模型中的预训练任务 在BERT模型预训练阶段,主要使用了两项预训练任务Masking Language Model (MLM)以及Next Word Prediction (NSP...
图4 Span采样长度图 1.3.2 Span Boundary Object (SBO) SpanBERT期望Span边界的token能够尽可能多地汇总Span内部的信息,所以引入了SBO预训练目标。如图5所示,masking的连续token为””an American football game”,SBO任务期望使用Span的边界tokenx4x4和x9x9来预测Span内容。 图5 SBO样例图 具体来讲...
一、SpanBERT的背景 SpanBERT是在BERT基础上进行改进的模型,特别在span selection任务上表现优秀。SpanBERT的主要目标是提高长文本语义理解能力。通过改进掩码策略和训练目标,SpanBERT能够更好地捕捉局部上下文信息,从而在问答、指代消解等任务中取得更好的效果。 二、SpanBERT的核心思想 SpanBERT的核心思想主要体现在两个...
【导读】本文提出了一个新的模型预训练方法 SpanBERT ,该方法能够更好地表示和预测文本的分词情况。新方法对 BERT 模型进行了改进,在实验中, SpanBERT 的表现优于 BERT 及其他基线,并在问答任务、指代消解等分词选择类任务中取得了重要进展。特别地,在使用和 BERT 相同的训练数据和模型大小时,SpanBERT 在 SQuAD...
SpanBERT Github 2.RoBERTa: A Robustly Optimized BERT Pretraining Approach 从模型结构上讲,相比BERT,RoBERTa基本没有什么创新,它更像是关于BERT在预训练方面进一步的探索。其改进了BERT很多的预训练策略,其结果显示,原始BERT可能训练不足,并没有充分地学习到训练数据中的语言知识。
模型结构如下: SpanBERT 的改进点主要有: 1. Span Masking:首先根据几何分布 采样出 span 的长度(大于 10 则重新采样),然后根据均匀分布随机选择起始点,最后从起始点开始将 span 内的 token 进行 mask;注意,这个过程会进行多次,直到被 mask 的 token 数量达到阈值,如输入序列的 ...
图1 SpanBERT改进点汇总图 在接下来的内容中,我们将对这些预训练任务进行详细探讨,特别是前两个改进点。但是在正式讨论之前,我们先来回顾一下经典的BERT模型中的预训练任务。 1.2. BERT模型中的预训练任务 在BERT模型预训练阶段,主要使用了两项预训练任务Masking Language Model (MLM)以及Next Word Prediction (NSP...
在本文中,作者提出了一个新的分词级别的预训练方法 SpanBERT ,其在现有任务中的表现优于 BERT ,并在问答、指代消解等分词选择任务中取得了较大的进展。对 BERT 模型进行了如下改进:(1)对随机的邻接分词(span)而非随机的单个词语(token)添加掩膜;(2)通过使用分词边界的表示来预测被添加掩膜的分词的内容,不再依...