我们首先发现编码器-解码器沙漏设计优于 Conv3x3 的可扩展各向同性架构,但仍低于我们的预期。为了进一步改进架构,我们引入了稀疏跳过连接以减少冗余并提高可扩展性。基于该架构,我们引入了条件改进,包括阶段特定嵌入、中间块条件注入和条件门控。 这些改进促成了我们提出的扩散 CNN (DiC),它是一种快速而又具有竞争力...
1、ModernBERT在标准Transformer架构的基础上进行了扩展,引入了多项现代改进,包括:无偏置项:在所有线性层(除了最终的解码器线性层)和层归一化中禁用偏置项。旋转位置编码(RoPE):使用RoPE代替绝对位置嵌入。预归一化块:使用预归一化块和标准层归一化。GeGLU激活函数:采用GeGLU激活函数,基于原始BERT的GeLU激活函数。