研究者开始提出可替代方案,他们最近对高效 NLP 的研究表明,小型权重高效(weight-efficient)模型可以以很低的成本达到具有竞争力的性能。IBM Research 提出的 pNLP-Mixer,是一种可用于 NLP 任务的基于投影(projection)的 MLP-Mixer 模型,它通过一个全新的投影层(projection layer)实现了高权重效率。该研究在两...
结果表明,在 MTOP 数据集上,pNLP-Mixer 达到了与 mBERT 媲美的性能,而后者有 38 倍多的参数,此外,pNLP-Mixer 还优于小模型 pQRNN,而后者参数是前者的 3 倍。在长序列分类任务中,pNLP-Mixer 在没有进行预训练的情况下比 RoBERTa 表现更好,后者的参数是 pNLP-Mixer 的 100 倍。 pNLP-Mixer 架构 作为...
这篇论文于2021年发表在NeurIPS上,提出了一个通过简单的mlp层堆叠而成的模型:MLP-Mixer。该模型在精度与卷积神经网络、视觉Transformer相似的情况下更高效。 感悟和评价 该模型的输入图像分辨率需要固定,否则token混合mlp中的全连接层的尺寸需要改变。 Mixer模型在训练数据较小时容易过拟合,而训练数据增大时性能增长幅度...
苏剑林认为,虽然ResMLP在ImageNet上达到了不错的准确率,但它与MLP-Mixer和Stack of FFN没有本质的区别,尤其是Stack of FFN。如果忽略细微的细节差异,甚至可以认为它们三个是同一个模型。谷歌则接连发表了三篇相关论文,对 ViT 模型中自注意力层的必要性提出了质疑,而学者们普遍认为,FNet模型在某种意义上同样...
从技术上讲,ViT 模型延续了长久以来去除模型中手工构建特征和归纳偏置的趋势,并进一步依赖基于原始数据的学习。 近日,原 ViT 团队提出了一种不使用卷积或自注意力的 MLP-Mixer 架构(简称 Mixer),这是一种颇具竞争力并且在概念和技术上都非常简单的替代方案。 Mixer 架构完全基于在空间位置或特征通道重复利用的...
在MLP Mixer 模型中说过, ViT 的编码器层核心结构可以分成全局空间自注意力层(用于 token 和 token 间信息交互),通道混合 MLP 层(用于每个 token 内的 channle 间信息交互)。ConvMixer 也是沿用了同样的分解策略,只不过替换模块不再是 Spatial Mixer MLP 和 Channel Mixer MLP,而是全部替换为了卷积,分别是 DW ...
具体的,ViT、MLP-Mixer 这类非 CNN 的模型在对抗噪音下表现更为优秀,而传统的 CNN 模型(如 ResNet、ResNeXt)则对于自然噪音和系统噪音更加鲁棒。不同的噪音对于最终鲁棒性的评估结果影响很大,对于同一类型的噪音(如对抗噪音),不同的攻击方法可能导致不同的模型鲁棒性结果;甚至对于同一种对抗攻击,不同的...
我们提出了MLP-Mixer,一个专门基于多层感知器(MLPs)的体系结构。MLP-Mixer包含两种类型的层:一种是MLPs独立应用于图像patches(也即:混合每块局部特征),另一种是MLPs进行跨patches应用(也即:混合空间信息)。 这里要注意的第一件事是输入图像是如何“建模/表示”的,它被建模为patches(当它被分割时)x通道。第一种...
2. 模型结构 2.2 mixer layer 在传统CNN中,可以通过1x1 Conv来实现通道域的信息融合,如果使用大卷积核(N>1), pooling来实现空间信息的融合,同时大卷积核可以实现空间域和通道域的信息融合。 在Transformer中,通过Self-Attention实现空间域,通道信息的信息融合,通过MLP实现通道域信息的融合。
谈起MLP-Mixer 之前,我们先了解一下 MLP 结构,即多层感知机(Multi-layer Perceptrons),理论上一定复杂程度的 MLP 可以拟合任何函数的,但是代价是大量的计算开销和参数量,这给纯 MLP 的模型发展造成了阻碍。之前提出的 CNN、RNN 就是通过将 Inductive Bias(归纳偏置) 引入模型里,从而能在计算资源有限、数据有限的...