研究表明卷积神经网络在参数效率上表现出色,超过了多层感知机和视觉转换器。就算是使用随机标记的数据,CNN也显示出了卓越的数据拟合能力。这篇论文另一个关键发现是随机梯度下降(SGD)不仅增强了泛化能力,还使神经网络能够拟合比全批量梯度下降更多的训练样本。而这也挑战了传统的优化观念!