华为诺亚实验室联合浙江大学、中国科学院大学等高校提出一种新型视觉神经网络加速技术 Dynamic Resolution Network(DRNet),不仅有效地节省了推理时间,还显著地提高了识别准确度。相关论文已中稿 NeurIPS 2021。论文地址:https://arxiv.org/abs/2106.02898 该论文指出识别每张图片所需要的最小分辨率是不同的,而现有...
这个学生模型还可以泛化至 ImageNet-ReaL 测试集,如下表 1 所示。 在CIFAR10-4K、SVHN-1K 和 ImageNet-10% 上使用标准 ResNet 模型进行的小规模半监督学习实验也表明,元伪标签方法的性能优于最近提出的一系列其他方法,如 FixMatch 和无监督数据增强。 论文作者还表示,他们之所以在方法的命名中采用「meta」这个...
首先是微调CLIP和ALIGN,这两个模型在图像-文本对上进行了对比损失预训练。 结果经过module soup操作后,两者在分布内和自然分布转移(distribution shifts)测试集上的表现都比最佳的单个微调模型性能更佳。 △左为CLIP,右为ALIGN 然后是在JFT数据集上预训练的ViT-G模型。 也就是它在ImageNet1K数据集实现了90.94%的精...
作者通过大量实验表明,与ImageNet-1k上的其他视觉Transformer和ResNet相比,CvT实现了SOTA的性能,并且具有更少的参数和更低的FLOPs。此外,在对更大的数据集(如ImageNet-22k)进行预训练并对下游任务进行微调时,CvT可以保持性能提升。CvT-W24在ImageNet-22k上进行预训练,在ImageNet-1k val集上获得了87.7%的Top-1精度...
更令人惊叹的是,在ResNeXt-101 32×48d只达到了16.6%top-1准确率的ImageNet-A测试集上,Noisy Student一举将准确率提高到了74.2%。 新模型来自谷歌大脑首席科学家Quoc V. Le的团队,而论文第一作者,则是毕业于上海交大ACM班的谢其哲,目前正在CMU攻读博士,是谷歌大脑的学生研究员。
摘要:我们为 CIFAR-10 和 ImageNet 数据集构建了新的测试集。这两个基准测试集近十年来一直是研究的焦点,增加了过度重复使用测试集的风险。通过密切关注原始数据集创建过程,我们测试了当前分类模型泛化到新数据的程度。我们评估了大量模型,发现在 CIFAR-10 上的准确率下降了 3%~15%,在 ImageNet 上的准确率下降了...
近日,谷歌大脑团队公布了Vision Transformer(ViT)进阶版ViT-G/14,参数高达20亿的CV模型,经过30亿张图片的训练,刷新了ImageNet上最高准确率记录——90.45%,此前的ViT取得的最高准确率记录是 88.36%,不仅如此,ViT-G/14还超过之前谷歌提出的Meta Pseduo Labels模型。
这个问题在机器学习研究中变得如此普遍,以至于 2019 年神经信息处理系统 (NeurIPS) 会议引入了一个再现性检查表,其中包含“数据集或模拟环境的可下载版本的链接”。 因此,我们遇到了困难,如果我们不能使用用于训练模型的原始数据集,我们就无法复制它。我们可以在新数据集上重新训练模型,但我们无法复制或与之前的研究进...
BAKE 首次实现了自蒸馏框架下的知识整合,以最少的训练时间开销和零额外网络参数为代价,持续有效地提高了各种网络架构和数据集的分类性能。例如,使用 BAKE 训练的 ResNet-50 在 ImageNet 上的 top-1 分类准确率显著提升了 1.2%,而相比基线模型训练所增加的计算开销仅为 3.7%。
第一阶段比赛从 2018 年 8 月 29 日至 11 月 4 日,参赛队基于训练集、验证集、测试集 A,进行算法设计、模型训练及评估,并提交预测结果,系统会按照评测指标实时反馈分数,并更新榜单排名。个别竞赛采取参赛队提交代码、docker的形式进行比赛。期间进行双周赛排名和评奖。