长尾识别就是通过对这些长尾产品或服务的分析,了解其销售模式、受众群体和潜在需求。通过识别长尾,企业可以更好地定位市场细分,开发针对性的推广和销售策略。 2.数据分析:在数据分析领域,长尾识别指的是发现那些在数据集中出现频率较低的模式、趋势或异常。这有助于更全面地了解数据的分布情况,而不仅仅关注于高频部分...
除了长尾问题之外,ProCo还可以直接应用于半监督学习,通过为未标记的数据生成伪标签,随后可以反向估计样本的分布。从理论上讲,我们分析了ProCo的误差界限。从实证上讲,大量在监督/半监督视觉识别和目标检测任务上的实验结果表明,ProCo在各种...
结果表明,ProCo 持续提高了现有竞争性长尾识别方法的泛化性能。此外,由于 ProCo 在理论上独立于不平衡的类别分布,因此也在平衡数据集上进行了实验。结果表明,ProCo 在平衡数据集上也实现了增强的性能。 本研究的主要贡献概述如下: 我们针对长尾识别问题提出了一种新颖的概率对比学习 (ProCo) 算法。通过采用合理而简...
01. 前言 现实世界的数据普遍存在长尾分布特性,绝大多数样本集中于少量头部类别,而大量尾部类别仅拥有极少量样本数据。尽管传统分类方法在平衡数据集上表现优异,但在面对长尾数据时往往过度偏向多数类而忽视少数类识别。针对这一挑战,学界提出的解耦训练范式(Decoupled Training)[1]通过特征学习和分类器再训练两阶段分离的...
论文链接: [2110.04596] Deep Long-Tailed Learning: A Survey (arxiv.org) 摘要:深度长尾学习是视觉识别中最具挑战性的问题之一。本文将现有的深度长尾学习研究分为三大类:类别重平衡、信息增强和模块改进。并…
SSD在三个具有挑战性的长尾识别基准测试(包括ImageNet-LT、CIFAR100-LT和iNaturist 2018数据集)上实现了SOTA性能。 Methods 蒸馏自监控(SSD)的总体框架如图2所示。SSD由三个步骤组成:(1)自监督引导的特征学习;(2)中间软标签生成;(3)联合训练和自蒸馏。
为了从特征空间平衡的角度解决长尾问题,本文在ECCV 2020的基础上,研究了一种基于自集成双课程学习的无偏学习算法(Self-ensemble dual-curriculum learning,SEDC)。本文的基本思想是,通过自集成学习模式,将从多数类样本中学习到的通用特征迁移到少数类,以...
本文首先回顾了长尾分布问题的背景和现状,分析了多域长尾识别的挑战。在此基础上,提出了一种处理不平衡域泛化的新策略。该策略主要包括以下三个方面: 数据层面:针对长尾分布问题,采用重采样技术对数据集进行预处理。通过增加少数类样本的数量或减少多数类样本的数量,使各类别的样本数量趋于平衡。同时,考虑到多域环境的...
本文综述了长尾识别领域的主要研究进展和相关问题,首先强调了数据不平衡性在深度学习发展中的关键角色,特别是长尾分布对数据质量的影响。长尾分布的特征在于头部类别实例数量多,而尾部类别的实例数量少,这种不平衡分布直接导致了识别任务的挑战性。长尾识别问题的典型场景是训练集和测试集分别遵循长尾分布与...