长尾CIFAR数据集的不均衡因子定义为最多样本数量类别的样本数除以最小样本数量类别的样本数。在文章中,常用的不均衡因子为50和100,图像总数为12000张左右。 iNaturalist 2018 这个数据集是一个大规模的真实世界的数据集,类别极度不均衡,包含437513张图像,8142个类别,除了不均衡的问题,还有细粒度的问题。 长尾ImageNet...
除天然的iNaturalist外,在人脸识别、通用物体识别和场景分类等应用中均有对应的长尾分布形态数据集。例如,针对人脸识别长尾分布问题构造的MS1M-LT(2万余类别),针对通用物体识别长尾分布问题构造的ImageNet-LT(1000类)、 CIFAR-10-LT(10类)、CIFAR-100-LT(100类),以及针对场景分类长尾分布问题构造的Places-LT (365...
长尾CIFAR数据集的不均衡因子定义为最多样本数量类别的样本数除以最小样本数量类别的样本数。在文章中,常用的不均衡因子为50和100,图像总数为12000张左右。 iNaturalist 2018这个数据集是一个大规模的真实世界的数据集,类别极度不均衡,包含437513张图像,8142个类别,除了不均衡的问题,还有细粒度的问题。 长尾ImageNet这...
图像中目标类别的长尾效应是不可避免的,标注更多的数据集虽然可以有效地发现先前未见或罕见的类别,但有效地从小样本中学习至今还是机器学习与计算机视觉领域一个重要的开放问题,也使得这一领域成为科学界与工业界研究最为活跃的领域。但要深入的对这一领域进行研究,一个高质量的数据集和基准必不可少! FAIR的研究人员...
为了缓解长尾现象造成的学习不平衡,我们提出了一种简单有效的重采样方法——NMS重采样,来重新平衡数据分布。本文方法称为Forest R-CNN,可以作为一个即插即用模块,应用于大多数目标识别模型,能够识别1000多个类别。在大词汇表数据集LVIS上进行了广泛的实验。与Mask R-CNN基线相比,Forest R-CNN在rare categories和...
数据特性: 高度内在歧义: 不同植物种类之间可能存在相似性,导致分类难度增加。 长尾分布: 部分类别可能有大量的样本,而另一些类别则只有少量样本。 类别划分 该数据集包含1081种不同的植物类别。由于类别数量较多,这里不一一列出具体类别名称。每个类别都经过专业人员的验证和标注,确保标签的准确性。 数据集结构 假设...
导读:在NeurIPS 2020上,商汤新加坡团队提出的Balanced-Meta Softmax (BALMS), 针对真实世界中常见的长尾数据分布提出了新的视觉识别方案。在优化目标方面,BALMS 提出一种新的损失函数,Balanced Softmax,来修正长尾设定下因训练与测试标签分布不同而导致的偏差。在优化过程方面,BALMS提出 Meta Sampler来自动学习最优采样...