为了促进复杂应用场景下的 AVPR 研究,我们发布了一个名为 CN-Celeb-AV 的全新 AVPR 数据集。该数据集的采集流程遵循 CN-Celeb 的原则[3,4],包含了音频和视觉两种模态数据。整个数据集包括两大部分:“完备模态”部分和“非完备模态”部分。整个数据集涵盖了真实世界中的11种场景,包含来自1,136个人 (中国名人、...
作者在两个比较流行的说话人识别算法i-vector和x-vector上做了实验,并与英文说话人识别自然场景数据集voxceleb进行对比,从实验结果看,一方面能够表明CN-Celeb的更具挑战性,另一方面也可看出非约束条件下的说话人识别的真实效果还有待提高。 CN-Celeb: 数据分布:CN-Celeb数据集跨越11种真实的场景,每一个说话人至少包...
表1 VoxCeleb和CN-Celeb在不同声纹识别系统上的性能对比 综上,测试数据的场景受限问题是造成当前声纹评测与实际性能不一致的关键因素之一。为了更好地评测声纹识别系统在实际场景下的真实性能,我们发布了多场景声纹数据集 CN-Celeb。实验表明,当前主流的声纹识别系统在复杂场景下的表现并不如意,也证明了多场景声...
针对CN-Celeb数据集的基于ECAPA-TDNN的说话人识别的pytorch实现 pytorchspeaker-recognitionspeaker-verificationvoiceprint-recognitioncn-celebecapa-tdnn UpdatedApr 3, 2023 Python To associate your repository with thecn-celebtopic, visit your repo's landing page and select "manage topics."...
【希尔贝壳 AISHELL 讯】CNSRC 2022(CN-Celeb Speaker Recognition Challenge 2022) 是由 Odyssey 2022 组委会发起,由清华大学、厦门大学、北京希尔贝壳科技有限公司联合承办的说话人识别竞赛。本次竞赛的核心目的是验证当前说话人识别 (或称声纹识别) 技术在实际复杂场景下的真实可用性。日前,竞赛组织者公布了开发数据...
CNSRC 2022 (CN-Celeb Speaker Recognition Challenge 2022) 是由 Odyssey 2022 组委会发起,由清华大学、厦门大学、希尔贝壳公司联合承办的说话人识别竞赛。本次竞赛的核心目的是验证当前说话人识别 (或称声纹识别) 技术在实际复杂场景下的真实可用性。日前,竞赛组织者公布了开发数据集 (Development Set),并推出了两...
3) CelebV-Text - CelebV-Text: A Large-Scale Facial Text-Video Dataset70K Clips, 720P, Downloadable CVPR 23 Paper, Github, Project 4) HD-VG-130M - VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation 130M Clips, 720P, Downloadable ArXiv 23, Github, ...
MS-Celeb-1M [8]是一个大规模的人脸识别数据集,由10万个身份组成,每个身份约有100张面部图像。由于原始身份标签是从网页自动获取的,因此非常嘈杂。我们基于ArcFace [3]的注释来清理标签,从而生成一个可靠的子集,其中包含来自86K类的580万张图像。清除后的数据集被随机分为10个部分,它们具有几乎相等的身份。每个...
据报道,近日,微软已经悄然删除其最大的公开人脸识别数据库——MS Celeb。MS Celeb数据库于2016年建立,微软描述其为世界上最大的公开面部识别数据集,拥有超过1000万张图像,将近10万人的面部信息。 根据资料统计,在微软删除该资料库前,已有多个商业组织在使用MS Celeb数据库,包括很多知名互联网企业。所以,此次微软删除...
Hyperconnect的研究人员通过使用VoxCeleb1和CelebV(两种名人照片和视频的开源资料库)对MarioNETte进行了培训和测试。使用来自VoxCeleb1的1,251个不同名人对模型和基线进行了训练,并通过从随机选择的100个VoxCeleb1视频中抽取2,083个图像集(加上CelebV中每个名人的2,000个图像集)采样,对一组模型进行了测试。