常见的声音事件检测方法是将长音频首先通过设定的窗长和窗移切分为很多短音频,然后通过对每一个短音频片段的识别来定位事件位置及事件类别。但是在该比赛任务中,不同动物叫声时长差异很大,从10毫秒至数秒不等,固定语音窗长或自适应窗长等策略在不同数据上的结果波动很大。通过对动物叫声的时频分析,我们发现动物叫声存在明显
针对此次比赛,联合团队提出了两个有效的技术方法来解决真实场景下声音事件的定位和检测任务:首先根据麦克风阵列的对称特性提出使用音频通道交换的数据增强方法显著增加了空间方位信息的多样性,提高模型对声音事件空间位置的鲁棒性;其次使用能够对长短时上下文信息同时建模的Conformer结构对每一帧声音事件进行更精细化学习,有效...
如果把蜜蜂的嗡嗡声、蝉鸣声、各种鸟鸣声等动物的声音混合在一起,这个“交响乐”不知道有没有人愿意听? 而此次DCASE2022挑战赛小样本动物声音事件检测赛道就是以这种形式呈现。在给定一长段音频以及目标声音前5个片段时间信息的条件下,从这段音频剩余的部分查找出所有目标声音的起始及结束时间。目标声音均为动物发出的...
未来,科大讯飞将持续开展针对声音的感知能力研究,对声音中蕴含的信息进行识别和分析,实现智能音频技术的应用落地,用人工智能建设美好世界。