成功的x-vector体系结构是一种Time Delay Neural Network(TDNN)【实现上可以用1X1的卷积核】,它应用统计池化将可变长度的话语投影到固定长度的说话人特征嵌入中。在本文中,论文基于人脸验证和计算机视觉相关领域的最新趋势,提出了对该体系结构的多项增强。首先,可以将初始帧层重构为具有有效跳接的一维Res2Net模块。与...
声纹识别目前可能最好的model是ECAPA-TDNN 小弟仔仔细细看了ECAPA-TDNN有关的五篇文章和找到的三份代码代码,反复推敲总结画了一张大图,并且一层一层对着代码算了一遍,希望能帮助大家把这个结构很快的高清晰。 P1 model结构的示意图和解释 P2 code的对照分析 制作不易,给我点个赞就更好了! 展开更多...
ECAPA-TDNN的三个改进优化包括:SE残差模块、多层特征融合和注意力统计池化。SE残差模块基于Squeeze-and-Excitation Networks(SENet)的原理,实现了对特征图的压缩和激励。SENet结构包括压缩部分和激励部分,分别通过全局平均池化和全连接层实现。SpeechBrain的实现代码中,SE-Res2Block残差模块和Res2结构共同构...