2.1 扩展的TDNN x-vector 2.2 基于ResNet的r-vector 3 ECAPA-TDNN架构 3.1 依赖于通道和上下文的统计信息池化 3.2 一维Squeeze-Excitation(挤压激励网络)Res2Blocks 3.3 多层特征聚合和求和 4. 实验设置 4.1 训练说话人嵌入提取器 4.2 说话人确认 4.3 评估协议 5 结果 6. 总结 摘要 当前的说话人确认技术依赖于...
两种基于DNN的说话人识别系统将作为衡量ECAPA-TDNN模型性能的有力baseline:一种是x-vector系统,另一种是基于ResNet的系统,这两种系统目前都在VoxSRC等说话人验证任务上达到了最先进水平。 1、扩展的TDNNx-vector 如图1所示,x-vector包含多层帧级别的TDNN层,一个统计池化层和两层句子级别的全连接层,以及一层softmax...
ECAPA-TDNN网络架构被分成了三个小节,下面将对ecapa-tdnn模型架构以及代码进行详细分析。 依赖通道和时序统计池化。 通道注意力模块 多层特征的聚合 论文地址 代码地址1 建模通道和时序依赖关系的统计池化 其本质是将时序注意力机制延伸到通道注意力,形成通道-时序注意力方法。在此之前需要先了解一下文中提到的 soft s...
vim speechbrain/lobes/models/ECAPA_TDNN.py 一、模型结构 1、对于 Conv1D + Relu + BN 其实就是一个TDNN block,TDNN时延神经网络: classTDNNBlock(nn.Module):"""An implementation of TDNN.Arguements---in_channels : intNumber of input channels.out_channels : intThe number of output channels.kernel_...
上图中左边是ECAPA-TDNN模型的基本框架,右边是对应的实现代码,此处只是定义,没有forward,下面对比分析一下。 模型输入80维的Fbank特征,长度为T。 第一层是经过一层Conv1D+ReLU+BN模块处理,因为是一维卷积,所以等同于一个TDNN模块,实现代码是右边第一块TDNNBlock。
最近因为工作需要,开始研究paddlespeech,以前学生时代用keras、pytorch多,第一次接触paddle,浅浅记录一下坑还有感受。 第一个感觉,环境搭建特别麻烦,图方便使用docker,但是因为众所周知的原因,dockerhub上拉取paddlespeech的速度特别慢,而且本身服务器别人也在用,重启docker修改源也不太方便,所以打算拉取paddlepaddle的官方...