百度旗下PaddleSpeech发布的开源声纹识别系统中就利用了ECAPA-TDNN提取声纹特征,识别等错误率(EER)低至0.95%。 背景知识——DNN说话人识别系统 两种基于DNN的说话人识别系统将作为衡量ECAPA-TDNN模型性能的有力baseline:一种是x-vector系统,另一种是基于ResNet的系统,这两种系统目前都在VoxSRC等说话人验证任务上达到...
本项目使用了EcapaTdnn模型实现的声纹识别,不排除以后会支持更多模型,同时本项目也支持了多种数据预处理方法,损失函数参考了人脸识别项目的做法PaddlePaddle-MobileFaceNets ,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对特征向量和权重归一化,对θ加上角度间隔m,角度间隔比余...
项目地址:https://github.com/2DIPW/audio_dataset_vpr 基于 https://github.com/yeyupiaoling/VoiceprintRecognition-Pytorch 修改 一个基于声纹识别模型对音频数据集按说话人自动分类的数据集筛选辅助工具,仅需为每个说话人准备数条代表性的语音片段,可用于辅助 VITS/SoVITS/Diff-SVC/RVC/DDSP-SVC 等语音模型数据...
声纹识别目前可能最好的model是ECAPA-TDNN 小弟仔仔细细看了ECAPA-TDNN有关的五篇文章和找到的三份代码代码,反复推敲总结画了一张大图,并且一层一层对着代码算了一遍,希望能帮助大家把这个结构很快的高清晰。 P1 model结构的示意图和解释 P2 code的对照分析 制作不易,给我点个赞就更好了! 展开更多...
一种基于ECAPA-TDNN模型的高性能声纹识别平台(小程序端)是由杭州师范大学著作的软件著作,该软件著作登记号为:2023SR0876562,属于分类,想要查询更多关于一种基于ECAPA-TDNN模型的高性能声纹识别平台(小程序端)著作的著作权信息就到天眼查官网!
本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,不排除以后会支持更多模型,同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,使用了ArcFace Loss,ArcFace loss:Additive Angular Margin Loss(加性角度间隔损失函数),对应项目中的AAMLoss,对特征向量和权重...
简介 本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法。 暂无标签 Python Apache-2.0 保存更改 发行版 暂无发行版 贡献者(2) 全部 近期动态
项目地址:https://github.com/2DIPW/audio_dataset_vpr 基于 https://github.com/yeyupiaoling/VoiceprintRecognition-Pytorch 修改 一个基于声纹识别模型对音频数据集按说话人自动分类的数据集筛选辅助工具,仅需为每个说话人准备数条代表性的语音片段,可用于辅助 VITS/SoVITS/Diff-SVC/RVC/DDSP-SVC 等语音模型数据...