在speechTransformer基础上进行一系列的改进,1)低帧率,提升计算效率;2)decoder输入采样减少训练和预测偏差,以一定概率决定是否采样前一时刻预测输出作为输入;3)Focal Loss,缓解字符类别之间的数据不均衡问题;实验结果表明,三者均可以对模型效果带来提升,相比于speechTransformer提升幅度在10.8%~26.1%;相比于TDNN-LSTM混合系...
speech-transformer 整体采用encoder和decoder结构,其中encoder和decoder的主要模块都是multi-head attention和feed-forward network;此外,encoder为更好的对时域和空域不变性建模,还额外添加了conv结构和2D-attention conv:encoder采用了两层3*3,stride=2的conv,对时域和频域进行卷积,一方面提升模型学习时域信息能力;另一方面...
Transformer是首先是在神经机器翻译任务中提出,然后逐渐成为了自然语言处理领域的主流模型,之后又在许多领域证明了其强大的性能。 Attention is all you need这篇论文首先提出了Transformer结构,完全基于Attention mechanism,抛弃了传统的RNN和CNN,是一种全新的大胆的尝试。 近期在视觉领域又广泛的流行起来,而在语音方面又...
speech-transformer 整体采用encoder和decoder结构,其中encoder和decoder的主要模块都是multi-head attention和feed-forward network;此外,encoder为更好的对时域和空域不变性建模,还额外添加了conv结构和2D-attention conv:encoder采用了两层3*3,stride=2的conv,对时域和频域进行卷积,一方面提升模型学习时域信息能力;另一方面...
Yuanyuan Zhao, Jie Li, Xiaorui Wang, and Yan Li. "The SpeechTransformer for Large-scale Mandarin Chinese Speech Recognition." ICASSP 2019. 摘要: End-to-End ASR with transformer SpeechTransformer是一种无递归的encoder-decoder结构,在先前的工作中已经在小规模语音识别数据集上显示了令人鼓舞的结果。 本...
在speechTransformer基础上进行一系列的改进,1)低帧率,提升计算效率;2)计划采样减少训练和预测偏差,以一定概率决定是否采样前一时刻预测输出作为输入;3)Focal Loss,缓解字符类别之间的数据不均衡问题;实验结果表明,三者均可以对模型效果带来提升,相比于speechTransformer提升幅度在10.8%~26.1%;相比于TDNN-LSTM混合系统提升...
利用transformer模型来实现语音识别系统. Contribute to lyj157175/Speech-transformer development by creating an account on GitHub.
We also propose a 2D-Attention mechanis- m, which can jointly attend to the time and frequency axes of the 2-dimensional speech inputs, thus providing more expressive repre- sentations for the Speech-Transformer. Evaluated on the Wall Street Journal (WSJ) speech recognition dataset, our best...
这是语音变压器的PyTorch重新实现:用于语音识别的无重复序列到序列模型。 数据集 Aishell是由北京壳牌壳牌科技有限公司发行的开源中文普通话语料库。 邀请了来自中国不同口音地区的400人参加录音,该录音是在安静的室内环境中使用高保真麦克风进行的,并下采样至16kHz。 通过专业的语音注释和严格的质量检查,手册的转录准确性...
A PyTorch implementation of Speech Transformer [1], an end-to-end automatic speech recognition withTransformernetwork, which directly converts acoustic features to character sequence using a single nueral network. Ad: Welcome to join Kwai Speech Team, make your career great! Send your resume to:...