log_mel_spectrograms[..., num_mel_bins]float32/float64Tensorof log-magnitude mel-scale 频谱图。 name操作的可选名称。 返回 [..., num_mel_bins]float32/float64Tensor的log_mel_spectrograms的 MFCC。 抛出 ValueError如果num_mel_bins不是正数。 使用GPU-compatible ops 实现并支持渐变。 Mel-Frequenc...
Whisper 架构:是一种简单的端到端方法,作为编码器-解码器 Transformer 实现。输入音 频被分成 30 秒的块,转换为 log-Mel 频谱图,然后传递到编码器中。训练解码器来预测相 应的文本标题,并与指示单个模型执行语言识别、短语级时间戳、多语言语音听录和英语语 音翻译等任务的特殊标记混合在一起。