9月21日,OpenAI 发布了一个名为「Whisper 」的神经网络,声称其在英语语音识别方面已接近人类水平的鲁棒性和准确性。「Whisper 」式一个自动语音识别(ASR)系统,研究团队通过使用从网络上收集的68万个小时多语音和多任务监督数据,来对其进行训练。训练过程中研究团队发现,使用如此庞大且多样化的数据集可以提高对口...
Whisper在长音频转写方面与最先进的商业和开源ASR系统具有竞争力 使用Whisper转写长音频依赖于时间戳token的准确预测,以确定模型的30秒音频上下文窗口的移动量,一个窗口中的不准确转写可能会对后续窗口中的转写产生负面影响。为此,作者开发了一套启发式方法,有助于避免长音频转录的失败案例。 1)beam decoding: 作者用温...
IT之家 10 月 3 日消息,OpenAI 在 10 月 1 日举办的 DevDay 活动日中,宣布推出了 Whisper large-v3-turbo 语音转录模型,共有 8.09 亿参数,在质量几乎没有下降的情况下,速度比 large-v3 快 8 倍。Whisper large-v3-turbo 语音转录模型是 large-v3 的优化版本,并且只有 4 层解码器层(Decoder Lay...
Whisper是一个开源的自动语音识别系统,它在网络上收集了680,000小时的多语种和多任务监督数据进行训练,使得它可以将多种语言的音频转文字。 Whisper的好处是开源免费、支持多语种(包括中文),有不同模型可供选择,最终的效果比市面上很多音频转文字的效果都要好。
Whisper的研究团队来自OpenAI,共同一作有两位:Alec Radford、Jong Wook Kim。Alec Radford,OpenAI的机器学习研究员,也是indico.io的联合创始人。Jong Wook Kim,在纽约大学获得了音乐技术专业的博士学位,研究方向包括多模态深度学习和音乐理解,目前是OpenAI的研究人员。值得一提的是,研究团队指出,虽然目前Whisper还...
Whisper 已经在真实数据以及其他模型上使用的数据以及弱监督下进行了训练。模型的准确性针对人类听众进行了测试并评估其性能。它能够检测清音区域并应用 NLP 技术在转录本中正确进行标点符号的输入。模型是可扩展的,允许从音频信号中提取转录本,而无需将视频分成块或批次,从而降低了漏音的风险。模型在各种数据集上取得...
Release Version 1.12 · Const-me/Whisper · GitHub ggerganov/whisper.cppat main (huggingface.co) 再看下 Whisper Desktop,首先是下载,Whisper Desktop 软件和模型下载地址我贴在这里,同样也是五种大小的模型,只不过文件名前缀和文件类型后缀不同。
9月21日,OpenAI 发布了一个名为「Whisper 」的神经网络,声称其在英语语音识别方面已接近人类水平的鲁棒性和准确性。 「Whisper 」式一个自动语音识别(ASR)系统,研究团队通过使用从网络上收集的68万个小时多语音和多任务监督数据,来对其进行训练。 训练过程中研究团队发现,使用如此庞大且多样化的数据集可以提高对口音...
这里我给大家做了一些中文注释,模型类型直接选第一个 Whisper 就好,体积方面理论上转写英语音频选择 Small 模型就能有不错的效果,中文音频则需要 Medium 或 large 模型,处理类型选择转写,因为转译是将识别结果翻译成英文,而且只能翻译成英文,局限性较大。