更新(20241008):large-v3-turbo来了,和之前whisper类似的模型架构,更少的decoder层(32层减少到4层),更多的训练轮数(额外两个epoch),在识别性能几乎不怎么降低的情况下(比large-v3略有小幅下降),实现了更快的识别速度(large-v2的近8倍,接近tiny的速度)。
OpenAI的Whisper Large v2音频转录模型发布了。这个模型采用了非常先进的技术,可以在不到10分钟的时间内转录出300分钟的音频。这一速度远远超过了之前的音频转录模型,对于信息的获取和处理提供了极大的便利。这个模型可以应用于各种领域,如语音识别、智能客服等。 划重点 OpenAI发布Whisper Large v2音频转录模型 转录300分...
Openai whisper模型下载链接,包括medium(中型),large-v1、large-v2、large-v3 懂的自然懂,不懂也用不上 “medium”:“https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt”, “large-v1”:“https://openaipublic.azureedge...
OpenAI语音转文字,Whisper large-v2模型在识别英语、意大利语、德语时的单词错误率都能控制在5%以下,日文错误率是5.3,但中文的错误率达到14.7%。 û收藏 35 2 ñ11 评论 o p 同时转发到我的微博 按热度 按时间 正在加载,请稍候... 智美体育副总裁 K2成员 查看更多 a 3802关...
该large-v3 模型使用 100 万小时的弱标记音频和 400 万小时的伪标记音频进行训练 large-v2 。该模型在此混合数据集上训练了 2.0 个 epoch。 该large-v3 模型显示了在各种语言上的性能改进,下图包括 Whisper 在 Common Voice 15 和 Fleurs 上 large-v3 执行低于 60% 错误率的所有语言,显示与 large-v2 相比...
!wget-c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav 接着让我们将语音转换为文本: transcription=transcriber("zh.wav") 除此之外,你还可以使用更小型号的 Belle-distilwhisper-large-v2-zh 模型,只需要替换模型加载代码中的模型名即可
对于任何有兴趣测试它的人来说,这里是我的自定义版本,它**仅适用于 V3 模型,**不适用于任何其他模型。 对于 GUI 用户,这是 WhisperDesktop;对于命令行用户,这是 main.exe: whisperConstMe_V3_test.zip 从这里下载“ ggml-large.bin ”模型(他们将当前的 Large 重命名为 Large-V2,Large 现在是 V3。 如果...
"large-v2": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt", "large-v3": "https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb...
支持的,所有版本的whisper都支持。https://github.com/alibaba-damo-academy/FunASR/blob/main/examples...
This large-v2 model surpasses the performance of the large model, with no architecture changes. Thus, it is recommended that the large-v2 model is used in-place of the original large model. Disclaimer: Content for this model card has partly been written by the Hugging Face team, and ...