pip install setuptools-rust #方式一打包安装 pip install -U openai-whisper #方式二github仓库安装 pip install git+https://github.com/openai/whisper.git #github仓库升级 pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git 除了安装主程序,使用whisper还需要下...
OpenAI于2022年12月开源的语音处理模型Whisper,以其token级别时间戳和准确的ASR文本转录备受大众关注。在笔者实际体验中,Whisper尽管没有针对中文语音与文本进行微调,但是其文本转录准确度甚至达到了可以作为商用ASR转录方案的替代品的程度。然而,为了更好地挖掘whisper潜力,提高whisper的性能,仍然需要一定的探索。本文的目的...
Whisper是一个开源的自动语音识别系统,它在网络上收集了680,000小时的多语种和多任务监督数据进行训练,使得它可以将多种语言的音频转文字。 Whisper的好处是开源免费、支持多语种(包括中文),有不同模型可供选择,最终的效果比市面上很多音频转文字的效果都要好。 https://github.com/openai/whispergithub.com/op...
众所周知,直接使用Whisper模型推理是比较慢的,所以这里提供了一个加速的方式,主要是使用了CTranslate2进行加速,首先要转换模型,把合并后的模型转换为CTranslate2模型。如下命令,--model参数指定的是合并后的模型路径,同时也支持直接使用Whisper原模型,例如直接指定openai/whisper-large-v2。--output_dir参数指定的是转换...
探索Whisper:安装、使用与模型特点揭秘 好久不见,亲爱的读者们。许久未有新动态,今日特来与大家分享一款令人激动的语音识别模型——Whisper。这款模型由OpenAI在9月隆重推出,以其卓越的英语翻译鲁棒性和准确性脱颖而出,更令人瞩目的是,它支持多达99种语言的翻译。本文将引导您了解Whisper的安装与使用,同时分享...
pip install git+https://github.com/openai/whisper.git whisper audio.mp3 --model medium --language Chinese 音频采用的是: 李厚辰的翻转电台最新一期:FULL 形而上学大全巫术的产生(孔子29)-翻电2.0 节选开头一段 将飞书妙记和Whisper在各等级模型下跑的结果作对比: ...
下面选择转录的模型,我们选 OpenAI/Whisper 。当然你们也可以选择其它的模型尝试,关于不同模型作用在下面都有解释。 ModelConfigs 在Model Configs 里,model_type 决定了你转录的质量。我一般都用 large-v2 ,它是最大的模型,目前对多种语言支持最好。当然有关其它模型区别,我们也可以到相关页面查看。 device 驱...
Whisper 是今年 9 月被 OpenAI 开源的自动语音识别系统,除了可以用于语音识别,Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。「语言识别」「转录」听起来特别唬人,但 transcribe(转录)指将语音转为文字,Whisper 会为音视频生成带时间轴的字幕文件,是支持 99 种语言 AI 字幕工具。
Whisper是一个由 OpenAI 训练并开源的神经网络,在英语语音识别方面的稳健性和准确性接近人类水平。当然也支持包括中文在内的多种语言。除了使用本地电脑的 CPU 与 GPU 进行语音转文字以外,实际上还可以直接使用用由 OpenAI 提供的服务进行语音转文字。青小蛙找到的这个开源项目,就简单的提供了这项服务。@Appinn ...
项目处理流程复杂:OpenAI 的 Whisper API 限制单次请求的音频大小为 25Mb,而一节 3h 的音频通常都会有大几十 MB。这就需要对音频先做分段处理,再请求结果,最后合并结果。如果是 mp4 文件则还需要从中抽取音频文件,这个过程里没少踩坑。 成本问题:OpenAI 的 Whisper 模型 1min 收费 0.006 美元,1h 的音频按照 ...