Whisper是一个开源的自动语音识别系统,它在网络上收集了680,000小时的多语种和多任务监督数据进行训练,使得它可以将多种语言的音频转文字。 Whisper的好处是开源免费、支持多语种(包括中文),有不同模型可供选择,最终的效果比市面上很多音频转文字的效果都要好。 https://github.com/openai/whispergithub.com/op...
第一次先看中文识别效果,我们在网上下载了一段锤子科技当年在鸟巢举办的新品发布会上,老罗对 TNT 功能进行演示的视频片段,然后转换为去掉观众席声音的 5 分 30 秒 MP3 音频文件,这段中文语音中混杂了中文、英文和数字,比较考验 Whisper 的综合实力。 在同样选择 large 模型的情况下,Buzz 采用 i9-14900K 处理器...
将飞书妙记和Whisper在各等级模型下跑的结果作对比: 飞书妙记识别结果 各模型大小与速度 Whisper 在 tiny 模型下的识别结果 Whisper 在 base 模型下的识别结果 Whisper 在 small 模型下的识别结果 Whisper 在 medium 模型下的识别结果 就中文而言,Whisper各模型: tiny 是没有做断句的,或者说,直接根据停顿断句 bas...
Whisper是一个由 OpenAI 训练并开源的神经网络,在英语语音识别方面的稳健性和准确性接近人类水平。当然也支持包括中文在内的多种语言。除了使用本地电脑的 CPU 与 GPU 进行语音转文字以外,实际上还可以直接使用用由 OpenAI 提供的服务进行语音转文字。青小蛙找到的这个开源项目,就简单的提供了这项服务。@Appinn #语音...
Whisper是一个自动语音识别模型。OpenAI在2022年9月发布了一个开源语音识别翻译模型Whisper,支持99种语言翻译,安装使用都比较简单快捷。Whisper会自动根据用户的语言习惯来判断生成简体中文还是繁体中文。https://www.yuque.com/zuoyi-hhn9b/pulhpy/hidgkew8f9ba9bz6 支持
Whisper目前支持的任务有四种,分别是: - 多语言语音识别(Multilingual Speech Recognition):将语音转换为与语音相同语言的文本,比如将英语语音转换为英语文本,或者将中文语音转换为中文文本。 - 语音翻译(Speech Translation):将语音从一种语言翻译成另一种语言的文本,比如将英语语音翻译成中文文本,或者将中文语音翻译成...
whisper 对于英文类音视频输出的结果会是英文,可以借助在线工具或开源库、商业 API 等方式,将英文字幕翻译为中文,从而实现为无字幕视频自动生成字幕。一些相关参考: • https://www.nikse.dk/subtitleedit/online • https://github.com/argosopentech/argos-translate • https://github.com/Helsinki-NLP/Opus...
Whisper 是openai开源的一个通用的语音识别模型,同时支持把各种语言的音频翻译为成英文(音频->文本)。 安装 代码语言:javascript 复制 apt install ffmpeg pip install-Uopenai-whisper 使用 指令 代码语言:javascript 复制 whisper video.mp4 whisper audio.flac audio.mp3 audio.wav--model medium whisper japanese.wa...
Whisper是由OpenAI开发并开源的通用语音识别模型,其参数量从最小的39M到最大的1550M不等,支持包括中文在内的多种语言。该模型基于Transformer Encoder-Decoder结构,经过大量音频数据训练,具备高效准确的语音识别能力。无论是在音乐识别、私信聊天、同声传译还是人机交互等场景中,whisper都能展现出卓越的性能。 二、准备...