另外项目最后还支持CTranslate2加速推理和GGML加速推理,提示一下,加速推理支持直接使用Whisper原模型转换,并不一定需要微调。支持Windows桌面应用,Android应用和服务器部署。 支持模型 openai/whisper-tiny openai/whisper-base openai/whisper-small openai/whisper-medium openai/whisper-large openai/whisper-large-v2 opena...
ffmpeg_command = 'ffmpeg -i "{}" -f wav -vn "{}"' whisper_command = 'whispercli -gpu "NVIDIA GeForce GTX 1050 Ti" -nt -m "C:\\Program Files\\whispercli\\ggml-large.bin" -l zh -nt -otxt -f "{}"' # 使用FFmpeg将视频转换为音频 def convert_video_to_audio(video_path, aud...
main.exe -l zh -osrt -m S:\ggml-medium.bin "test.wav -l zh--选择语言为中文 -osrt--输出srt字幕文件 -m--指定模型位置,这里写你下载好的ggml-medium.en.bin的位置即可。 更多命令,可以访问:https://github.com/ggerganov/whisper.cpp 执行时会出现问号,为正常现象,最后生成的srt格式是正常的。
打开后我们首先需要选择模型,Whisper Desktop 不需要指定的模型存放目录,手动选择模型地址就行。 大家注意,Whisper Desktop 的模型文件并不是 .pt 后缀的,而是 .bin 后缀的,文件名中也多了 ggml-model 的字样,显然这是经过转换后的模型文件。 实际上,该软件就是 Whisper 的 ggml 版本,ggml 是一个用于机器学习...
实际上,该软件就是Whisper 的ggml版本,ggml是一个用于机器学习的张量库,所使用的模型文件是bin格式的二进制文件,识别效果等同于 Whisper。 然后模型生成方式这里选择 GPU。高级参数设置中,有独显的选择独显,没有独显的则选择核显,我这里就直接选择影驰的 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡就行了。
实际上,该软件就是Whisper 的ggml版本,ggml是一个用于机器学习的张量库,所使用的模型文件是bin格式的二进制文件,识别效果等同于 Whisper。 然后模型生成方式这里选择 GPU。高级参数设置中,有独显的选择独显,没有独显的则选择核显,我这里就直接选择影驰的 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡就行了。
该软件是Whisper的ggml版本。ggml是一个用于机器学习的张量库,该机器学习库所使用的模型文件是bin格式的二进制文件,在WhisperDesktop软件中使用的模型直接由 OpenAI 的模型转换得到,故语音识别效果应当与Whisper相同。 使用: 解压、双击打开软件: 打开程序
实际上,该软件就是 Whisper 的 ggml 版本,ggml 是一个用于机器学习的张量库,所使用的模型文件是 bin 格式的二进制文件,识别效果等同于 Whisper。 然后模型生成方式这里选择 GPU。高级参数设置中,有独显的选择独显,没有独显的则选择核显,我这里就直接选择影驰的 GeForce RTX 4070 Ti SUPER 星曜 OC 显卡就行了...
main.exe -mc:\whisperpp\ggml-medium.bind:\whisper.cpp\samples\jfk.wav 這邊就是要指定前面下載好的模型檔、以及拿一個 .wav 檔案來做輸入的音源了;而這邊使用的檔案,是官方提供的jfk.wav。 執行結果大致上會輸出下面的內容: whisper_init_from_file_with_params_no_state: loading model from ...
whisper.cpp -m e:\clangC++\voiceToText\ggml-model-whisper-small.bin -l zh e:\clangC++\voiceToText\srt.wav -ovtt ``` 效果和`openai`的原版有少许不同, 估计是训练模型不一致导致的, 但大差不差, 正确率完全一样. --- # 总结 请开始你的字幕自动加载吧....