我下载的模型是Systran/faster-whisper-large-v3 BTW :V3在huggingface上托管者是systran,而前面的都是Guillaume Klein 然后我看了下这个大佬的github,是苹果法国巴黎工程师,同时是systran的成员,主要贡献是开发了CTranslate2,一个用于加速transformers模型推理的组件 以下为模型性能信息, Large-v2 model on GPU Executed...
large-v3有3G大小文件对应huggingface上的models--Systran--faster-whisper-large-v3 加载所需显存有:有近6G(32精度的量化) 三、whisper-live 在fastwhisper的基础上增加了实时语音转写,效果较好。 与lllm结合的思想是: 1 构建客户端服务端, 开启麦克风识别,循环接收麦克风的数据,并发送到服务端。 服务端接收到数据...
from faster_whisper import WhisperModel import whisperx import gc def whisperx_test(): device = "cpu" model_size = "large-v3" audio_file = "test.mp4" batch_size = 16 compute_type = "int8" # widnow CPU model = whisperx.load_model("large-v3", device, compute_type=compute_type) #...
ifmodel_size=="faster-whisper-large-v3-turbo-ct2": model_path=f'tools/asr/models/faster-whisper-large-v3-turbo-ct2' iflanguage=='auto': language=None#不设置语种由模型自动输出概率最高的语种 print("loading faster whisper model:",model_size,model_path) ...
import whisperx import gc def whisperx_test(): device = "cpu" model_size = "large-v3" audio_file = "test.mp4" batch_size = 16 compute_type = "int8" # widnow CPU model = whisperx.load_model("large-v3", device, compute_type=compute_type) ...
faster-whisper 需要 Python 3.8 之后的版本,可以创建Python虚拟环境来实现。 安装faster-whisper : pip install faster-whisper Python代码: from faster_whisper import WhisperModel# 指定模型model_size = "large-v3"# or run on CPU with INT8model = WhisperModel(model_size, device="cpu", compute_type=...
[语音识别]开源语音识别faster-whisper模型下载地址 https://github.com/SYSTRAN/faster-whisper 模型下载地址: large-v3模型:https://huggingface.co/Systran/faster-whisper-large-v3/tree/main large-v2模型:https://huggingface.co/guillaumekln/faster-whisper-large-v2/tree/main...
用户可以方便地加载、下载和转换模型。软件支持从 Hugging Face 下载模型,也可以加载本地模型。特别值得一提的是,faster-whisper-GUI 支持最新的 Whisper large-v3 模型,为用户提供更高精度的转写结果。 音频处理功能 集成了 Demucs 音频分离功能,可以将人声与背景音乐分离,提高转写的准确性。这对于处理包含背景音乐的...
faster-whisper 需要 Python 3.8 之后的版本,可以创建Python虚拟环境来实现。 安装faster-whisper : pip install faster-whisper Python代码: from faster_whisper import WhisperModel # 指定模型 model_size = "large-v3" # or run on CPU with INT8
特别值得一提的是,faster-whisper-GUI 支持最新的 Whisper large-v3 模型,为用户提供更高精度的转写结果。 3. 音频处理功能 集成了 Demucs 音频分离功能,可以将人声与背景音乐分离,提高转写的准确性。这对于处理包含背景音乐的音频文件特别有用。 4. 批量处理 软件支持批量处理功能,用户可以一次性添加多个文件进行...