因此,如果我们想对诸如large-v2(多语言) 的 Whisper 多语言版本使用推测解码,我们需要选择诸如tiny的 Whisper 多语言版本作为辅助模型。而如果我们想对诸如medium.en的 Whisper 英文版本使用推测解码,我们需要选择诸如tiny.en的 Whisper 英文版本作为辅助模型。目前,large-v3是唯一一个扩展了词汇量的 Whisper 检查点,因...
如果你想部署 Whisper 模型,Hugging Face推理终端能够让你开箱即用地轻松部署任何 Whisper 模型。但是,如果你还想叠加其它功能,如用于分辨不同说话人的说话人分割,或用于投机解码的辅助生成,事情就有点麻烦了。因为此时你需要将 Whisper 和其他模型结合起来,但对外仍只发布一个 API。 本文,我们将使用推理终端的自定义...
Whisper是OpenAI提出的一种用于自动语音识别(ASR)和语音翻译的预训练模型。该模型在680k小时的标记数据上进行训练,展现出在多个数据集和领域的强大泛化能力,无需进行微调。V3是最新发布的第三代模型。 Whisper large-v3模型在多种语言上的表现有所提升,与Whisper large-v2相比,错误率降低了10%到20%。研究表明,与许...
以openai/whisper-large-v3为例,获取如下三个信息,如下三个信息在详情页不全的模型不支持部署 1、model_id 2、model_task 3、pipeline类型(Transformers/Diffusers) 在应用模版中填上如上三个信息, 其中模型任务见上文Task列表,进行创建应用即可,就会拉起一个加载该模型的server,对外提供API服务 api服务的入参可以...
First, fine-tune Whisper large-v3 to act as your main model Second, distil Whisper large-v3 on the same dataset to act as a fast assistant model Fine-tuning and distillation can improve the WER performance of both the main and assistant models on your chosen language, whil...
首先,微调 Whisper large-v3 以用作主模型 其次,在同一数据集上蒸馏 Whisper large-v3 以用作快速的辅助模型 微调和蒸馏都可以提高主模型和辅助模型在您选择的语言上的 WER 性能,同时最大化 token 分布的对齐。有关 Whisper 微调的完整指南,请参阅 此处,有关蒸馏的指南请参阅 此处。 批次...
model_id_w="openai/whisper-large-v3"model_w=AutoModelForSpeechSeq2Seq.from_pretrained(model_id_w,torch_dtype=torch_dtype,low_cpu_mem_usage=True,use_safetensors=True)model_w.to(device)processor=AutoProcessor.from_pretrained(model_id_w)pipe_w=pipeline("automatic-speech-recognition",model=model...
Whisper语音识别速度再提升 | Whisper变得更加迅速。速度提升了大约40%!随着转换器的最新升级,大容量的v3版本在Open ASR排行榜上前五名中表现最佳且最快。 下面展示了实时因数(RTF)的降低: whisper大型v3:10.3->7.45 distil whisper v2:4.93->2.08 是如何达到这个速度提升的呢?
自Transformers 4.0.0 版始,我们有了一个 conda 频道:huggingface。 🤗 Transformers 可以通过 conda 依此安装: conda install -c huggingface transformers 要通过 conda 安装 Flax、PyTorch 或 TensorFlow 其中之一,请参阅它们各自安装页的说明。 模型架构 ...
quanto可用于量化任何模态的模型!下面展示了如何使用quanto将openai/whisper-large-v3模型量化至int8。 fromtransformersimportAutoModelForSpeechSeq2Seq model_id ="openai/whisper-large-v3" quanto_config = QuantoConfig(weights="int8") model = AutoModelForSpeechSeq2Seq.from_pretrained( ...