第三名:OpenAI开源的自动语音识别大模型Whisper V3 Whisper是OpenAI提出的一种用于自动语音识别(ASR)和语音翻译的预训练模型。该模型在680k小时的标记数据上进行训练,展现出在多个数据集和领域的强大泛化能力,无需进行微调。V3是最新发布的第三代模型。 Whisper large-v3模型在多种语言上的表现有所提升,与Whisper larg...
本文,我们将使用推理终端的自定义回调函数来解决这一挑战,将其它把自动语音识别 (ASR) 、说话人分割流水线以及投机解码串联起来并嵌入推理端点。这一设计主要受Insanely Fast Whisper的启发,其使用了Pyannote说话人分割模型。 我们也希望能通过这个例子展现出推理终端的灵活性以及其“万物皆可托管”的无限可能性。你可在...
HuggingFace基于Whisper训练并开源了一个全新的Distil-Whisper,它比Whisper-v2速度快6倍,参数小49%,而...
因此,如果我们想对诸如large-v2(多语言) 的 Whisper 多语言版本使用推测解码,我们需要选择诸如tiny的 Whisper 多语言版本作为辅助模型。而如果我们想对诸如medium.en的 Whisper 英文版本使用推测解码,我们需要选择诸如tiny.en的 Whisper 英文版本作为辅助模型。目前,large-v3是唯一一个扩展了词汇量的 Whisper 检查点,因...
First, fine-tune Whisper large-v3 to act as your main model Second, distil Whisper large-v3 on the same dataset to act as a fast assistant model Fine-tuning and distillation can improve the WER performance of both the main and assistant models on your chosen language, whil...
Whisper v2&v3模型国内镜像下载地址:https://aifasthub.com/models/openai 这一技术的进步不仅展示了AI...
免费开源视频翻译+配音工具:pyVideoTrans 软件特点: 1、自动视频翻译:集成了faster-whisper模型,支持自定义huggingface模型; 还集成了批量处理工具,批量语音转字幕、批量字幕翻译和批量配音。 2、多种配音和翻译渠道: 配音:edgeTTS、AzureTTS、OpenAiTTS、Elevenlabs、clone-voice 和、GPT-SoVITS 翻译:Google、ChatGPT...
Whisper (from OpenAI) released with the paper Robust Speech Recognition via Large-Scale Weak Supervision by Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever. X-CLIP (from Microsoft Research) released with the paper Expanding Language-Image Pretrained Models fo...
以openai/whisper-large-v3为例,获取如下三个信息,如下三个信息在详情页不全的模型不支持部署 1、model_id 2、model_task 3、pipeline类型(Transformers/Diffusers) 在应用模版中填上如上三个信息, 其中模型任务见上文Task列表,进行创建应用即可,就会拉起一个加载该模型的server,对外提供API服务 api服务的入参可以...
model_id_w="openai/whisper-large-v3"model_w=AutoModelForSpeechSeq2Seq.from_pretrained(model_id_w,torch_dtype=torch_dtype,low_cpu_mem_usage=True,use_safetensors=True)model_w.to(device)processor=AutoProcessor.from_pretrained(model_id_w)pipe_w=pipeline("automatic-speech-recognition",model=model...