高效推理:SenseVoice-Small模型采用非自回归端到端框架,推理延迟极低,10s音频推理仅耗时70ms,15倍优于Whisper-Large。 微调定制:具备便捷的微调脚本与策略,方便用户根据业务场景修复长尾样本问题。 SenseVoice在线预览链接 SenseVoice在线预览:https://www.modelscope.cn/studios/iic/SenseVoice 本地化部署 这里使用auto...
高效推理:SenseVoice-Small模型采用非自回归端到端框架,推理延迟极低,10s音频推理仅耗时70ms,15倍优于Whisper-Large。 微调定制:具备便捷的微调脚本与策略,方便用户根据业务场景修复长尾样本问题。 SenseVoice在线预览链接 SenseVoice在线预览:https://www.modelscope.cn/studios/iic/SenseVoice 本地化部署 这里使用auto...
所选取的测试集同时包含中文 / 英文两种语言以及表演、影视剧、自然对话等多种风格的数据,在不进行目标数据微调的前提下,SenseVoice 能够在测试数据上达到和超过目前最佳情感识别模型的效果。 同时,我们还在测试集上对多个开源情感识别模型进行对比,结果表明,SenseVoice-Large 模型可以在几乎所有数据上都达到了最佳效果,...
高效推理:SenseVoice-Small模型采用非自回归端到端框架,推理延迟极低,10s音频推理仅耗时70ms,15倍优于Whisper-Large。 微调定制:具备便捷的微调脚本与策略,方便用户根据业务场景修复长尾样本问题。 SenseVoice在线预览链接 SenseVoice在线预览:https://www.modelscope.cn/studios/iic/SenseVoice 本地化部署 这里使用auto...
支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。 高效推理: SenseVoice-Small模型采用非自回归端到端框架,推理延迟极低,10s音频推理仅耗时70ms,15倍优于Whisper-Large。微调定制: 具备便捷的微调脚本与策略,方便用户根据业务场景修复长尾样本问题。
这个模型现在开源的只有small版的没有Large版的所以没有下载的地方
SenseVoice-Small是专为快速语音理解设计的基础模型,集自动语音识别(ASR)、语言识别(LID)、语音情感识别(SER)和声学事件检测(AED)于一身。更令人惊艳的是,它支持中文、英语、粤语、日语和韩语等多语言识别。推理速度远超Whisper-small,快了7倍,比Whisper-large更是快了17倍,真正展现了速度与性能的完美...
处理10秒音频仅需70毫秒,比Whisper-Large快15倍。 便捷的微调: 提供便捷的微调脚本和策略,使用户能够根据业务场景轻松解决长尾样本问题。 1. 在线体验 在线体验地址:https://www.modelscope.cn/studios/iic/SenseVoice 语音识别:支持中、粤、英、日、韩语等 50 多种语言。 情感识别:比如积极 or 消极,以 ...
SenseVoice模型在推理速度上表现出色,其小型模型SenseVoice-Small采用非自回归端到端框架,10秒音频的推理时间仅为70毫秒,比Whisper-large快15倍。 github项目地址:https://github.com/FunAudioLLM/SenseVoice。 一、环境安装 1、python环境 建议安装python版本在3.10以上。
SenseVoice侧重于高精度多语种语音理解,支持超过50种语言。在识别准确率上超过Whisper模型,同时提供情感识别和音频事件检测能力。其中SenseVoice-Small是一个端到端非自回归模型,推理延迟极低,处理10秒音频仅需70毫秒,比Whisper-Large快15倍。该模型还提供了方便的微调脚本和策略,可根据场景解决长尾样本问题。