OpenAI迟迟不上线GPT-4o语音助手,其它音频生成大模型成果倒是一波接着一波发布,关键还是开源的。 刚刚,阿里通义实验室也出手了—— 最新发布开源语音大模型项目FunAudioLLM,而且一次包含两个模型:SenseVoice和CosyVoice。 SenseVoice专注高精度多语言语音识别、情感辨识和音频事件检测,支持超过50种语言识别,效果优于Whisp...
OpenAI开源语音识别模型whisper-turbo OpenAI开源了语音识别模型ASR whisper-v3-turbo,解码层只要4层,1.6G模型大小,性能和whisper-v3相差不大,速度提升8倍。对实时会议纪要和同声传译有望 - 科技长升牛于20241004发布在抖音,已经收获了3.5万个喜欢,来抖音,记录美好生
现有的语音对话系统中主要包含 3 个过程:首先将输入语音内容转换为文本,其次利用大语言模型进行文本推理,最后利用语音合成系统生成并输出语音。 然而,类似的多阶段串联系统存在一些缺陷,比如模型无法理解语音中包含的情绪及其它非文本内容信息;同时由于额外的语音识别及合成带来的时间开销导致 AI 回复迟缓等实时性问题。 ...
MooER大模型的开源,是摩尔线程在AI语音技术领域的又一重要里程碑。据摩尔线程介绍,MooER依托其自研的夸娥(KUAE)智算平台,结合创新算法和高效计算资源,仅用38个小时就完成了对5000小时音频数据和伪标签的训练,展现了惊人的计算效率和数据处理能力。 作为业界领先的开源语音模型,MooER不仅支持中文和英文的语音识别,还具...
我们过去讨论语言大模型、图像大模型相关的比较多,但语音/音频大模型值得我们关注,包括Text-to-Speech(TTS,文本生成语音,或者称之为语音合成)、Text-to-Audio(文本生成音频),Automatic Speech Recognition(自动语音识别),Audio to Audio(音频到音频)等等,我们介绍一些典型的语音大模型。有关语音/音频相关技术的介绍可以...
Meta使用自己的数据集以及现有数据集(例如 FLEURS 和 CommonVoice)训练了 4000 多种语言的语言识别 (LID) 模型,并在 FLEURS LID 任务上对其进行了评估。事实证明,支持 40 倍数量的语言仍然可以获得非常好的性能。 此模型还为 1100 多种语言构建了文本转语音系统。当前的文本到语音模型通常是在仅包含单个说话者的...
Mozilla 对语音识别的潜能抱有很大期望,但这一领域目前仍然存在对创新的明显阻碍,这些挑战激发这家公司启动了 DeepSpeech 项目和 Common Voice 项目。近日,他们首次发布了开源语音识别模型,其拥有很高的识别准确率。与此同时,这家公司还发布了世界上第二大的公开语音数据集,该数据集由全球将近 20000 人所贡献。
幸运的是,Meta公司发布了一系列开源的语言模型,包括涵盖1406种语言的预训练wav2vec2.0模型、针对1107种语言的单一多语言自动语音识别模型、针对4017种语言的语言识别模型以及针对相同数量语言的语音合成模型这些开源的语言模型为更多语言的人们提供了新的机会和工具。Meta使用了基准数据集(如FLEURS)对其大规模多语言...
Meta公司近期宣布对其大语言模型进行了重大扩展,开源支持了1000多种语言的文本转语音与语音识别功能。全球有超过7000种语言,而Meta以前仅覆盖了100多种,这次的突破性进展旨在让全球各地的人们都能受益。Meta开源了四个关键模型:包含1406种语言的wav2vec 2.0预训练模型,1107种语言的单一多语言自动语音...
星辰超多方言语音识别大模型v1.0,由30万小时无标注多方言语音数据进行预训练,并利用内部30种有标注数据进行微调,打破单一模型只能识别特定单一方言的困境,可支持理解粤语、上海话、四川话、温州话等30种方言 本次开源三个模型:两个30万小时无标注语音预训练模型和一个KeSpeech数据集8种方言微调模型。发布版本和下载链...