在科幻小说《银河系漫游指南》中,作家道格拉斯·亚当斯描绘了一种神奇的宇宙生物——巴别鱼,它以脑电波能量为生,能够使人们在将其塞进耳朵后,即刻理解任何语言的内容,轻松与外星人交流。同名电影也已于 2005 年上映。 自从小说问世以来,“巴别鱼”便成为了即时语音翻译的象征。然而,当时人类的翻译技术距离这一设想仍有...
https://arstechnica.com/information-technology/2023/08/metas-massively-multilingual-ai-model-translates-up-to-100-languages-speech-or-text/ https://www.theverge.com/2023/8/22/23840571/meta-multilingual-speech-translation-model-ai
code: Foundational Models for State-of-the-Art Speech and Text Translation model: Seamless M4T - a Hugging Face Space by facebook 网页体验: web demo: Seamless Communication Translation Demo 录入语音,选择输出语言即可 发现HF上的测试功能更全,Seamless M4T - a Hugging Face Space by facebook ASR T2...
近期调研Meta-Learning,再回顾下这篇论文。 KAIST(韩国科学技术院,近年势头很猛、做的工作也都挺有影响力)发表的Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation (ICML 2021) 核心:提…
在对长上下文建模的评估上,包括高达 2M 的各种上下文长度中的困惑度以及 Scrolls 中的长上下文 QA 任务证明了 MEGALODON 对无限长度序列进行建模的能力。中小型基准的其他实验结果,包括 LRA、ImageNet、Speech Commands、WikiText-103 和 PG19 证明了 MEGALODON 在体量和多模态上的能力。
As Meta AI put it in a June 16 blog post, Voicebox is the “first model that can generalize to speech-generation tasks it was not specifically trained to accomplish with state-of-the-art performance.” This makes it possible for Voicebox to translate text to speech, remove unwanted noise ...
https://ai.meta.com/blog/seamless-m4t/ https://arstechnica.com/information-technology/2023/08/metas-massively-multilingual-ai-model-translates-up-to-100-languages-speech-or-text/ https://www.theverge.com/2023/8/22/23840571/meta-multilingual-speech-translation-model-ai...
Speech and Text Integration 在训练过程中,语音数据通过HuBERT预处理系统转换成语音单元的集群,然后与文本令牌结合,实现文本和语音的无缝切换。 Next-Token Prediction SPIRIT-LM使用类似于其他大型语言模型的下一令牌预测机制,可以预测文本或语音令牌,增加了模型的灵活性,适用于多种应用。 发布于 2024-10-21 10:11...
Meta recently announced Voicebox, a speech generation model that can perform text-to-speech (TTS) synthesis in six languages, as well as edit and remove noise from speech recordings. Voicebox is trained on over 50k hours of audio data and outperforms previous state-of-the-art models on ...
在对长上下文建模的评估上,包括高达 2M 的各种上下文长度中的困惑度以及 Scrolls 中的长上下文 QA 任务证明了 MEGALODON 对无限长度序列进行建模的能力。中小型基准的其他实验结果,包括 LRA、ImageNet、Speech Commands、WikiText-103 和 PG19 证明了 MEGALODON 在体量和多模态上的能力。