金融界2024年12月14日消息,国家知识产权局信息显示,大连卓云科技有限公司取得一项名为“一种基于多模态数据的大语言模型融合方法、设备及介质”的专利,授权公告号 CN 118965283 B,申请日期为 2024年10月。本文源自:金融界 作者:情报员
1、本发明实施方式的目的在于提供一种基于多模态特征融合的模型训练方法、电子设备及存储介质,在提取文本特征时,引入了事件信息的文本作为特征提取对象,能够对预训练过程中的文本特征进行增强,进而与图像特征形成增强后的多模态特征,让模型学习增强后的多模态特征,进而提高模型的性能。 2、为解决上述技术问题,本发明的实...
1.一种基于交通大模型的多模态数据融合方法,其特征在于,包括:获取初始多模态交通数据;对所述初始多模态交通数据进行数据匹配对齐,形成多模态交通数据;对所述多模态交通数据进行时空多维度、多目标、多类型、多任务的数据标注,形成多模态标注数据;对所述多模态标注数据进行场景整合与数据加密处理,形成多模态融合数据。
1.一种基于多模态数据的大语言模型融合方法,其特征在于,包括如下步骤: S1:使用预训练的自然语言处理模型从文本数据中提取高维的语义特征;使用预训练的卷积神经网络从图像数据中提取视觉特征; S2:利用自编码器对语义特征和视觉特征进行解耦处理,区分出通用特征和模态特定特征; S3:通过计算模态间的互信息,确定不同模态...
本公开实施例涉及一种基于图模型的多模态数据融合与处理方法和装置,涉及图像处理技术领域,包括:将第一模态图像,第二模态图像输入浅层特征提取模块,得到第一,第二底层视觉特征图,将二者输入深层特征提取模块,得到第一语义,第二语义特征图;构建第一,第二语义特征图对应的第一图,第二图表征;同时,将第一,第二模态...
随着视觉模型和大语言模型的发展,视觉-语言模型的构建也变得更加方便:不需要大规模的多模态预训练,只需要将视觉模型提取的视觉特征,通过projector映射到语言模型的输入token空间,并拼接到语言模型的文本tokens上作为视觉提示(prompt),在视觉-语言的下游任务上对模型进行微调即可。这一训练范式的好处在于,其引入的新参数只...
本发明提供了一种基于多模态大模型特征融合的情感识别方法,包括以下步骤:步骤一,用摄像头记录下采集人员的面部表情的变化,同时用录音设备录制下所有的语料信息,将音频语料通过开源的语音识别引擎得到对应的文本;步骤二,通过步骤以得到的视频、音频数据以及文本信息得到三组词向量;步骤三,将三组词向量通过增强的方式融合,...
1.一种基于多模态融合的三维模型检索方法,其特征在于,所述方法包括:1)对旋转后的三维模型使用蝴蝶细分算法进行表面细分,并从三维模型中提取出点云数据;2)对旋转后的三维模型使用OpenGL工具,以30度角间隔对三维模型进行12个视角的视图渲染,获得12张多视图图像;3)对旋转后的三维模型从xyz三个坐标轴方向上将三维模型...
一种基于群智感知的多模态数据融合方法 本发明公开了一种基于群智感知的多模态数据融合方法,本发明分为预处理,PLSA建模和基于PLSA建模的所模态数据融合三个步骤.经过图像表示,音频表示预处理,建立图像和音频之间的联系;采用PLSA模型,解决文本分类的问题,它挖掘文本与单词间的不可见主题关系,解决... 叶登攀,张倬胜,卢玥...
1、基于此,有必要针对上述技术问题,提供一种能够准确学习多模态数据的特征并进行病例分类的基于矢量量化多模态医学数据表征融合模型的分类方法。 2、第一方面,本申请提供了一种基于矢量量化多模态医学数据表征融合模型的分类方法。所述方法包括: 3、以双层3d卷积神经网络模型为基础,在所述双层3d卷积神经网络模型的输出层...