在多模态媒体大模型中,数据的编码是指对于任何模态的信息或者中间嵌入转换为空间紧凑的数据流。对于文本、音视频等传统模态,已有成熟的编码标准,对于 3D 模态,各种技术路径还未收敛。同时,业界也在积极探索跨模态编码、嵌入信息编码和神经网络编码。 交互(Interaction):多模态媒体大模型可以支持人与模型的交互、模型与模...