图1:2D图像MAE和我们提出的3D点云Point-M2AE的范式对比 我们提出了Point-M2AE(如图1下半部分),首次将多尺度的3D空间信息引入MAE的预训练框架。我们设计了层次化的3D transformer结构,取代了2D MAE中编码相同图像分辨率的单尺度transformer。在encoder中,我们逐渐对点云特征进行下采样,使得网络可以由浅入深的学习到点...