本文提出了一种名为FTransUNet的多级多模态融合方案,通过将CNN和ViT整合到一个统一的融合框架中,为语义分割提供了一个健壮且有效的多模态融合骨干。 首先,通过卷积层和浅层特征融合(SFF)模块提取并融合浅层特征。 之后,通过精心设计的Fusion ViT(FVit)提取并融合表征语义信息和空间关系的深层特征。它在三阶段方案中交替应用自适应