提出了一种新的混合架构CM-UNet,该架构结合了CNN和Mamba模型,用于遥感图像的语义分割,通过CNN编码器提取局部特征,利用Mamba解码器整合全局信息。 CSMamba模块:设计了一个核心的CSMamba模块,使用通道和空间注意力作为激活条件来增强特征交互和全局-局部信息融合。 多尺度注意力聚合模块(MSAA):提出了一个多尺度注意力聚合...
- 视频理解是具有挑战性的任务,因为视频中存在大量时空冗余和复杂的时空依赖关系。 - CNN、Transformer和Uniformer等传统方法在解决视频理解问题上存在不足。 - Mamba是一种新的视频理解技术,利用选择性状态空间模型(SSM)实现了高效的视频理解。 - VideoMamba是基于Mamba的纯SSM模型,专为视频理解而设计。
提出了一种新的混合架构CM-UNet,该架构结合了CNN和Mamba模型,用于遥感图像的语义分割,通过CNN编码器提取局部特征,利用Mamba解码器整合全局信息。 CSMamba模块:设计了一个核心的CSMamba模块,使用通道和空间注意力作为激活条件来增强特征交互和全局-局部信息融合。 多尺度注意力聚合模块(MSAA):提出了一个多尺度注意力聚合...