- 视频理解是具有挑战性的任务,因为视频中存在大量时空冗余和复杂的时空依赖关系。 - CNN、Transformer和Uniformer等传统方法在解决视频理解问题上存在不足。 - Mamba是一种新的视频理解技术,利用选择性状态空间模型(SSM)实现了高效的视频理解。 - VideoMamba是基于Mamba的纯SSM模型,专为视频理解而设计。