(1)CNN是通过不断地堆积卷积层来完成对图像从局部信息到全局信息的提取,不断堆积的卷积层慢慢地扩大了感受野直至覆盖整个图像;但是transformer并不假定从局部信息开始,而且一开始就可以拿到全局信息,学习难度更大一些,但transformer学习长依赖的能力更强,另外从ViT的分析来看,前面的layers的“感受野”(论文里是mean atten...
CNN与transformer完美结合,整合局部与全局注意力,附原文和代码,结尾送书#人工智能 #深度学习 #卷积 #transformer - 不读AI论文就会Die 丫丫呀于20240525发布在抖音,已经收获了3.7万个喜欢,来抖音,记录美好生活!