fine-tuning 与 layer-wise learning rate decay 的 ft)、去不去掉 cls token、甚至用别的 token 去接 fc 等等等...的各种 Vision Transformer 的 Grad-CAM 的可视化结果,就由大家来自由探索吧~,说不定会有新的、不一样的发现哦😊
首先,import 进来 pytorch_grad_cam 工具和一些必要的包,再 load 进来我们要分析的 ViT 模型,这里使用 DeiT_Tiny 作为示例: importcv2importnumpyasnpimporttorchfrompytorch_grad_camimportGradCAM,\ScoreCAM,\GradCAMPlusPlus,\AblationCAM,\XGradCAM,\EigenCAM,\EigenGradCAM,\LayerCAM,\FullGradfrompytorch_grad...
通过使用 grad-cam,我们可以更好地理解 ViT 的工作原理,以及它是如何从图像中提取有用的特征的。grad-cam 也可以用于其他基于 Transformer 的模型,例如DeiT、Swin Transformer 等,只需要根据不同的模型结构和输出,调整相应的计算步骤即可。 本文参与了SegmentFault 思否写作挑战赛,欢迎正在阅读的你也加入。