(2014) Long-term Recurrent Convolutional Networks for Visual Recognition and Description这篇文章使用了VGG Net作为CNN去提取图片信息,在输入到一个LSTM decoder中输出文本。同时该文章还将这项技术应用到video captioning中: 以下是对比视频识别,看图说话,看视频说话三个细分任务的对比图: Fang et al 2014,From ...
整个模型分为提取图像特征的 Bottom-Up Model 和 生成 caption 的 Captioning Model。Bottom-Up Attention Model 采用 Faster R-CNN 作为 检测器,添加一个 attribute class 的分支在 Visual Genome (这里引入了外部数据集?) 上也进行训练,目的是学习到更加好的特征表达。在 Faster R-CNN 跑完之后,我们提取每一...
2.Fang H, Gupta S, Iandola F, et al. From captions to visual concepts and back[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2015:1473-1482. 3.Xu K, Ba J, Kiros R, et al. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention[J]. ...
CNN模型我们以VGG16为例(也可以选择其他模型均可) GG16 (Very Deep Convolutional Networks for Large-Scale Visual Recognition) Pre-trained model: Oxford Visual Geometry Group赢得2014ImageNet竞赛 ⽤于图像分类, 将输⼊图像分为1000个类别 模型结构如下图所示: Tips: 因为VGG16 CNN 原本的⽬标是分类, ...
Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning 该文主要提出了何时利用何种特征的概念。由于有些描述单词可能并不直接和图像相关,而是可以从当前生成的描述中推测出来,所以当前单词的生成可能依赖图像,也可能依赖于语言模型。基于以上思想,作者提出了“视觉哨兵”的概念,能够以自...
Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning 该文主要提出了何时利用何种特征的概念。由于有些描述单词可能并不直接和图像相关,而是可以从当前生成的描述中推测出来,所以当前单词的生成可能依赖图像,也可能依赖于语言模型。基于以上思想,作者提出了“视觉哨兵”的概念,能够以自...
Stephen Gould, and Lei Zhang. Bottom-up and top-down attention for image captioning and visual question answering. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6077–6086, 2018. [4] Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnso...
Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning 该文主要提出了何时利用何种特征的概念。由于有些描述单词可能并不直接和图像相关,而是可以从当前生成的描述中推测出来,所以当前单词的生成可能依赖图像,也可能依赖于语言模型。基于以上思想,作者提出了“视觉哨兵”的概念,能够以自...
Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning 该文主要提出了何时利用何种特征的概念。由于有些描述单词可能并不直接和图像相关,而是可以从当前生成的描述中推测出来,所以当前单词的生成可能依赖图像,也可能依赖于语言模型。基...
GG16 (Very Deep Convolutional Networks for Large-Scale Visual Recognition) Pre-trained model: Oxford Visual Geometry Group赢得2014ImageNet竞赛 ⽤于图像分类, 将输⼊图像分为1000个类别 模型结构如下图所示: Tips: 因为VGG16 CNN 原本的⽬标是分类, 基于ImageNet数据集进⾏训练,训练所需的时间⽐较...