open vocabulary image captioning with constrained beam search. arXiv preprint arXiv:1612.00576, 2016. [2] Peter Anderson, Basura Fernando, Mark Johnson, and Stephen Gould. Spice: Semantic propositional image caption evaluation. In European Conference on Computer Vision, pages 382–398. Springer, 2016...
8.Lu J, Xiong C, Parikh D, et al. Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning[J]. 2016.
整个模型分为提取图像特征的Bottom-Up Model 和 生成 caption 的 Captioning Model。Bottom-Up Attention Model 采用 Faster R-CNN 作为 检测器,添加一个 attribute class 的分支在 Visual Genome (这里引入了外部数据集?) 上也进行训练,目的是学习到更加好的特征表达。在 Faster R-CNN 跑完之后,我们提取每一个...
给一张图片,首先产生多个候选区域,将多个候选区域输入CNN产生多标签预测结果,然后将结果经过max pooling作为图像的高层语义信息,最后输入到LSTM用于描述的生成。该方法相当于保留了图像的高层语义信息,不仅在Image Caption上取得了不错的结果,在VQA问题上,也取得很好的成...
(1)spatial and semantic graphs 论文:Exploring Visual Relationship for Image Captioning 链接:https://arxiv.org/abs/1809.07041 论文提出了GCN-LSTM模型,使用图卷积网络GCN整合目标之间的语义和空间关系,并将之用于图片编码。 首先使用Faster R-CNN对图像的显著区域进行提取,并构建区域语义有向图(语义图的顶点代表...
Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning 该文主要提出了何时利用何种特征的概念。由于有些描述单词可能并不直接和图像相关,而是可以从当前生成的描述中推测出来,所以当前单词的生成可能依赖图像,也可能依赖于语言模型。基于以上思想,作者提出了“视觉哨兵”的概念,能够以自...
Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning 该文主要提出了何时利用何种特征的概念。由于有些描述单词可能并不直接和图像相关,而是可以从当前生成的描述中推测出来,所以当前单词的生成可能依赖图像,也可能依赖于语言模型。基于以上思想,作者提出了“视觉哨兵”的概念,能够以自...
Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning 该文主要提出了何时利用何种特征的概念。由于有些描述单词可能并不直接和图像相关,而是可以从当前生成的描述中推测出来,所以当前单词的生成可能依赖图像,也可能依赖于语言模型。基于以上思想,作者提出了“视觉哨兵”的概念,能够以自...
而在2020年今年9月,微软又推出了一种新的图像注释算法Image Captioning。微软表示,这款新算法在某些...
4. Deep Reinforcement Learning-based Image Captioning with Embedding Reward SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning 由于这篇文章应该是效果最好的,所以放在最前面,如果对 encoder-decoder 模型不熟悉可以先看第二篇,第二篇基于的是传统的 visual attention 方法...