深度视觉语义嵌入模型[ 5 ]提出了一种零拍物体识别的方法,并使用了[15]。在这个模型中,句子被表示为字嵌入的用途和使用目标函数优化匹配。 SDT-RNN。 语义依赖树递归神经网络[ 6 ]是用来学习句子表示嵌入到一个共同的图像句子空间。使用相同的目标。 DeFrag。 深度片段嵌入[ 15 ]被提出作为一种替代嵌入全帧图像...