Human-Object Interaction Detection: A Survey of Deep Learning-Based MethodsIn recent years, rapid progress has been made in detecting and identifying single object instances. In order to understand the situation in the scene, computers need to recognize how humans interact with surrounding objects. ...
大家好,本周这篇文章主要介绍Human Object Interaction(HOI)这个关注人和物体之间关系的任务,文章将会对HOI的任务要求和背景做一个简单说明,同时介绍一下HOI任务最近一段时间遇到的难题以及相关进展。众所周知,随着深度学习的不断发展,我们研究的对象也从原本单一的图像识别向着高层次的语义理解和内容识别转变,这其中就包...
1. Detecting and Recognizing Human-Object Interactions 1.1 总述 中心思想是以人为中心。假设是一个人的外表信息(姿态、衣服、动作等)是确定与他们交互的物体的有力线索(人的外表信息对于定位参与交互的物体可能处于何处是很有帮助的,根据此可以进一步缩小参与交互的目标物体的搜索空间)。为了利用这个线索,本文的模型...
To our knowledge, this is the first general survey of the state-of-the-art and milestone works in this field. We provide a basic survey of the developments in the field of human-object interaction detection. Many works in this field use multi-stream convolutional neural network architectures,...
Detecting and recognizing human-object intaractions的工作引入了一种以人为中心的方法,称为InteractNet,该方法扩展了Faster R-CNN框架,并带有一个附加分支,以了解目标位置上特定于交互作用的密度图。Learning human-object interactions by graph parsing neural networks提出利用图卷积神经网络,并将HOI任务视为图结构优化...
Given an image, HOI detection aims to detect an interaction triplet <human,action,object>. This requires to not only localize a human and an object instance, but also recognize the actions/interactions that the human is performing to the object, such as “ride bike” and “eat apple”. ...
对Weakly Supervised Human-Object Interaction Detection in Video via Contrastive Spatiotemporal Regions的进一步总结 利用来自自然语言句子描述的带有动词和名词短语标注的视频,以弱监督的方式检测视频中的人-物交互,并检测视频多帧中的人和物体边界框,这里的弱监督指的是在训练时不需要边界框注释,同时,允许以零次学习...
https://shuangli-project.github.io/weakly-supervised-human-object-detection-video 以下是本人对这篇论文的大致翻译及粗浅理解,作为一个小白,难免有不少错漏之处,敬请包涵与指正。 摘要 引入了一种弱监督对比损失,该损失旨在将视频中的时空区域与动作和物体词汇共同联系起来,并鼓励将移动物体的视觉外观时间连续性作...
论文笔记之Learning Human-Object Interaction Detection using Interaction Points 中心的,其中基于外观特征和粗糙的空间信息来预测所有可能的人-物体之间的交互。 作者认为,仅外观特征不足以捕获复杂的人与物体的相互作用。因此,在本文中,作者提出了一种新颖的全卷积方法,该方法直接检测人与...andrecognizinghuman-object...
1. Relation Parsing Neural Network for Human-Object Interaction Detection 1.1 总述 提出一种关系解析神经网络RPNN,由两部分组成:物体-身体部位图和人体-身体部位图,前者捕获身体部位与周围物体的关系,后者推断人体与身体部位的关系,并组合身体部位上下文信息以预测动作。这两个图由动作传递机制关联。 总的来说,...