首次融入 human-object 的空间位置信息来提升检测效果 由于本文的网络结构较简单,因此先简要介绍 HICO-DET 数据集,然后介绍网络。 1. HICO-DET HICO-DET 数据集的样例如下,每一个 human 对应1个或者多个交互动作和对象,可以用 <verb, object> 的二元组来表示。作者把这么一组二元组叫做 HOI category。 引自:ht...
3. Compositional Learning for Human Object Interaction 3.1 总述 本文探讨的是人物交互的zero-shot学习问题。现有方法未考虑使用外部先验知识,而且数据集中的交互类别是有限的,训练的模型无法推广使用。因此本文提出一种使用外部知识图和图卷积网络的方法。核心思想来自于VQA任务中的Compositional learning,不过本文侧重于...
1. Relation Parsing Neural Network for Human-Object Interaction Detection 1.1 总述 提出一种关系解析神经网络RPNN,由两部分组成:物体-身体部位图和人体-身体部位图,前者捕获身体部位与周围物体的关系,后者推断人体与身体部位的关系,并组合身体部位上下文信息以预测动作。这两个图由动作传递机制关联。 总的来说,...
论文笔记之Learning Human-Object Interaction Detection using Interaction Points 中心的,其中基于外观特征和粗糙的空间信息来预测所有可能的人-物体之间的交互。 作者认为,仅外观特征不足以捕获复杂的人与物体的相互作用。因此,在本文中,作者提出了一种新颖的全卷积方法,该方法直接检测人与...andrecognizinghuman-object...
https://shuangli-project.github.io/weakly-supervised-human-object-detection-video 以下是本人对这篇论文的大致翻译及粗浅理解,作为一个小白,难免有不少错漏之处,敬请包涵与指正。 摘要 引入了一种弱监督对比损失,该损失旨在将视频中的时空区域与动作和物体词汇共同联系起来,并鼓励将移动物体的视觉外观时间连续性作...
Halpeis a dataset introduced inAlphaPose paper. It aims at pushingHuman Understandingto the extreme. We provide detailed annotation of human keypoints, together with the human-object interaction trplets from HICO-DET. For each person, we annotate 136 keypoints in total, including head,face,body,...
In this paper, we address the problem of mis-grouping in human-object interaction detection task, where non-interactive pairs are wrongly paired and classified as an action. Our goal is to suppress non-interactive pairs, and hence can reduce false positive HOI detections. We propose two-directio...
Interaction Recognition 为了提高模型的表达能力,我们这里进一步利用了 the appearance of the target object,得到一个新的分支 interaction branch 3.2. Multi-task Training 我们将人-物关系的学习看做一个多任务学习问题,所有三个分支是共同训练的。 损失函数定义: Our overall loss is the sum of all losses in...
Prevalent human-object interaction (HOI) detection approaches typically leverage large-scale visual-linguistic models to help recognize events involving humans and objects. Though promising, models trained via contrastive learning on text-image pairs often neglect mid/low-level visual cues and struggle at...
Detecting and Recognizing Human-Object Interactions 在HOI中,主要关注检测图像中人与物体的关系(human,verb,object),本文提出一个human-centric的方法,因为人的姿态,衣服,动作等是定位与其相关联物体的非常重要的信息。 网络模型如上图,在faster-rcnn基础上增加了human-centric branch与interaction branch两条分支,human...