ST-GCN将GCN应用于基于骨架的人体行为识别系统中,在此基础上加入了对识别人体行为非常重要的关节之间的空间关系这一因素,以人体关节为节点,同时连接关节之间的自然联系和相同关节的跨连续时间联系,然后以此为基础构造多个时空图卷积层,沿时空维度进行集成信息。 故本项目通过搭建ST-GCN实现对视频时空流进行姿态估计和行为...
近日,港中大-商汤科技联合实验室的最新 AAAI 会议论文「Spatial Temporal Graph Convolutional Networks for Skeleton Based Action Recognition」提出了一种新的 ST-GCN,即时空图卷积网络模型,用于解决基于人体骨架关键点的人类动作识别问题。该方法除了思路新颖之外,在标准的动作识别数据集上也取得了较大的性能提升。本文...
ST-GCN 动作识别演示我们的基于骨架的动作识别演示展示了ST-GCN如何从人体骨架中提取局部模式和关联性。下图显示了我们ST-GCN最后一层中每个节点的神经响应幅度。 触摸头部 坐下 脱鞋 进食 投踢他人 掷锤 清洁与抓举 拉力器 太极拳 抛球 上一行结果来自NTU-RGB+D数据集,第二行来自Kinetics-skeleton数据集。‘ 前...
ST-GCN的训练代码提供了数据转换的脚本(如kinetics_gendata.py),用于将原始数据集转换为模型训练所需的格式(如npy和pkl文件)。然而,由于你的数据集是自建的,因此你需要修改这些脚本以适配你的数据集格式。 主要修改点包括: 数据读取路径 关键点个数 观测人数(num_person_in)和输出人数(num_person_out) 最大帧数...
ST-GCN 的人体时空图如下图所示。一帧图像中的人体骨架信息可以表示成 2D 或者 3D 的关节点坐标。研究人员在具有 个关节点,连续 帧图像的视频上构造了时空图 = ( , )。下面将从节点集和边集两方面介绍时空图的构造方法。 (1)节点集的形式化定义。在人体骨架时空图中,节点集为 = { | =1,2, … , ...
1 GCN(图卷积网络结构) 1.1 基本图结构 18骨骼关键点 关键点的结构可以参考上图,可以看到实际上关键点的结构是一种图结构,而非欧式结构。图结构是一种非常直观的表征节点之间关系的结构,但是将它集成到深度学习中却带来一个问题,怎么计算和表征节点之间的关系?或者换句话说,怎么通过学习得到特征向量去做下游任务。
ST-GCN的技术延展-动作生成 基于对ST-GCN在人体动作识别上的效果,我们将ST-GCN网络与VAE网络结合。目的在于获取人体动作的语义,进而生成人体的动作,最终可以应用于机器人动作模仿或者其他强化学习项目中。 目前项目已在进行中,下图展示的是真实的人体骨架节点3D图与网...
ST-GCN是一种新的基于骨架的模型动作识别网络模型,建立了一组空间在骨架序列上的时间图卷积。在两个具有挑战性的大规模数据集,提出的ST-GCN优于之前最先进的骨架模型。此外,ST-GCN可以捕捉运动信息动态骨架序列是互补的RGB模式。基于骨架的组合模型基于框架的模型进一步提高了性能在动作识别。ST-GCN模型的灵活性为...
作者在两个性质迥异的骨架动作识别数据集上进行了实验来验证 ST-GCN 的性能。 第一个数据集是 Kinetics-Skeleton,它来自于最近由 Google DeepMind 贡献的 Kinetics 视频人类动作识别数据集。我们使用 OpenPose 姿态估计软件得到视频中所有的骨架关键点信息来构成 Kinetics-Skeleton。该数据集共有约 30 万个视频与 400...
首先进行了一次BN操作和一系列维度变换的操作后,进入st-gcn网络的特征层.shape=(8, 3, 150, 18)。之后遍历st-gcn模块,输出的结果.shape=(8, 256, 38, 18),这部分做了什么后面详细总结一下。最后进行一次最大池化层,并对一个视频中的人数特征取一次平均,得到结果.shape=(4, 256, 1, 1)。然后再通过一...