本文提出了一个深度时空信息网络.加入了反映动作时空信息的光流来获取时序信息, 通过3D卷积网络检测结果, 得到视频中动作发生的候选区域及其动作分类.在此基础上, 本文通过构建动作状态检测网络, 对得到的候选区域进行修补, 从而可以得到更为精确的动作发生的时间区域.实验结果表明, 相对于现有的方法, 本文的方法有效地...