Decoupled Sparial-Temporal Attention Network forSkeleton-Based Action Recognition
Abstract
解决问题:以前的方法严重依赖于手工设计的遍历规则或图像拓扑结构来对关节之间的依赖关系建模。
方法:提出了一种新的解耦时空注意网络(DSTA-Net),允许对关节之间的时空依赖关系建模,无需知道位置以及相互连接关系。
具体来说,提出了三种注意力相关的模块:时空注意力解耦、解耦位置编码和空间全局正则化。
在数据方面,引入了骨骼数据解耦技术,以强调空间/时间和不同运动尺度的特定特征。
Introduction
骨骼数据优点:在少量数据中包含高级语义信息;对动态环境有很强的适应性。
骨骼数据的组成:一系列帧,每个帧包含一组点,每个点以2D/3D坐标表示一个人的关节。
常见的处理方式:将骨架数据依据遍历规则和拓扑结构转化为有意义的形式:点序列、伪图像…但手工设计的规则无法保证对关节的全局相关性建模了。
使用自我注意力机制的好处:
- 以计算复杂度小学习元素之间的全局相关性;
- 不需要知道元素之间的内在关系,都可以自己学;
- 人体关节数量小,自注意力机制额外成本也小。
将自注意力机制应用于骨骼数据的难点于解决方案:
- 原始的自注意力机制的输入是顺序数据,而骨骼数据存在于空间和时间维度;简单地将时空数据转化为单一序列是不可取的,本文将注意力机制分解为空间注意力和时间注意力;
- 将骨骼送入网络时,没有预定义顺序或结构。因此,引入了位置编码,分为空间编码和时间编码;
- 在先验知识基础上加入适当正则化,可以避免拟合;基于骨架关节特定的物理意义,提出空间全局正则化方法,迫使模型学习更多注意力;由于正则化不适用于时间维度,所以没有这样的语义对齐属性。
处理数据的技巧:
- 将每一个数据分为动作相关与动作无关部分。于是将数据分解为空间维度和时间维度。空间流至包含与运动无关的特征;时间流只包含与运动相关的特征。比如向上挥手和向下挥手,通过空间流数据确定手的形状,通过时间流数据确定挥动方向。
- 对于时间流,分为短期动作与长期动作,因此需要有区别的对模型的处理方式进行区分,因此根据采样率分为了快流和慢流。低帧速率流捕获全局信息,高帧速率流关注细节信息。两个流融合提高性能。
Expriment
- 证明了位置编码在该任务中的重要性以及位置编码解码为时间属性和空间属性的必要性;
- 证明了存在空间全局正则化的必要性以及不需要时间全局正则化;
- 证明了单帧建模性能次于帧间建模词次于折衷建模。
策略1:仅对考虑帧中关节的依赖关系;
策略2:计算所有帧之间的两个关节的关系,这意味着同时考虑了两个关节的帧内关系和帧间关系;会引起过度拟合问题。
策略3: 只考虑相同帧中的关节来计算,但获得的所有帧的注意力map是平均的和共享的。
在注意力图像中有两点结论:
- 较低层次,更关注指尖和手腕的关系,因为这些关节对识别人类手势更具有辨识能力;
- 在高层,信息高度聚合,每个关节之间的差异变得不明显。