入门学习 | 什么是图卷积网络?行为识别领域新星

日期:2023-02-21 14:51:35 / 人气:197

此外,爲了克制空域图卷积的缺陷,学者们提出了谱域上的图卷积,大约思想是应用图的拉普拉斯矩阵和傅里叶变换来停止卷积操作。基于谱域的图卷积目前外行爲辨认中使用较少,并且原理十分复杂,这里不做详细引见,有兴味的同窗可以阅读相关文章。GCN外行爲辨认范畴的使用行爲辨认的次要义务是分类辨认,对给定的一段举措信息(例如视频,图片,2D骨骼序列,3D骨骼序列),经过特征抽取分类来预测其类别。目前(18年当时)基于视频和RGB图片的主流办法是two-stream双流网络,而基于骨骼数据的主流办法就是图卷积网络了。人体的骨骼图自身就是一个拓扑图,因而将GCN运用到举措辨认上是一个十分合理的想法。但不同于传统的图构造数据,人体运动数据是一连串的工夫序列,在每个工夫点上具有空间特征,而在帧于帧之间则具有工夫特征,如何经过图卷积网络来综合性的开掘运动的时空特征,是目前的行爲辨认范畴的研讨热点。笔者选取了自18年以来将GCN和行爲辨认相结合的代表性打工,用于讨论并剖析这些打工的中心思想,以及在此根底上可以尝试的idea。[1]SpatialTemporal Graph Convolutional Networks for Skeleton-Based Action Recognition(AAAI,2018)(cv,88.3%,表示在NTU RGB+D数据集上cross-view验证后果,下同)次要奉献:1.将图卷积网络扩展到时空域,称爲时空图卷积网络(ST-GCN)。关于每个关节而言,不只思索它在空间上的相邻关节,还要思索它在工夫上的相邻关节,也就是说将邻域的概念扩展到了工夫上。2.新的权重分配战略,文章中提到了三种不同的权重分配战略:图(b)独一划分,将节点和其1邻域节点划分到相反的子集中,使他们具有相反的label,自然也就具有相反的权重。这样的话每个kernel中的权重实践上就是一个1*N的向量,N是节点的特征维数。图(c)按间隔划分,将节点本身划分爲一个子集,1范畴划分到一个子集。每个kernel的权重是一个2*N的向量。图(d)按节点与重心间隔划分,间隔重心更近(绝对于中心节点)的1邻域节点爲一个子集,间隔重心更远的1邻域节点爲一个子集,中心节点本身爲1个子集。每个kernel的权重是一个3*N的向量。经过测试发现第三种战略效果很好,这是由于第三种战略实践上也包括了对末肢关节赋予更多关注的思想,通常间隔重心越近,运动幅度越小,同时能更好的区分向心运动和离心运动。中心思想:1.将图卷积扩展到了时域上,从而更好的开掘举措的运动特征,而不只仅是空间特征。2.设计了新的权重分配战略,能愈加差同化地学习不同节点的特征。3.合理的运用先验知识,对运动幅度大的关节给予更多的关注,潜在的表现在权重分配战略中。[2]DeepProgressive Reinforcement Learning for Skeleton-based Action Recognition(CVPR,2018)(cv,89.8%)次要奉献:1.首先经过深度渐进式强化学习(DPRL),用相似蒸馏的办法逐渐得从输出的举措帧序列中挑选最具辨认力的帧,并疏忽掉那些不置可否的帧,这是一品种似于lstem中的attention的机制,只不过留意力只放在了时域上。对应的网络是frame distillation network(FDNet)。2.将FDNet的输入作爲GCN的输出,用于举措辨认。不同于传统的骨骼图,本文还定义了一些特殊的骨骼衔接,如下图:不只包括了骨架的肢节衔接(实线),爲了开掘那些没有间接衔接的关节之间的关系,还定义了一些重要关节之间的直接衔接(虚线)。例如系鞋带,手部关节和脚部关节会有密切协作,但他们并没有在骨骼图中间接相连,间隔较远,需求经过多层的图卷积两个关节的特征才会互相传达给对方,因而可以经过额定树立直接衔接来开掘其中的关系。这个思想表现在邻接矩阵上,就是将邻接矩阵中一局部本来值爲0的元素改爲其他大于0的值。此外,察看上图你会发现,定义了虚线衔接的那些关节大都是间隔重心较远的关节,这是由于在大局部举措中,距重心越远的关节运动幅度越大,其包含的信息越多。中心思想:1.attention机制,在时域上选择具有代表性,辨认才能更强的帧。2.对邻接矩阵停止改良,不再是单一的0-1布尔矩阵,对没有间接衔接的节点之间也赋予一定的权重。3.合理运用先验知识,对末肢关节赋予更多的关注,表现在邻接矩阵上。[3]Part-based Graph ConvolutionalNetwork for Action Recognition(BMVC,2018)(cv,93.2)次要奉献:1.用几何特征(Geometric Features)和运动特征(Kinematic Features)来替代原始的空间三维坐标,作爲每个节点的原始特征。如上图中的图(a)。2.将人体骨架图按一定的准绳划分爲多个不同的子图。对每个子图辨别停止图卷积操作,然后再经过一个交融函数将后果交融。详细思想是:首先关于一个节点,计算该节点与所属子图内的邻接节点的卷积值,我们称之爲根本卷积值。而关于所属子图外的邻接节点(属于相邻的另一个子图),首先计算该邻接节点的根本卷积值,然后将二者的根本卷积值以一定的权重交融。这麼做可以在很大水平上进步每个子图边缘节点的感受野(间接掩盖到相邻子图),同时关于每个子图的非边缘节点(于其他子图不相连),则需求屡次传达才干获取到其他子图节点的特征。本文测试了三种不同的划分战略,辨别是:图(b):按间隔重心的间隔,分爲中轴关节和末肢关节两个局部。图(c):在图(b)的根底上进一步细化,依照关节的上下地位分爲4个局部。图(d):在(c)的根底上参加了左右关节的概念,按左右再细分爲6个局部。实验证明,图(c)的划分办法后果很好,这是由于假如子图数量过多,会招致特征值得传达更困难,而数量过少,则无法差同化地看待不同类型的关节。3.时空域卷积。不同于文章[1],本文采用的时空卷积战略是:先对每一帧,依照子图特征交融的办法停止卷积,失掉空域卷积后果,然后在将空域卷积后果作爲时域上的特征值,再停止时域上的卷积。这麼做实践上是扩展了计算量和复杂度,但能开掘的时空信息也更片面,不再局限于部分关节范围。中心思想:1.定义了愈加复杂的卷积战略,不再是复杂的邻域特征交融,而是扩展了邻域的概念,从而进步了节点的感受野。2.采用了分图战略,有助于发掘部分范围内的关节联络。通常这种战略我们称爲part-based或part-aware。3.定义了范围更广的时空卷积操作,代价是计算量更大了。4.传统办法运用关节原始的坐标信息作爲GCN的输出,而这里采用更具代表性的两种不同类型特征作爲输出,可以进一步进步辨认才能。[4]Actional-Structural Graph Convolutional Networksfor Skeleton-based Action Recognition(arXiv,2019)(cv,94.2)顶会的文章真的是一年比一年复杂,虽然说效果越做越好,但是特征工程和网络构造都十分复杂,有时分地道是靠堆复杂度来提升后果,作者并不能合了解释本人的网络构造,而且这种打工也很难follow次要奉献:提出了AS-GCN,次要触及了两种网络构造:Action-link和Structural-link。经过Action-link来开掘潜在的关节之间的联络,经过structual-link来开掘骨骼图的高阶关系。1.Action-Link提取关节衔接信息如图(c),Action-Link实践上就是每个关节和其他一切关节的衔接,经过一个编码-解码器来学习这些衔接的权重,进而开掘关节之间的潜在联络,如下图:详细细节(了解难度较大,假如不深化研讨可以疏忽):上图中左侧黄色和紫色辨别代表某一帧的原始的joints features和links features,将两品种型的特征重复迭代更新(encoder),可以完成特征在关节和边中的活动传达,最终失掉一个概率权重矩阵。将这个矩阵和该帧之前的一切时辰的帧信息结合起来,经过一个decoder来预测下一时辰的关节地位。这样就能经过反向传达的方式来不时的迭代更新网络参数,完成对网络的训练。在网络失掉初步的训练后,将decoder去掉,只运用前半局部抽取A-link特征,用于举措分类义务的进一步训练。2.Structural-link扩小节点感受野传统的图卷积网络中,每个节点只将本人的信息传达给邻居节点,这会招致节点感受野较小,不利于获取长间隔的衔接信息。经过对邻接矩阵取一定次数的幂,可以扩展感受野,如图(b)。3.多义务处置将A-Link和S-link加权结合起来作爲GCN的输出。将GCN和Temporal-GCN结合,失掉AS-GCN,作爲根本网络(Backbone)。接不同的后端网络,可以辨别完成分类功用和预测功用,如下图:中心思想:1.从原始的坐标信息中提取出A-links特征信息作爲输出特征,具有更高的可辨认度,相似于打工[3]。2.经过对邻接矩阵取屡次幂来扩小节点的感受域。3.多个block叠加,经过进步复杂度来进步辨认才能。[5] An AttentionEnhanced Graph Convolutional LSTM Network for Skeleton-Based ActionRecognition(CVPR,2019)(cv,95%,目前很好)次要奉献:不同于后面引见的打工,本文没有采用GCN,而是将骨骼图作爲LSTM的输出,经过留意力加强型图卷积LSTM网络(AGC-LSTM)来抽取图中具有的空间和工夫特征,并且设计了专门的损失函数和特殊的学习办法。中心思想:探求不同的图处置方式,LSTM具有很强的时序特征获取才能,将其于图构造结合起来,可以完成对时空特征的获取。 [6] SemanticGraph Convolutional Networks for 3D Human Pose Regression(arXiv,2019)本文的打工不是行爲辨认,而是姿势估量。但笔者以为其中用到的一些办法十分有道理,可以迁移到行爲辨认义务中。次要奉献:在我们之前引见的图卷积打工中,GCN网络需求学习的通常都只要根本的权重矩阵(下面公式中的W),而关于邻接矩阵都是经过一些先验知识提早设置好的,不会随着网络停止迭代变化。但是现实上,邻接矩阵的实质也是权重,只不过通常这个权重是我们依据一些先验的知识或许规律提早设置好的,因而,本文作者提出,假如能经过网络来学习邻接矩阵的权重,也就是公式中的M,能否能更好的做到对特征的抽取呢?依照这个思绪,网络就需求学习两个不同的权重,其中根本权重W在不同的图卷积层有不同的值,那麼邻接矩阵的权重M也应该是在不同的层有不同的值。能够有小同伴会问,为何不把M和W结合到一同呢?读一读原文,你就能找

作者:宇博娱乐




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 宇博娱乐 版权所有