双流网络——视频行为识别
Two-Stream Convolutional Networks for Action Recognition in Videos 论文链接
1.双流网络的贡献
- 提出了two-stream的卷积网络结构,由时间网络和空间网络组成;
- 证明了在多帧密集光流上训练的卷积网络,在有限的数据集上仍然能够获得好的性能;
- 使用多任务学习,应用了两种不同的动作分类的数据集,增加了训练集的数据量,并提高了性能。
2.双流网络结构
空间流输入的数据是每个帧的画面,也就是一个静态的图片,该输入描述的是单个帧的运动信息。
时间流输入的数据是多帧密集光流,多帧密集光流是几个连续帧之间堆叠光流位移场,该输入描述了帧之间的运动信息。
图1. 双流网络结构
如上图所示,双流网络的结构分为空间流卷积网络(Spatial Stream ConvNet)和时间流卷积网络(Temporal stream ConvNet)。两个网络的结构是一样的,都是由五个卷积层、两个全连接层和一层softmax组成.两层最后输出的数据结合在一起,结合的方法有平均法和SVM,经过试验验证SVM的结合方法效果较好。
DQYanZhixuan: 就是说每进行一次卷积就要接一次batchnormal吗
葉子熊: 确实有点瑕疵,凑活看吧
糕千千: 那这个网络是3d的还是2d的
阿史那隼_Lynclock: 虚线部分的skip connection 卷积核尺寸为1x1的目的是因为该卷积层的目的是,只调整channel的维度,高和宽不变。如果既想要改变channel维度,又想改变长和宽,可以相应的改变卷积核滑窗步长,不需要改变卷积核尺寸。
qq_49226030: 只是举个例子,如果输入通道数是256那么basic block就也是256×256.作者这里意思是对比同样通道数下参数的差距。