来源:新智元
论文:https://arxiv.org/abs/2012.06567
模型库介绍链接:
https://cv.gluon.ai/model_zoo/action_recognition.html
视频行为识别是视频理解的代表性任务之一。在过去的十年中,由于深度学习的出现,我们见证了视频行为识别的巨大进步。但是我们也遇到了新的挑战,包括对视频中的远程时间信息进行建模,高昂的计算成本以及由于数据集和评估协议差异而产生的无与伦比的结果。
在本文中,我们对200多篇有关深度学习的视频行为识别现有论文进行了全面调查。
数据集
我们首先介绍影响模型设计的17个视频动作识别数据集,比如Kinetics700、AVA等等。如下图所示:
视频动作识别模型
然后,我们按时间顺序介绍了视频动作识别模型:
从适应深度学习的早期尝试开始,然后到双流网络,接着是3D卷积内核的采用,最后是最近的计算效率高的模型。
此外,我们在几种代表性数据集上对流行方法进行了基准测试,并发布了可复现的代码:Action Recognition。
最后,我们讨论了未解决的问题,并阐明了视频动作识别的机会,以促进新的研究思路。
论文PDF:
链接:https://pan.baidu.com/s/1q2Niy9jYacK9mwrHftNx5Q
提取码:cver
(声明:本文仅代表作者观点,不代表新浪网立场。)