RGB视频数据的深度行为分类模型发展综述之一
|
未分割的长视频,因此时序行为检测任务从未分割的长视频中检测出行为的开始、结束时间以及行为类别,一段长视频中一般包含一个或多个行为实例。行为分类是时序行为检测的基础,时序行为检测是比行为分类更复杂的研究任务,行为分类的经典模型(如TSN,C3D,I3D等)也被广泛用于时序行为检测任务当中。现在视频中人体行为识别的研究工作大部分都致力于提高行为分类模型的性能,并且研究最广泛的是对单人行为的识别。 二、评估数据集
对于数据驱动的深度学习方法来说,庞大的视频数据量显然能够提升模型的性能。本文选用了最新且规模更大视频数据集kinetics,来分别比较最新的基于RGB视频输入数据的行为分类模型的性能,同时也使用典型的视频数据集UCF101, 帮助分析和比较经典的深度行为分类模型。UCF 101和Kinetics数据集的评估度量标准都是是平均精度均值(mAP)。在对视频中的行为进行分类时,每一个视频片段都会预测一个行为标签。假设有C个行为类别,每个视频片段都对应一个有C个元素的列表,每个元素代表着该视频属于行为c的概率,并将C个类别标签按照概率值从高到底排序。假设一共有n个视频片段,并取一个视频片段的预测得分列表中的前k个值,P(k)分别是类别标签排名在前k的预测概率值,rel(k)是指示函数,表明第k个标签是否是真阳性(true positive),如果是则为1,否则为0。因此,某 (编辑:孝感站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


