爱吧机器人网 » 技术 > 神经网络 > 正文

助力卷积神经网络时空特征学习 史上最大行人重识别视频数据集被提出

核心提示:本文提出了一个大型的、长序列的、用于行人重识别的视频数据集,简称LVreID。与现有的同类数据集相比,该数据集具有以下特点:1)长序列:平均每段视频序列长为200帧,包含丰富的视角、

原文作者
北京大学:Jianing Li,Shiliang Zhang,Wen Gao
微软研究院:Jingdong Wang
圣安东尼奥德克萨斯大学:Qi Tian
原文链接:https://arxiv.org/pdf/1712.07286.pdf

摘要:
 
本文提出了一个大型的、长序列的、用于行人重识别的视频数据集,简称LVreID。与现有的同类数据集相比,该数据集具有以下特点:

1)长序列:平均每段视频序列长为200帧,包含丰富的视角、姿态等变化信息,可有效帮助特征学习;
2)最复杂:包含各种光照、场景、背景变化等信息,由15个摄像头于室内室外不同环境拍摄得到,拍摄时间覆盖12个时间段;
3)目前最大:包含3772个ID身份、3百万个标记窗口。这些特征使得该数据集对于实际的行人重识别任务更具有挑战性,并且更接近实际应用情况。
 
此外,作者针对此数据集,提出了一个基准模型,名为空间对齐时间金字塔池化网络(SATPP),该模型可以充分利用长视频序列中的丰富的特征信息,有效解决空间上的检测窗口不齐的问题,并且整合不同长度的时间特征。实验表明,SATPP提取的特征优于当前流行的视频特征。此外,随着视频时间增加,行人重识别的精度也随之提升,证明了LVreid长序列视频数据集的有效性。
 
简介:
 
行人重识别任务即在多个摄像头视角拍摄到的视频中定位同一个人,在学业界及工业界引起广泛关注。然而,由于不同的行人之间特征的相似性以及同一个行人特征的变化性,行人重识别问题一直颇具挑战。
 
现有的行人重识别研究可以大体分为两类:基于图像的技术以及基于视频的技术。前者从静态的图片中提取判别性特征,后者从动态的视频序列中进行区分,因此难度更大。在视频分析中,需要同时提取时间维度的变化信息以及空间结构的特征,并且面临着视频序列冗余或者长度不均等问题。不过,基于视频的reid任务可以利用监控视频中包含的丰富的时间、空间信息,进行性能的有效提升。
 
近年来,基于图像的reid研究进展迅速,而视频方面的研究停滞不前。究其原因,其一,现有的视频reid数据集长度太短,难以提供足够的时间信息。例如,现有的MARS数据集中,平均序列长度为58帧,iLIDS-VID数据集的平均序列长度为73帧,也就是说,平均每段视频长度为2-3秒,其中的变化性是非常小的,见下图,视频开始和视频结束时行人的姿态动作、角度等大体相同,可提供的信息较为单一。这样一来,视频所包含的信息和静态图片几乎相当,意义不大。
 
行人重识别
图1 现有的行人重识别视频数据集示例
 
第二点原因即数据量的限制。现有的MARS数据集只包含不到1500个ID,且难以反映真实应用场景。例如,在真实应用中,行人在多个视角下、多个场景下被多个不同的摄像头拍到,而在现有数据集中,视频多在限定性场景下用有限的摄像头拍摄得到,时间点、场景、光照条件都很单一。如果有更丰富的数据集,现有的视频reid识别性能应该会得到相应提升,且视频的优势会体现出来。
 
行人重识别视频数据
图2 本文提出的LVreid数据集示例
 
本文贡献
 
1、提出了一个最大的视频行人重识别数据集LVreid
 
数据集简介:
 
该数据集平均视频序列长度为200帧,远远大于现有的序列长度。图2为该数据集的部分示意图,可见,序列中包含丰富的姿态变换、视角变化、光照变化等。这些变化提供了足够的时间及空间特征,有利于行人重识别任务。该数据集是目前最大、最贴近实际应用情况的,包含180个小时的视频,在室内、室外不同摄像头、一个月中不同的时间段拍摄得到。数据集提供了近3百万个标注窗口,包含3772个身份ID。这些标注窗口是基于Faster RCNN检测得到的。因此,该数据集可以有效应用于行人重识别应用中。
 
数据集录制:
 
在设计时,LVreid数据集的录制过程充分贴近实际的应用情况,采用12个室外摄像头和3个室内摄像头,采集1080x1920像素的高清视频,其中13个摄像头帧率为30fps,另外两个摄像头的帧率为50fps。采集时间为2017年的1月份至3月份期间的4天,每天录制3个小时,时间分为早晨、中午、下午。
 
数据集预处理:
 
采用Faster RCNN进行行人窗口的检测,之后作者采用一个序列提取机制来生成尽可能长的序列段。对于每个摄像头,先检测某个行人的外观特征,其次利用深层特征进行帧间的跟踪,当行人走出视野或者相似度过低时结束跟踪过程。最终,作者获得了3772个行人的14943段视频,平均每段视频长度为200帧。行人身份的标注为后续手工完成。
 
统计及对比:
 
下表为该数据集与现有同类数据集的对比,可见,LVreid数据集拥有更长的时间序列、更精准的行人跟踪轨迹、更多的数据、更接近实际应用设定。
 
 LVreid与现有数据集的对比
表1 LVreid与现有数据集的对比
 
评估手段:
 
与现有数据集相同,该数据集同样将reid问题看作是跨摄像头的行人检索问题,常用的评估参数有CMC曲线、mAP数值等。
 
2、提出了一个基准网络模型SATPP
 
模型简介:
 
基于LVreid数据集,作者提出了一个基准模型。现有的算法多采用帧间特征平均法或者LSTM等进行识别,前者可能丢失序列中的时间信息,后者过于复杂不适合实际应用部署。此外,检测窗口的不齐问题有可能会给识别精度产生影响。本文的模型采用空间对齐时间金字塔池化的结构,首先针对每帧图像进行2D仿射变换,矫正窗口使之对齐。其次,针对抽取出的高维特征,采用时间金字塔池化法,融合长时间段和短时间段的特征。因此,该网络可同时提取时间及空间信息,效率更高性能更强。
 
模型总结构:
 
随着LVreid的提出,产生了新的问题,即如何有效利用这些长视频序列中包含的丰富的时空信息,提取区分性强的视频特征。本文通过SATPP网络来解决这个问题,从而1)解决行人检测窗口的无法对齐问题;2)提取并融合区分性的特征。下图为网络结构。
 
SATPP网络结构
图5 SATPP网络结构
 
如上图所示,SATPP以整个视频序列作为输入,每帧图像先通过SAL空间对齐层进行2D仿射变换来对齐检测窗口。对齐之后的图像会输入到后续CNN中进行逐帧的特征提取。最终,采用时间金字塔池化层TPP进行多帧特征的融合,得到固定长度的视频特征表达。
 
SAL空间对齐层
 
该层的对齐基于二维仿射变换,公式如下,日中,(xs,ys)为输入图像的原始行人窗口坐标,(xt,yt)为目标坐标。通过学习仿射参数,可以将行人图像进行良好的平移、旋转、尺寸缩放,以得到更好的图片,提升后续性能。
 
公式
 
TPP时间金字塔池化层
 
由于不同的视频序列长度不均,作者将基于单帧提取的特征进行转化,得到固定维度的视频序列特征。传统的转换通常采取池化技术,如平均池化或最大池化。不同的池化方法适合于不同的特征模式,平均池化即对特征取平均值,最大池化即取特征的最大值,适用于稀疏的特征。现有的池化方法丢弃了时间维度的信息,这些信息对于reid任务很重要。
 
本文中,作者提出了时间金字塔池化法,即在空间粒度对不同尺度的时间特征进行池化。例如,视频序列包含n帧图像,每帧图像提取出d维的特征向量,则TPP构建L个时间池化层,第i层将n帧平均分为2^i-1份。如下图,其中,L取3,则第1层TPP层将n帧分为1份,第2层分为2份,第3层分为4份。这些层经过平均池化共产生D维度的特征F,其中,
 
\
 
当层数L较大时,D的数值可能会很大,为了降低后续的计算量和参数量,作者提出将F从一个列向量展开为二维矩阵特征图,通过卷积运算得到最终的特征。
 
TPP层结构示意图
图6 TPP层结构示意图
 
实验结果
 
作者采用了几种前沿数据集及几种前沿的视频reid方法进行了双向比较。
 
几种不同方法在多个数据集上的结果
表2 几种不同方法在多个数据集上的结果

本文与前沿方法在MARS数据集上的结果
表4 本文与前沿方法在MARS数据集上的结果
 
此外,作者测试了不同时间长度的特征对于精度的影响,如下图。可见,特征中包含的时间序列越长,精度越高。
 
四种不同长度的单帧特征获得的首位精度
图7四种不同长度的单帧特征获得的首位精度

【本文由爱吧机器人网Millie MA原创编译,禁止非授权转载】

上一篇:首次中文讲解开源神经网络框架Caffe2和FB的AI应用
下一篇:为什么很难训练深度神经网络?

本周栏目热点

从人工神经网络谈机器究竟是怎么学习的?

[2018-06-19]  从算法的角度看,机器学习有很多种算法,例如回归算法、基于实例的算法、正则化算法、决策树算法、贝叶斯算法、聚合算法、关联规则学习算法和人工神经网络算法。很多算法可以......

神经网络:人工智能以及我们的未来

[2016-11-20]   作者:James Crowder翻译:王益军审校:心原文链接:techcrunch把自己想象成在一辆未来的自动驾驶汽车的乘客。这辆汽车与你以一种 ...

计算机视觉领域前沿一览

[2018-07-30]  计算机视觉研究如何让计算机可以像人类一样去理解图片、视频等多媒体资源内容。例如用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等,并进一步处理成更适合人眼观察或......

tensorflow 神经网络分类模型构建全过程

[2017-11-08]  很多人行业中的老人都在向刚刚入行的新手提出建议:一开始进入到机器学习之中,最需要涉足的便是工作原理,只有将整套的工作原理弄清楚之后,才可以正式开始动手实践,这才是......

[2016-11-20]   BP人工 神经网络 改进 算法 C语言BP网络接受样本的顺序会对训练结果有较大的影响,基本 算法 比较偏爱较后出现的样本,因此,改进 算法 为 ...

精选推荐

美国喷气推进实验室的AI驱动无人机挑战人类飞行员
美国喷气推进实验室的AI驱动无人机挑战人类飞行员

[2017-12-08]  随着无人机及其组件越来越小,效率越来越高,功能越来越强大,我们已经看到越来越多的研究开始让无人机自主飞行在半结构化的环境中,而不依赖于外部定位。 宾夕法尼亚大学在......

谷歌在中国成立一个新的人工智能(AI)研究中心
谷歌在中国成立一个新的人工智能(AI)研究中心

[2017-12-13]  谷歌正在中国建立一个新的人工智能(AI)研究中心,希望进一步扩展到中国,以充分利用中国高度重视的人工智能技术。人工智能是目前地球上最具竞争力的领域之一,亚马逊,微软......

从AI中窥探人性
从AI中窥探人性

[2018-01-03]  人们对人造智能的恐惧早已成为科幻书籍和电影的极好题材。但现在,一些同样的担忧开始影响关于现实世界AI技术的政策讨论。如果这样的担忧演变成为一种技术恐慌...

这些人型机器人是如此真实,你的肉眼几乎无法区分
这些人型机器人是如此真实,你的肉眼几乎无法区分

[2017-09-03]   我们生活在一个区分现实与幻想变得越来越困难的世界。由于机器人技术的进步,创造人工的人类正在逐渐接近完美的最终目标。我们现在看到的机器人不再只是一块发光二极管,......

国外眼科手术机器人为视网膜静脉阻塞患者带来希望
国外眼科手术机器人为视网膜静脉阻塞患者带来希望

[2017-03-20]  视网膜静脉阻塞,简称RVO,对患者来说是一种严重的疾病。该病病因为视网膜静脉中存在血液凝块,这可能导致视力严重下降,在某些情况下,病 ...

7种常见的机器人焊接类型
7种常见的机器人焊接类型

[2017-12-17]  机器人焊接是工业领域最常见的机器人应用之一,近几十年来主要由汽车行业驱动。机器人焊接在完成大批量,重复性的焊接任务时效率最高。...

美国人工智能公司Skymind进入福建全面开展业务
美国人工智能公司Skymind进入福建全面开展业务

[2017-12-11]  人工智能在当今这个时代对大家来说想必是非常熟悉的,这也是我国近十几年来一直追求的目标,未来的时间里这也将是全人类追求的目标。就目前来看,近年来,人工智能或在我国迎......

通过对抗性图像黑入大脑
通过对抗性图像黑入大脑

[2018-03-02]  在上面的图片中,左边是一张猫的照片。在右边,你能分辨出它是同一只猫的图片,还是一张看起来相似的狗的图片?这两张图片之间的区别在于, ...