目录
本文是 IJCV 2021 Intra-Camera Supervised Person Re-Identification 的论文笔记。参考我爱计算机视觉https://blog.csdn.net/moxibingdao/article/details/112792563
论文链接:https://arxiv.org/abs/2002.05046.
Background
什么是Re-ID?
行人重识别(Person re-identification,简称Re-ID)是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。
即给定一个监控行人图像,检索跨设备下的该行人图像。
如左图,对于某一感兴趣的行人c,依次经过camera a和camera b,而Re-ID的任务就是已知行人c在camera a下的图片,需要检索出该行人在camera b中出现的图片,或者说是否存在于b中。
实际生活中有许多不同视角不同位置的摄像头,通过Re-ID可以确定行人的行动路线和行动时间。
为什么要用Re-ID?
旨在弥补目前固定的摄像头的视觉局限,区分于人脸检测,不需要用户配合 去摆正脸或侧脸,而是在被检测方毫无察觉的情况下即可完成。并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。
Re-ID的五大步骤:
- 数据采集,一般来源于监控摄像机的原始视频数据;
- 行人框生成,从视频数据中,通过人工方式或者行人检测或跟踪方式将行人从图中裁切出来,图像中行人将会占据大部分面积;
- 训练数据标注,包含相机标签和行人标签等其他信息;
- 重识别模型训练,设计模型(主要指深度学习模型),让它从训练数据中尽可能挖掘“如何识别不同行人的隐藏特征表达模式”;
- 行人检索,将训练好的模型应用到测试场景中,检验该模型的实际效果。
Re-ID技术识别困难存在的挑战:
- 低分辨率导致的特征提取困难
- 目标遮挡导致部分特征丢失;
- 不同摄像视角造成行人外观的巨大变化;
- 不同的光照导致同一目标的特征差异;
- 不同目标衣服颜色近似、特征近似导致区分度下降。
Motivation
(a)行人重识别的挑战。每一个由虚线框包围的三元组都显示了一个人从不同相机视角拍摄的图像。
(b)跨镜头视图手动关联身份的说明。虚线箭头表示两个身份之间的比较。相同的身份以红框为界。
行人重识别考虑的是一个跨镜头关联目标人物的问题。对于传统的全监督行人重识别,为了训练得到一个性能较好的模型,大量标注好的行人数据是必不可少的。但是标注行人重识别数据是一个耗时又耗力的工作,这极大限制了在实际应用中的可扩展性。这也是此文的motivation之一。
针对这个问题,无监督(unsupervised)和跨领域无监督(unsupervised domain adaption)行人重识别算法在近几年得到了越来越多的关注也获得了很大的进步。但是相比于全监督行人重识别模型而言,无监督模型的性能依然有一定的差距。
基于这两个motivation,作者提出了一种在全监督和无监督之间的方法—摄像机域内监督行人重识别。这消除了最耗时、最繁琐的摄像头间身份标识过程,显著减少了人工标注的工作量。
Related Work
行人重识别领域的相关工作分为这几类:有监督、半监督、弱监督、无监督
当前的Re-ID模型大多是有监督的。
-
有监督:
用有标签的数据训练
优点:显著的性能提升
缺点:费时费力,限制实际生活的实用性和扩展性 -
半监督:
将有监督最小化的显著趋势是半监督。有一部分数据的标签未知。通常是两阶段的训练,先用(较小规模的)有标签数据训练一个 Teacher 模型,再用这个模型对(较大规模的)无标签数据预测伪标签,作为 Student 模型的训练数据
优点:有部分的标签未知
缺点:显著的性能下降以及仍需相当大比例的数据标注损耗 -
弱监督:
在未经处理的视频层面添加 ID 标签。即已知某段视频中的所有行人的 ID,求与之一一匹配的标签(如图)
优点:减少部分工作
缺点:这种设定没有很大的意义,因为主要标注损失来自跨镜头匹配身份类别,而不是描绘行人边界框 -
无监督:
用无标签的数据训练。最直接的避免收集大量有标签训练数据的过程中产生巨大损耗的方法是无监督学习。有两个关于无监督Re-ID的热门研究方向- 基于无监督域适应的方法。这类方法从一个在源域上通过有监督的方式训练好的模型开始,在目标域数据上通过无监督的方式实现模型的域适应。严格来讲,这类方法并不能算作完全无监督。
优点:表现优于早期的无监督学习方法
缺点:需要源域和目标域之间有相似数据的分布,也就是说,两个域之间要出现一定数量的相同行人。这限制在实际生活中的可扩展性 - 基于跟踪的方法。这类方法需要一个较好的多目标跟踪模块,先在视频中运行多目标跟踪,然后将提取到的每个跟踪轨迹列为一个单独的ID。得到 ID之后,再通过度量学习计算相似度来训练模型。理论上来说,也依靠一种伪标签的分配,只不过这里的伪标签是通过跟踪得来的。
优点:在视频数据存在时方案基本可行
缺点:具有无约束动力学的噪声轨迹会导致方案性能不高
- 基于无监督域适应的方法。这类方法从一个在源域上通过有监督的方式训练好的模型开始,在目标域数据上通过无监督的方式实现模型的域适应。严格来讲,这类方法并不能算作完全无监督。
Problem Definition
那 什么是摄像机域内监督行人重识别呢
为了简化问题,我们可以把全监督行人重识别的数据标注过程分为两个阶段:
- 摄像机域内行人图片标注;如实线
- 摄像机之间个体关联。如虚线
对于摄像机域内行人图片的标注,除了人工标注我们还可以利用一些性能较好的跟踪算法进行初步标注,然后人工进行图片的选取和核对,从而大大降低数据标注的工作量。
但是对于摄像机之间的行人,由于摄像机和摄像机之间可能存在比较大的差异,比如室内和室外的光照差异,摄像机视角差异等等,这些原因导致了跟踪算法往往不能够成功地跨镜头跟踪目标人物。这也是行人重识别问题提出来的原因之一。
因此,对于摄像机之间的行人关联往往需要人工的参与,这是一个比较复杂的过程,对于每一个需要关联的行人,我们需要将他与其他摄像头下所有未标注的行人进行比对。此外,还需要保证不同的标注员标注相同行人时给的是同一个标签。
图片表示了传统全监督行人重识别数据和摄像机域内监督行人重识别数据的差异。相比于全监督数据,摄像机域内监督数据只提供了每个摄像机下 行人照片的标签信息,而没有提供相同行人在不同摄像机下的关联标签。因此在创建 摄像机域内监督行人数据集时可以减少跨镜头标注的工作量。
- 图(a)传统的全监督行人重识别数据集标注过程,多个标注员在标注过程中需要交流讨论,确保给同一行人赋予相同的标签
- 图(b)摄像机域内监督行人重识别数据集标注过程中,多个标注员可以同时进行标注,因为没有跨镜头的身份关联,只需要标注单个镜头下的行人即可
根据数据集 中 标签的特性,摄像机域内监督行人重识别问题需要解决以下两个任务:
- 如何利用在每个摄像机下所提供的标签信息;
- 如何让模型挖掘不同摄像机下同一行人图像之间隐藏的身份关联信息。
为了评估模型自动关联不同摄像机下相同行人的质量,作者在创建数据集时,除了提供每个摄像机下的行人标签,也提供了摄像机之间相同行人的关联标签。
Methodology
这篇论文介绍了一种新颖的 ICS (摄像机域内监督)深度学习方法,能够进行多任务多标签(MATE)模型学习,充分利用独立的每个摄像头行人身份标签空间。
特别地,MATE通过将两个互补的学习组件整合到一个统一的方案中,解决了上述两个挑战:
如图是提出的多任务多标签(MATE)深度学习方法概览
给定每个摄像头独立标记的训练图像,MATE的目标是学习一个身份判别特征表示模型。这是通过设计两个学习组件来实现的:
- (b)每个摄像头多任务学习,将每个摄像头视图作为一个独立的学习任务,具有自己的身份类空间,并在公共特征表示上优化这些摄像头特定的任务
- (c)组件跨镜头多标签学习,通过循环关联 自我发现跨镜头视图的潜在身份匹配关系。
- 并设计一种多标签优化算法,在模型训练期间利用这些发现的跨镜头关联信息。
这两个组成部分被整合在单个的MATE中,从而形成一个端到端的可训练模型。
Per-Camera Multi-Task Learning
摄像机域内监督多任务学习是对应解决此前提到的第一个任务,即如何利用在每个摄像机下所提供的标签信息
在这个模块中我们采用一个多任务学习深度模型。设计的基本思想是每个摄像机对应一个行人分类任务,所有的这些任务共用一个特征提取模块,再把输出特征作为全连接层的输入。每个摄像机对应后面的一个全连接层。
对于损失函数,仅仅是采用最简单的 Softmax Cross-Entropy
- softmax把分类输出 标准化成 概率分布,cross-entropy(交叉熵)刻画 预测分类 和 真实结果 之间的相似度。
Multi-Camera Multi-Lable Learning
多摄像机多标签学习模块是对应解决之前提到的第二个任务,即让模型自动关联不同摄像机下相同的行人并且利用这些自动关联上的标签。
在这个模块里又设计了两个子模块:
- 摄像机间的相同行人关联模块
- 多标签学习模块
Curriculum Cyclic Association
摄像机间相同行人关联模块主要是基于一个相同行人图片在不同图片类中互为最相似的思想。
这个也是受启发于 CycleGan,但是 CycleGan 是 Pixel Level 的,而我们这里是 Feature Level 的。
- 首先明确我们需要获得的信息是:cam 1中的第二张图片p2,与cam2中的第三张图片p3 所包含的是同一行人
那么也就是:
*)在cam2采集的行人图库中与cam1的p2最为相似的是p3
*)在cam1采集的行人图库中与cam2的p3最为相似的是p2
我们只需要获得这两条信息就能成功跨镜头匹配这位行人 - 接下来就是分步获取,计算cam2下每张图片与cam1中的p2的相似度,得到相似度最高的是cam2下的p3
- 再对cam1做相同操作
- 不断迭代直至遍历完cam1下的所有图片,就可以将cam1和cam2下所有同一行人的图像一一对应
Multi-Label Learning
将两个行人关联上后,我们就采用多标签的方法在标签层面上让这两个行人关联上,具体做法是把关联上的图片的标签分别复制给对方。
这样经过多标签处理后,不同摄像机下的相同行人就会拥有完全一样的多标签,如图所示
经过上面两个模块的处理后,就可以关联上不同摄像机下的相同行人并且关联上的行人都会拥有新的标签。我们把这些新的标签更新到训练数据集中,并且再次采用softmax cross-entropy 来对模型进行再次更新:公式9、10
最终的模型损失函数是这两个模块损失函数的线性叠加:公式11
Evaluation
Datasets
数据集包含Market-1501、DukeMTMC-reID、MSMT17。
Market-1501 在清华大学校园中采集,在 2015 年构建并公开。其中包含了1501个ID,每个ID都有来自六个不同摄像头的几张图像。该数据集还包括来自 DPM(数据处理机 Data Processing Machine) 的2793个假警报,作为干扰来模拟真实场景。
Zheng, L., Shen, L., Tian, L., Wang, S., Wang, J., & Tian, Q. (2015). Scalable person re-identification: A benchmark. In Proceedings of the IEEE International Conference on Computer Vision (pp. 1116-1124).
DukeMTMC-reID 在 2017 年构建并公开。是一种大规模的多目标多摄像头跟踪数据集。总共有超过2700人在8个摄像头上被贴上了独特的身份标签。
Gou, Mengran and Karanam, Srikrishna and Liu, Wenqian and Camps, Octavia and Radke, Richard J. “DukeMTMC4ReID: A Large-Scale Multi-Camera Person Re-Identification Dataset.” CVPR Workshops (2017).
MSMT17(Multi-Scene Multi-Time)在 2018 年公开。数据集采用了安防在校园内的15个摄像头网络,其中包含12个户外摄像头和3个室内摄像头。为了采集原始监控视频,在一个月里选择了具有不同天气条件的4天。每天采集3个小时的视频,涵盖了早上、中午、下午三个时间段。MSMT17采取数据的方式多场景多时段,更接近真实场景。
Wei, L., Zhang, S., Gao, W., & Tian, Q. (2018). Person Transfer GAN to Bridge Domain Gap for Person Re-Identification. Computer Vision and Pattern Recognition, IEEE International Conference on, 2018.
Evaluation Indexes
Re-ID采用Rank n和平均平均精度(mAP)指标进行模型绩效测量。
Rank-n
搜索结果中 置信度最高 最靠前的n张图,有正确结果的概率。
例如: lable为m1,在100个样本中搜索。
若识别结果是m2、m3、m4、m5、m1……,则此时rank-1,rank-2的正确率为0%;而rank-5的正确率为100%
这种评估指标对每一个集合的结果可能有很大的差异,需要mAP来评估整个模型的总体效果。
mAP(Mean Average Precision)
对于图片1,在检索结果中正确图像分别排在1,3,6,9,10的位置,
对应的查准率是查询结果中正确图像/总的图像,如返回图片3,此前的正确图像是1和3,总的图像是1,2,3,所以查准率是2/3
分别计算五张正确图像的precision
召回率是查询结果中正确数量/总的positive数量,如返回图片6,查询结果中正确图像是1,3,6。所以召回率是3/5
对图片一中所有正确结果计算精度的平均值,表示图片1的所有正确结果的准确率。
对于图片2做相同操作。mAP就是对以上两个检索精度求平均,表示所有查询对应的准确率。
衡量ReID时,要求被检索人在底库中所有的图片都排在最前面,这时候mAP的指标才会高。
因为mAP要求是非常高的,所以是比较能够综合体现模型真实水平的指标。
Main Results & Analysis
作者将现有的行人重识别工作进行了分类,分为无监督,基于跟踪算法,跨域无监督,摄像机域内监督,半监督和全监督行人重识别。
从表格可以看出本文的 MATE 模型在 Market1501 的性能还是很有竞争性的。但在MSMT17数据集上表现不优。
Discussion
ICS 行人重识别问题是一个为了降低数据集构建的复杂性而提出的一个折中方案。
-
论文在评审中一个 reviewer 说这个方案是:a sweet compromise between unsupervised and fully supervised person re-id。该论文目前刚被 IJCV接收。
-
关键动机:消除跨镜头手动关联身份的繁琐且昂贵的过程。
-
方法:制定了一个多任务多标签(MATE)学习模型,能够充分利用每个摄像头的标签信息,同时自我发现跨镜头身份关联。
-
部署:ICS 这一新问题可以很容易地从现有的全监督数据集上过渡过来:只需要在全监督数据集上去掉摄像机间的行人关联标签就可以。另外 MATE 模型在算法上也比较好实现,没有涉及复杂的损失函数。
-
性能:但是在摄像机数量比较多的数据集上,比如MSMT17,性能和全监督模型依然存在着比较大的差距。
Further Research
根据一开始提到的行人重识别的5个步骤,我们可以把现有的Re-ID方法分为两种主要趋势: closed-world and open-world,如表1总结的,对二者主要区别进行了对比
- closed-world中只考虑数据是单一模态的。
而在实际应用中,数据可能是异构的,比如图像、文本、视频,不同分辨率以及不同光谱。 - closed-world person Re-ID在训练和测试中通常基于生成的bounding boxes来完成。
相反,一些实际的开放世界应用程序需要从原始图像或视频中进行端到端的人员搜索。 - 对于第三步中的训练数据标注,closed-world person Re-ID通常假设我们有足够的带标注的训练数据来进行全监督的reid模型训练。
但是,在每一个新环境下重新进行标注都是费时费力的,成本也很高在open-world的场景中,我们可能没有足够的标注数据,甚至没有任何标签信息。 - 现有的closed-world人员Re-ID系统通常假设所有的标注都是正确的,有干净的标签。
但实际应用中经常存在 标注错误所引发的标注噪声 或 检测/跟踪结果不完善导致的样本噪声,且标注噪声往往是不可避免的。 - 在第5步的行人检索阶段,现有的大多数closed-world的person Re-ID通过计算Rank n和mAP,假设查询必须发生在gallery集。
相对的,在许多场景中,查询人员可能不会出现在图库集合中,或者我们需要执行验证而不是检索。
Deep Learning for Person Re-identification: A Survey and Outlook
目前closed-world的re-id性能都已经饱和,未来可以研究open-world re-id的这五个方向。
参考文献
[1]Xiangping Zhu, Xiatian Zhu, Minxian Li, Vittorio Murino, and Shaogang Gong. “Intra-camera supervised person re-identification: A new benchmark.” InProceedings of the IEEE International Conference on Computer Vision Workshops, pp. 0-0. 2019.
[2]Xiangping Zhu, Xiatian Zhu, Minxian Li, Pietro Morerio, Vittorio Murino, and Shaogang Gong. "Intra-Camera Supervised Person Re-Identification."arXiv preprint arXiv:2002.05046(2020),accepted to IJCV 2021.