作者简介:刘翠响(1973—),河北工业大学副教授、博士.研究方向:数字语音与图像处理.E-mail:liucuix@126.com
中文责编:英 子; 英文责编:木 柯
河北工业大学电子信息工程学院,天津 300401
School of Electronic and Information Engineering, Hebei University of Technology, Tianjin 300401, P. R. China
artificial intelligence; pedestrain re-identification; feature fusion; down sampling; cross-view quadratic discriminant analysis(XQDA)measures learning; histogram equalization; image processing; pattern recognition
DOI: 10.3724/SP.J.1249.2019.04447
为解决实际监控场景中的行人重识别技术的智能应用,考虑到行人图像拍摄角度不断变化的情况,将颜色和纹理等特征进行融合,利用部分局部块提取图像特征; 针对行人轮廓不清晰,提出在纹理特征提取前实现直方图均衡化的方法; 通过对图像进行两次下采样,使算法具有更好的比例尺度不变性.与现有的局部最大概率(local maximal occurrence, LOMO)特征与跨视图二次鉴别分析(cross-view quadratic discriminant analysis, XQDA)方法结合的重识别方法进行对比,结果表明,在数据集VIPeR、PKU-Reid和i-LIDS-VID上重识别率rank1分别提高了0.28%、1.75%和0.20%,证明采用最小均衡化后的行人重识别率得到了提升.
In order to solve the intelligent application of pedestrain re-identification technology in the actual monitoring scenes, the color and texture features are fused and some local blocks are used to extract image features by considering the changing shooting angle of pedestrian image. A method of histogram equalization before texture feature extraction is proposed to solve the problem of unclear pedestrian contour. By down sampling the image twice, the algorithm has better scale invariance. Compared with the existing re-identification method of cross-view quadratic discriminant analysis(XQDA)combined with local maximal occurrence(LOMO)characteristics, the experimental results show that the corresponding re-identification rate rank1 on the datasets of VIPeR, PUK-Reid and i-LIDS-VID is improved by 0.28%, 1.75% and 0.20%, respectively, which proves that the recognition rate of pedestrain re-identification with minimum equalization is improved.
近年来,行人重识别技术已成为研究热点,受到越来越多学者的青睐.行人重识别是指不同摄像机之间的行人匹配,旨在于实现多个无重叠视域摄像机之间的特定行人的识别.由于摄像头位置的不同,行人图片会受到姿势、光照和拍摄角度的影响,因此,行人重识别是一项具有挑战性的任务.现有的行人重识别技术研究主要有特征提取和距离度量学习两个方向.前者是运用一些技术手段将行人图像像素级别的表示转换为特征向量的形式,如颜色直方图、纹理直方图等; 后者是通过训练数据学习一种度量函数,使得相同行人之间的距离较小,而不同行人之间的距离较大.
针对特征提取方向的研究,行人重识别技术主要集中在颜色空间、纹理特性以及梯度方向等方面.例如,颜色标签要素与颜色和纹理特征合并,直方图通过区域和块分割提取,以获得图像特征[1]; 基于空间颜色特征的行人重识别方法[2],先把行人图像分为上下两个部分,进而将每一部分再划分子块,最后在每个子块上提取HSV(hue, saturation, value)特征,并在计算相似度时引入位置信息; 采用颜色特征与纹理特征结合的特征表示方法[3],将HSV空间中的HS分量、LAB颜色空间的AB分量和Gabor滤波器后的纹理特征进行融合; GHEISSARI[4]提出一种时空分割法来检测稳定的前景区域.针对划分的各个局部区域,计算 HS 直方图和边缘直方图; LIAO[5]提出局部最大概率(local maximal occurrence, LOMO)描述器,它主要由HSV颜色直方图和 SILTP纹理直方图组成特征; MATSUKAWA等[6]提出利用分层高斯算子将图像分为由多个高斯分布进行描述的不同区域来表示颜色和纹理信息(Gaussian of Gaussian, GOG).
针对距离度量方向的研究从欧氏、余弦等距离,发展到较复杂的马氏[7]和巴氏距离等,其度量方式在不断变化.DIKMEN等[8]改进了大间隔最近邻局(large margin nearest neighbor, LMNN)算法,提出LMNN-R算法; 郑伟诗等[9]提出基于概率相对距离比较(probabilistic relative distance comparison, PRDC)的距离度量学习; KÖSTINGER等[10]提出基于简单并且直接策略(keep it simple and straight, KISS)的距离度量学习; PEDAGADI等[11]提出局部线性判别分析(local fisher discrimination analysis, LFDA)的距离学习函数,并将其用于行人重识别; LIAO等[5]将PSD限制和非对称权重应用于度量函数学习中,提出一种跨视图二次鉴别分析(cross-view quadratic discriminant analysis, XQDA)方法[12].
本研究通过分析现有的特征提取和距离度量方法,采用整体和局部特征结合、颜色和纹理特征结合的方式提取行人特征.首先,整体提取图像的HSV颜色空间直方图,对图像进行了直方图均衡化,分块提取(local binary pattern, LBP)的一种改进算法(scale invariant local ternary pattern, SILTP)纹理特征作为图像局部特征; 然后,对图像进行两次下采样,再次进行上述特征提取; 最后,采用XQDA度量学习进行图像特征距离学习.通过实验证明,对图像进行均衡化后的特征比原有特征的识别率更高,说明该方法的有效性.
均衡化指将已知分布的直方图映射到另一个更宽且更均匀的强度值分布上.其中,映射函数是一个累积分布函数(cumulative distribution function, CDF).图像均衡化旨在使图像的细节更明显,其基本思想是将图像直方图在一定范围内进行拉伸,以加强图像对比度,提高图像主观视觉效果.对比度低的图像适于采用直方图均衡化方法来加强图像的细节.在图像的目标数据对比度不清晰时,该方法可有效提高图像的全局对比度.因此,该方法不仅很好地增强了图像局部目标的对比度,且不影响图像的整体对比度,尤其适用于当图像的前景与背景过亮或过暗时的情景.可见,直方图均衡化能处理行人目标与背景相似的情况,有效提高重识别率.
灰度直方图均衡化算法实现步骤为:
1)统计原始行人图像中各灰度级的像素数ni, 0≤i≤L, L为图像中的灰度级(通常为256).
2)图像中灰度级为i的像素出现的概率为
p(i)=ni/n(1)
其中, n为所有像素总数; p(i)为灰度级为i的归一化图像直方图.
3)p的累积分布函数(cdf)是图像累计归一化直方图,即
cdf(i)=∑ij=0p(j)(2)
4)直方图均衡化计算公式为
h(v)=round((cdf(v)-cdfmin)/(M×N-cdfmin)(L-1))(3)
其中, round()为四舍五入取整函数; cdfmin为累积分布函数最小值; M和N分别为图像的长、宽方向的像素数; L为灰度级数; v为原始图像中所有的灰度级数.
由于摄像头拍摄的行人图像一般为彩色图像,上述步骤为灰度图像的均衡化,本研究将针对RGB彩色图像进行均衡化.首先,将图像分为R、G和B三个通道分量; 然后,对每个通道分量分别求图像均衡化; 最后,选取3个分量对应位置的最小值作为最终的均衡化值.在直方图均衡处理后,原始图像中像素数较少的灰度级将被分配给其他灰度级,像素数相对集中,并且灰度级范围在处理之后变大,对比度增加并且锐度增加,从而可有效增强图像,提高识别率.
行人重识别的实现主要分为特征提取和度量学习两部分.特征提取是寻找一种最能描述特定行人的方法.采用图像直方图均衡化能更清晰地区分图像中的行人与背景,该操作将原本较少像素的灰度级分配给其他灰度级,令像素将相对集中.度量学习则是通过训练数据学习一种距离矩阵,使相同行人之间的距离小于不同行人之间的距离,以更好的实现重识别.
在实际场景中,行人图像会因姿态、光照等不同而有所差异,因此,本研究采用局部和整体结合的方式提取行人特征.以VIPeR数据集的图片为例,首先,把图像大小统一改为128×48像素; 对图像求HSV直方图作为整体特征; 然后,通过直方图均衡化后获得的图像被划分为在水平方向上具有50%的重叠率的条带,在每个条形块中以10×10像素大小,步长为5的滑块提取的SILTP纹理特征; 最后,对图像进行2次下采样,对采样后的图像分别进行上述特征提取,将所有特征融合成一个特征向量,并作为最终的行人特征.经过均衡化的部分特征如图1.
行人在拍摄过程中受很多因素的影响,为使算法的比例尺度不变性更佳,对均衡化后的图像进行两次下采样.经过下采样操作后,可生成不同尺寸的图像缩略图.行人重识别技术经过对不同尺寸图像的进行训练,使该方法具有较好的尺度不变性.
距离度量学习是为了能够更好地区分不同行人之间的特征,实现较好的重识别.本研究使用XQDA方法,用跨视图二次鉴别分析学习低维度的判别子空间,并用高斯模型拟合样本特征的差值分布,同时在子空间中学习一个距离测度方法[13].度量学习定义了如下概率密度函数:
P(Δ|ΩI)=1/((2π)d/2|ΣI|1/2)e-1/2ΔT(ΣI)-1Δ(4)
P(Δ|ΩE)=1/((2π)d/2|ΣE|1/2)e-1/2ΔT(ΣE)-1Δ(5)
其中,Δ=xi-xj, xi和 xj为不同摄像头下的原始特征, xi, xj∈Rd(d为特征维数); 当样本标签相同时, Δ被称为类内差值,并被重新定义为 ΩI, 当样本标签不同时, Δ被称为类间差值,并被重新定义为 ΩE, ΩI和 ΩE都服从均值为0,方差分别为 σI和σE的高斯分布; ΣI和 ΣE分别为类内样本差值分布的协方差矩阵与类间样本差值分布的协方差矩阵;(ΣI)-1和(ΣE)-1分别为协方差矩阵 ΣI和 ΣE的逆矩阵.根据贝叶斯法则和对数似然比,可得距离度量函数为
f(Δ)=ΔT[(ΣI)-1-(ΣE)-1]Δ(6)
样本xi与xj之间的距离为
d(xi, xj)=(xi-xj)T[(ΣI)-1-(ΣE)-1](xi-xj)(7)
算法流程图请扫描论文末页右下角二维码.
实验将在Intel(R)CoreTM i3-3110M CPU,频率2.40 GHz,内存4.00 Gbyte Matlab 2014b基础配置环境下进行.为更好地区分图像中行人目标与背景的相似性,本研究利用彩色图像3通道的直方图均衡化最小化来增强行人细节特征.采用累计匹配特性(cumulative matching characteristic, CMC)曲线[14]来估计所提出的算法,并在数据集VIPeR、PKU-Reid和i-LIDS-VID上进行验证. 3个数据集简介如表 1.其中,所有图像采集自2个摄像头.随机选取行人数的一半作为训练样本集,另一半作为测试样本集.
VIPeR数据集每个行人采集2个图像,所得图像特点是视角和光照多样.将数据集随机均分成各316个行人的分数据集,一个用于训练,一个用于测试.PKU-Reid数据集包含从两个分离的相机视图中捕获的1 824幅图像,每个相机针对1个行人从8个不同方向各捕捉1幅图像,即每个行人采集16个图像.该数据集是第1个从8个方向捕捉人的外貌的数据集.同样,将该数据集随机均分为一个包含57个人用于培训和一个包含57个人用于测试的子数据集.数据集i-LIDS-VID由300个不同个体的600个图像序列组成,每个人有一对来自两个摄像机视图的图像序列.每个图像序列的长度为23~192帧,平均约为73帧.数据集i-LIDS-VID非常具有挑战性,因为行人服装相似,摄像机视图之间的灯光和视角变化,杂乱的背景和随机遮挡.训练子集是为学习不同特征的核矩阵,而测试子集是计算不同摄像机中一对行人样本的相似性.计算 CMC 曲线时,为使实验结果稳定且可靠,取10次实验的平均识别率作为最后结果.
为验证算法中HSV空间的有效性,采用与LAB颜色空间进行对比.先将图像转化为LAB空间,再进行相应的纹理特征提取,最后在VIPeR、PKU-Reid和i-LIDS-VID数据集分别进行实验,实验结果如表2.由表2可见,在 VIPeR数据集上采用HSV颜色空间的识别结果rank1要比LAB颜色空间高13.51%; 在 PKU-Reid数据集上采用HSV颜色空间的识别结果rank1要比LAB颜色空间高7.02%; 在i-LIDS-VID数据集上采用HSV颜色空间的识别结果rank1要比LAB颜色空间高8.50%.可见,采用HSV颜色空间的识别结果在3个数据集中都有最佳识别率.在 3个数据集上对比采用HSV颜色空间和采用LAB颜色空间进行识别时,所得CMC曲线如图2.由图2(a)可见,在数据集VIPeR上,使用HSV空间的整体重识别效果要比LAB空间的好.由图2(b)可见,在数据集PKU Reid上,HSV空间的重识别率要比LAB空间收敛的快且效果好.由图2(c)可见,在数据集i-LIDS-VID上使用HSV空间的整体重识别效果比LAB空间的好.
表2 在VIPeR、PKU-Reid和PKU-Reid数据集上的识别率
Table 2 The recognition rate on the data sets of VIPeR, PKU-Reid and PKU-Reid
为验证本研究算法均衡化的有效性,通过实验对比多种特征在均衡化前后的识别率.由于在CMC曲线中rank1最能体现重识别的好坏,故在此选择rank1进行比较,实验在数据集VIPeR上进行,结果如表3.
表3 数据集VIPeR上不同特征在均衡化前后识别率对比
Table 3 Comparison of recognition rates before and after equalization of different features on data set VIPeR
从表3可见,无论采用哪种特征,对图像进行均衡化后,识别率都会提高,这证明均衡化可有效提高重识别率.
为验证本研究所提出的行人特征及均衡化的有效性,采用文献[3]和LOMO特征[5]与本研究所述特征在不同数据集上进行对比.首先对图像进行3通道均衡化取小者,然后用提取纹理特征的方法提高重识别率.在VIPeR、PKU-Reid和i-LIDS-VID数据集上分别进行实验,结果如表4.从表4可见,本研究采用的先对图像进行均衡化,再提取纹理特征的方法,对文献[3]的特征重识别率提高显著.相较于采用LOMO特征,采用本研究方法的重识别率也有所提高:在数据集VIPeR上重识别率rank1提高了0.28%; 在数据集PKU-Reid上重识别率rank1提高了1.75%; 在数据集i-LIDS-VID上重识别率rank1提高了0.20%,从而验证了本方法的有效性.
本研究只考虑了短时间内,行人的外观和行为没有发生巨大变化的情况.为增强行人目标与背景的区分度,对行人图像先进行了直方图均衡化,然后提取相应的纹理特征,使其纹理特征能较好地描述行人,提高了识别结果.研究结果证明,均衡化有助于提高重识别率.但在现实生活中,若要很好地实现跨摄像头的行人重识别,进而完成安全且智能的城市建设,则需提取更细致的行人特征,研究更有判别力的距离度量,这也是今后的研究热点.
深圳大学学报理工版
JOURNAL OF SHENZHEN UNIVERSITY SCIENCE AND ENGINEERING
(1984年创刊 双月刊)
主 管 深圳大学
主 办 深圳大学
编辑出版 深圳大学学报理工版编辑部
主 编 李清泉
国内发行 深圳市邮电局
国外发行 中国国际图书贸易集团有限公司(北京399信箱)
地 址 北京东黄城根北街16号
邮 编 100717
电 话 0755-26732266
0755-26538306
Email journal@szu.edu.cn
标准刊号 ISSN 1000-2618
CN 44-1401/N