作者简介:李 霞(1968—),女(汉族),四川省乐山市人,深圳大学教授、博士生导师.E-mail:lixia@szu.edu.cn
中文责编:英 子; 英文责编:雨 辰
1)深圳大学信息工程学院,深圳市现代通信与信息处理重点实验室,深圳 518060; 2)南昌大学电子工程学院,南昌330031
Li Xia1, Li Fusheng1, and Chen Yuanqin21)College of Information Engineering, Shenzhen University, Shenzhen Key Laboratory of ACIP, Shenzhen 518060, P.R.China2)Information Engineering Schoot, Nanchang University, Nanchang 330031, P.R.China
image processing; saliency detect; discrete cosine transformation; spatial distance; human visual sensitivity; eye-tracking dataset; video coding
DOI: 10.3724/SP.J.1249.2014.05464
提出一种基于人类视觉灵敏度与空间加权离散余弦系数差异度的显著性检测模型.该模型将图像块的离散余弦低频系数作为其特征向量,以取代颜色和亮度等基本特征.每个图像块的显著性不仅计算与其余所有图像块的空间加权特征差异度之和,还用人类视觉灵敏度加权.通过与6种典型的显著性检测模型在3个眼动跟踪数据集上进行对比实验,结果表明,该模型显著性检测性能优于所有对比算法.此外,将该显著性检测模型用于新一代高效率视频编码(high efficiency video coding,HEVC)中也获得了很好的效果.
A new saliency detection model based on human visual sensitivity and spatial weighted dissimilarity of discrete cosine transformation(DCT)coefficients is proposed. The DCT coefficients were used as the feature vector to replace the color and intensity of image patches to compute contrast. The salient value for each image patch was calculated not only by the dissimilarity between the DCT coefficients of this patch and other patches in the whole image but also by the dissimilarity in weighted human visual sensitivity. The experimental results show that the proposed saliency detection model outperforms other state-of-the-art detection models in three eye-tracking datasets. In addition, the proposed model is also applied to new video coding technology, namely high efficiency video coding(HEVC), and achiev better performance than conventional algorithms.
在人类视觉系统中,视觉选择注意机制起着非常重要的作用,它使人们在海量的视觉输入信息中快速定位感兴趣的区域[1].在计算机视觉领域,视觉显著性的一个具体表现为:给定一幅图像,判断图像中哪些区域为人类视觉系统最先关注,关注度有多大,并且可用一张相同大小的灰度图来量化人眼对不同区域的关注度.人们称该灰度图为显著图,对于一个视觉显著性检测模型,输入一张彩色图像,输出一张与之大小相同的显著图.视觉显著性检测在计算机视觉领域有广泛应用,其中一个最直接的应用就是图像与视频压缩[2].该应用是通过显著性检测模型计算图像或视频的显著图,用显著图在编码的量化阶段为不同的显著性区域分配对应的编码比特资源.视觉显著性检测还广泛应用在目标检测[3]和图像分割[4]等计算机视觉领域.
自Treiman等[5]提出特征集成理论以来,不少学者基于此理论提出了一系列的显著性检测模型.如Harel等[6]提出基于图论(graph based visual saliency,GBVS)的显著性检测.图像的显著性也被定义为图像的稀少性,Bruce等[7]将显著性定义为信息最大化,提出基于香农信息论的信息最大化(attention-based on information maximization,AIM)的显著性检测模型.Goferman等[8]提出基于内容感知(context-aware,CA)的显著性检测模型,通过计算图像不同尺度下的局部对比度和全局对比度来获取图像显著图.此外,一类基于变换域的显著性检测模型被提出,该类模型的代表之一有Guo等[9]提出的基于四元傅里叶相位谱(phase spectrum of quaternion Fourier transform,PQFT)的显著性检测模型.该模型使用图像的亮度特征、2个对立的颜色特征和视频的运动特征来构造图像四元数表,通过该四元数的傅里叶相位谱计算其显著性.Murray等[10]提出的基于小波变换的中心环绕机制的显著性检测模型和Hou等[11]提出的基于图像签名(image signature,IS)的显著性检测模型.IS模型只需对图像各个通道分别做1次离散余弦变换(discrete cosine transformation,DCT)[12]和离散余弦反变换,因此其计算速度远快于基于像素域的计算模型,该算法计算简单且显著性检测结果准确度高.
在以上模型中,GBVS和CA在计算对比度时都考虑了图像不同区域的空间位置信息,而基于变换域的PQFT和IS检测准确度较好的原因是它们所选择计算的特征比较合适,而图像的傅里叶相位谱和DCT系数能表示图像的一些重要特征.受上述经典检测模型的启发,本研究提出一种基于DCT低频系数的空间加权差异度显著性检测方法,并基于人眼视觉灵敏度(human visual system,HVS)模型[13]来获取最终的显著图.
本研究在多个公开的眼动跟踪数据库和1个大型图像分割数据库上,与6种具有代表性的显著性检测模型[6-11]计算出的结果分别进行主观和客观的对比,结果表明,该算法在图像显著性检测准确度上优于其他模型.
目前,多数显著性检测都是基于特征集成理论的自底向上的模型,该类模型用图像的底层特征,如图像的亮度、颜色、边缘和方向等信息[14]来计算图像的视觉显著性.受IS[11]模型的启发,本研究尝试用图像的亮度和色度的DCT系数作为显著性计算特征.为计算图像的DCT系数,将输入图像从RGB色彩空间转换到CIELab色彩空间.由于图像的显著性表现为每个区域在图像中的对比度,因此本研究将图像分割成互不重叠且大小相同的图像块,对每个图像块所有色彩通道分别做DCT,并将DCT低频系数作为表征该图像块特征的特征向量.每个图像块的显著性定义为该图像块与其他所有图像块之间的空间加权特征差异度之和.本研究提出的显著性检测模型的流程图如图1.
首先,输入大小为M×N的RGB彩色图像,并将其转换到CIELab颜色空间.其次,将图像分割成大小为r×c, 且互不重叠的图像块,则总图像块数L=round(M/r)×round(N/c), 其中round()定义为四舍五入操作.每个图像块用pi表示,i=1,2,…,L. 图像块每个通道的特征向量用 Xki表示, k=1,2,3. 每个图像块的显著性定义为
Ski=αi∑j≠iωij·|Xki-Xkj|(1)
其中, |Xki-Xkj|为i和j图像块之间的特征向量之差的绝对值,定义为特征差异度; αi为图像块i的中心偏移权重; ωij为i和j图像块之间的空间距离权重,定义为
ωij=exp(-=pi-pj=/σ2)(2)
这里,=pi-pj=表示图像块i和j之间的欧氏距离; σ2用来调节空间距离对图像块之间特征差异度的影响.
图像中每个图像块的显著性可定义为该图像块在整个图像中的全局对比度,即该图像块与图像中其余所有图像块之间的特征差异度之和.一个图像块与其周围图像块的特征差异度越大,则该图像块的对比度越大,而与距离较远的图像块之间的特征差异度对其全局对比度影响也较小.如式(2),本研究用空间距离的负指数作为每个图像块之间特征差异度的权重.空间距离=pi-pj=越大,则ωij越小,计算得到的特征差异度对该图像块的显著性影响越小.本研究设σ2为0.16.
式(1)中的中心偏移权重ai表示每个图像块离图像中心的距离权重,根据HVS原理[13],当人眼视线确定在图像的某个位置时,人眼对该位置的分辨率最高,而离该位置越远的区域人眼分辨率越低.这是因为,在人眼视网膜中,不同区域的视锥细胞密度不同,因此人眼在观看图像时具有不同的视觉灵敏度.人眼视网膜中央凹的视锥细胞密度最大,视觉灵敏度亦最高; 离视网膜中央凹越远的位置,其视锥细胞密度越小.人眼观看距离和视网膜中离心距离之间的关系如图2[13].
图2 观看距离和视网膜离心距离关系[13]
Fig.2 Relationship between viewing distance and retina eccentricity[13]
其中,v为人眼与图像之间的距离,根据一般人眼观看图像时离显示屏的距离,其值设为图像高度的4倍像素; e为图像中(x,y)位置的视线与图像中心点(x0,y0)的视线之间的夹角; d为(x,y)与(x0,y0)的欧氏距离.每个图像块的中心偏移权重定义为
α=exp[-(e+e1)/e1](3)
其中,e1表示半分辨率离心率,根据文献[13]设e1=2.3; e=tan-1(d/v).
HVS表现为离视网膜中央凹处越远的区域,视锥细胞密度越低,视觉灵敏度就越低.因此当人眼观看一张图像时,离眼睛注视点越远的区域,人眼对该区域的分辨率也就越低.人在正面观看图像时,视线一般会首先集中到图像的中心位置,然后再向周围扩散,因此,算法对基于视觉灵敏度计算出的中心偏移权重归一化后给每个图像块的显著度进行了加权.
自Ahmed等[12]提出DCT理论以来,它就广泛用于信号处理和图像处理.DCT可将一组光强数据转换成一系列频率数据,反映其强度变化状况.图像的主要能量多集中在DCT系数的低频部分,如目标轮廓和灰度分布特性,高频部分主要体现图像的细节特征,又因细节特征对图像对比度计算的影响较小,如果将图像块的所有DCT系数都作为其特征向量,这样不仅会增加计算量,还会降低最终的检测准确度.因此,本研究提出的显著性检测方法只将图像块的DCT低频系数作为图像块的特征向量,用该特征向量计算不同图像块之间的特征差异度.在获得CIELab空间每个通道的归一化显著图后,计算每个通道显著图的二维信息熵[15],将该信息熵的倒数做归一化处理后作为每个通道显著图的权重,用所有通道显著图的加权求和得到最终的显著图.
将M×N图像分割成为r×c且互不重叠的图像小块, r和c分别为图像小块的高和宽,其值与输入图像的大小成比例,分别定义为r=round(s×M)和c=round(s×N). 其中, s为图像块相对于输入图像的比例系数,该值直接影响显著性检测模型的计算复杂度和检测精确度,通过实验比较将其设为0.036.图像小块的离散余弦变换定义为
F(u,v)=1/((rc)1/2)C(u)C(v)∑x=r-1x=0 ∑y=c-1y=0[f(x,y)cos((2x+1)uπ)/(2r)cos((2y+1)vπ)/(2c)](4)
其中,
C(u), C(v)={1/21/2 u,v=0
1 其他(5)
DCT系数矩阵大小与输入图像大小一致,因此图像块中每个通道的DCT系数矩阵大小为r×c.
从式(5)可知,图像经DCT后,其系数矩阵从左上角到右下角分别对应低频到高频的系数,且系数的绝对值逐渐减小,因此图像的主要能量集中在DCT系数的低频部分.本研究将图像的DCT低频系数作为每个图像块的特征向量,通过实验对比选择适当维度的低频系数作为每个图像块的特征向量.设图像特征维度参数为d, 将图像DCT系数矩阵左上角d×d大小的矩阵块做向量化操作后作为该图像的特征向量.因此特征向量的维数为d×r×d×c, 通过大量实验比较后设d=0.22.
CIELab色彩空间是一种颜色-对立空间,其中 L为亮度通道, a和 b为颜色对立维度[16].与RGB和CMYK色彩空间不同,Lab颜色更接近人类视觉.它致力于感知均匀性,其 L分量密切匹配人类亮度感知.将RGB色彩空间变换到Lab空间的示意如图(3).其中,图3(a)为输入的RGB图像; 图3(b)至(d)分别对应Lab空间的 L、 a和b维度图像.为保留每个维度空间的独立性,本研究分别用式(1)计算 L、 a和b维度上的显著图,如图3(f)至(h),每个通道的显著图是由该通道中所有图像小块的显著度重新排列并归一化后获得.为去除块效应,用标准差为3的高斯平滑滤波对每个通道的显著图进行平滑滤波,最后用双线性插值法将显著图放大到与输入图像相同的尺寸,用 Sk表示每个通道的显著图,k=1,2,3.最终的显著图 Smap由上述3个通道的显著图加权求和得到,即
Smap=∑3k=1φkSk(6)
其中,每个通道的权重φk定义为
φk=E-12D(Sk)/∑3k=1E-12D(Sk)(7)
这里, E-12D表示图像二维信息熵[15]的倒数.图像二维信息熵可在图像所包含信息量的前提下,突出反映图像中像素位置的灰度信息和像素邻域内灰度分布的综合特征,二维信息熵越小,图像灰度分别确定性越高,相似灰度级区域也越集中,反之越分散.
本研究用显著图信息熵的倒数来加权每个通道的显著图,是因为一张显著图可看成一张概率密度分布图.一张理想的显著图中,感兴趣区域应该具有较高的概率值,而非感兴趣区域的概率值应该很小,因此,理想显著图的直方图分布会集中于某些特定的值[17].理想显著图的灰度分布更有确定性,根据熵的定义,该显著图的熵值会很小.传统的一维信息熵是基于灰度图的直方图分布来定义,而忽略了图像的空间位置信息.因此本研究用显著图的二维信息熵来计算式(7)中的权重.研究模型对输入图像的不同通道所得到的显著图的示例如图3.
为证明本研究提出的方法在图像显著性检测上的有效性,将该方法与6种不同类别且性能优越的算法,在公开的Bruce[7]、OSIE[18]和MIT[19]眼动跟踪数据库上进行主观和客观的对比.Bruce数据集是图像显著性检测领域中应用最多的眼动跟踪数据集,它包含120张分辨率为511×681的RGB彩色图像,涵盖室内外多种场景,眼动跟踪数据由20名非该领域的参与者通过眼动仪观看图像时记录.OSIE是目前最新的眼动跟踪数据库,包含了700张自然图像及其眼动跟踪数据,其中大部分图像都具有多个显著性目标.MIT数据集是该领域目前最大的静态图像眼动跟踪数据集,包含了1 003张分辨率从405×1 024到1 024×1 024的图像,其中有779张自然风景图像和224张肖像图像,眼动跟踪数据由15名非该领域的参与者通过眼动仪观看图像时记录.
本研究显著性评价标准采用文献[20]介绍的接收者操作特性曲线下面积(area under the receiver operating characteristic curve)、相关系数(correlation coefficient,CC)和标准化扫描路径分析(normalized scanpath saliency,NSS),得分越高表示显著性检测模型的性能越好.
为选择适当维数的DCT系数作为图像块的特征向量,本实验在MIT数据集上随机选择100张图像,用其测试选择不同特征维数和不同图像块分割大小时的评价指标NSS得分.根据经验,当图像块尺寸参数s在0.034左右时,显著性检测效果较理想.因此,当s=0.034时,让图像块的特征维度d在0.1~0.9依次以0.1的步长递增,并计算提出模型得到的显著图的NSS得分.实验中,d在0.2~0.4时NSS得分最高. 为找到更合适的d,实验继续在0.2~0.4之间依次递增0.02改变d. 最终NSS得分曲线如图4(a). 从图4(a)可知,d在0.22时该模型的NSS得分最高.因此,设d=0.22.
图4 不同特征维度与不同图像块尺度时的NSS得分曲线
Fig.4 (Color online)NSS cure with different feature d and image patch size s
确定d=0.22后,将上述随机选择的100张图片作为测试对象,将s在0.01~0.09之间依次增0.01,并计算模型的NSS得分.实验中,在0.02~0.04区间时模型获得的NSS得分较高,为了设定更为理想s值,继续在0.02~0.04依次递增0.002来改变s. 最终模型得出的NSS得分曲线如图4(b), s=0.036时NSS得分最高,因此本研究设s=0.036. 一旦d和s确定,显著性检测模型不需调整其他参数,实际中图像分块的大小能随着输入图像的尺寸变化而改变.
参与比较的6种典型图像显著性检测模型包括:基于图论的显著性检测算法GBVS[6]、基于信息论的信息最大化的AIM检测模型[7]、基于四元傅里叶相位谱的显著性检测模型PQFT[9]、基于小波变换的检测模型Murray[10]、基于内容感知的显著性检测模型CA[8]和基于图像签名的显著性检测模型IS[11].这6种显著性检测算法是目前比较典型模型,其中CA[8]与IS[11]分别是具有代表性且性能最好的基于像素域与基于变换域的显著性检测模型.本研究在实验中都采用原作者提供的Matlab源码,各项参数为原文献建议的最优值.
部分眼动跟踪数据库中的显著图主观比较如图5,图5中左侧两列选自Bruce[7]数据集,中间两列选自OSIE[18]数据集,右侧两列选自MIT[19]数据集.选自Bruce数据集的测试图像中,只有本算法和最新的CA、IS能准确检测到合适的显著性区域,其中,本算法检测到的显著性和确定性最好,与人工显著图的相关性最大.选自OSIE数据集的测试图像中,虽然CA能检测到目标区域,但该算法只是将目标的边缘区域检测处理,与人工显著图相比,只有本研究算法能准确地检测到人眼关注区域.选自MIT数据集中的测试图像中,参与对比的算法虽然都能检测到显著性区域,只有本算法和最新的IS算法检测到的冗余显著性区域最少,且本算法相对IS算法检测的精确度高.从主观对比可见,本算法在显著性检测的准确性比目前最新的典型模型表现更好,并且与人工显著性图非常接近.
为客观对比本研究提出模型与其他6种典型模型的显著性检测性能,采用AUC、CC和NSS评价指标来评估不同模型预测眼动点的精确度,通过实验分别统计了所有模型在每个数据集上AUC、 CC、NSS均值和AUC标准差.上述评价标准的均值越高,表示该显著性检测算法的性能越好; 标准差越低,表示该算法性能越稳定.此外,为证明本研究提出的采用DCT低频系数代替颜色特征作为图像块的特征向量和基于视觉灵敏度的有效性,对比了采用颜色特征、DCT低频系数特征和基于HVS这3种不同组合时模型得到的显著性预测结果.
图5 在人眼跟踪数据库上的显著图主观对比
Fig.5 (Color online)Subjective comparison with visual saliency in the eye-tracking database
模型采用图像块的平均颜色特征作为特征向量时,模型的检测结果记为Color; 只采用离散余弦低频系数作为图像块特征向量时,模型的检测结果记为DCT_L; 采用图像块颜色特征并基于人眼视觉灵敏度时模型的检测结果记为Color+HVS; 采用图像块的DCT低频系数作为特征向量并基于人眼视觉灵敏度时模型的检测结果记为DCT+HVS.此外,本研究对比了6种典型显著性检测模型的检测结果,如表1.
实验结果表明,本研究提出的采用DCT低频系数作为特征向量的检测结果要明显优于采用颜色均值作为特征的模型,而基于视觉灵敏度模型的显著性检测结果也明显优于未基于视觉灵敏度模型.通过对比本研究提出的DCT+HVS模型与目前流行的6种模型的显著性检测结果,本模型的显著性预测精确度要明显高于其他模型.此外,本研究提出方法与6种典型算法的NSS和CC对比结果如图6.从实验结果知,本研究提出的显著性检测模型在所选的3个眼动跟踪数据集上的NSS和CC得分也都比参与对比算法表现相对较好的CA和IS模型要高,这证明本研究提出的显著性检测模型能更准确的预测人眼在图像不同区域的关注度.
在H.264/AVC视频编码标准[21]获得巨大成功后,新一代高效率视频编码(high efficiency video coding,HEVC)国际标准[22] 在ITU-T的VCEG和ISO/IEC的MPEG通力合作下已经开发成功.HEVC的量化机理和H.264/AVC基本相同,即在整数DCT时一并完成的.量化处理实际上就是用量化步长除以变换系数,得到比变换系数更简单的表示.量化是有损压缩编码产生失真的主要根源,因此选择恰当的量化步长,使失真和码率达到最佳平衡是量化环节的关键.HEVC中的量化步长是由量化参数(quantization parameter,QP)来决定,共有52个等级(0~51),每个QP对应一个实际的量化步长.QP的值越大表示量化越粗糙,产生的码率越低,当然带来的失真也越大.HEVC采用了率失真优化的量化(rate distortion optimized quantization,RDOQ)技术,在给定码率的情况下选择最优的量化参数使重建图像的失真最小.
近几年,基于视觉显著性的视频编码模型得到广泛关注,本研究受Hadizadeh等[23]提出的基于视觉显著性的H.264视频编码启发,提出针对视觉显著性应用的视频编码新方法.该方法采用DCT+HVS模型检测所有视频帧的显著图,然后用显著图在基于中央凹恰可觉察失真模型[24]下计算HEVC每个编码单元的QP值.
本研究在Hadizadeh等[25]公开的10段标准视频的眼动跟踪数据库上测试HEVC视频编码性能,视频评价标准采用Li等[26]提出的EWPSNR(eye-tracking weighted peak signal-to-noise ratio)来代替传统的PSNR,因为EWPSNR更接近视频的主观质量评价.为更全面的比较不同编码模型的编码性能,本研究用视频编码领域最常用的P-R曲线图来评价不同编码的性能.P-R曲线的横轴表示比特率,纵坐标表示EWPSNR.P-R图中越靠上的曲线所对应的编码模型性能越好,也就是相同比特率条件下,该模型编码出的视频的EWPSNR越高,编码后的视频失真越小.本研究的HEVC视频编码采用开源的x265[27]作为基本测试代码,基于显著性的HEVC视频编码与传统HEVC视频编码在BUS这段运动的公交车视频上的P-R曲线如图7,从P-R曲线知,本研究提出的方法相对传统的HEVC方法有很大的提高,其他视频编码结果与视频BUS类似.所有10段测试视频的平均EWPSR得分要比HEVC基本模型高0.79 dB.
提出基于视觉灵敏度与DCT低频系数空间加权差异度的显著性检测模型,在自然图像的眼动点预测中获得了很高的预测精确度,不仅在自然图像中表现优越,在新一代的HEVC视频编码技术中的应用上同样获得了明显的视频编码性能的提升.新模型之所以有效,是因为该模型采用了图像块的DCT低频系数作为特征向量,并基于HVS模型来提升眼动点预测精确度.进一步提升基于显著性的视频编码性能是我们下一步的研究目标.
深圳大学学报理工版
JOURNAL OF SHENZHEN UNIVERSITY SCIENCE AND ENGINEERING
(1984年创刊 双月刊)
主 管 深圳大学
主 办 深圳大学
编辑出版 深圳大学学报理工版编辑部
主 编 阮双琛
国内发行 深圳市邮电局
国外发行 中国国际图书贸易集团有限公司(北京399信箱)
地 址 北京东黄城根北街16号
邮 编 100717
电 话 0755-26732266
0755-26538306
Email journal@szu.edu.cn
标准刊号 ISSN 1000-2618
CN 44-1401/N