作者简介:王一宾(1970—),安庆师范大学教授.研究方向:多标记学习、机器学习和软件安全等.E-mail: wangyb07@mail.ustc.edu.cn
中文责编:英 子; 英文责编:木 柯
1)安庆师范大学计算机与信息院,安徽安庆 246133; 2)安徽省高校智能感知与计算重点实验室,安徽安庆 246133
1)School of Computer and Information, Anqing Normal University, Anqing 246133, Anhui Province, P.R.China 2)The University Key Laboratory of Intelligent Perception and Computing of Anhui Province, Anqing 246133, Anhui Province, P.R.China
artificial intelligence; multi-label learning; feature selection; imbalanced data; label correlation; information entropy; label otherness
DOI: 10.3724/SP.J.1249.2020.03234
针对现有的特征选择算法大多未考虑不同标记对样本的描述程度可能存在差异的问题,提出一种不平衡标记差异性多标记特征选择算法(multi-label feature selection algorithm with imbalance label otherness, MSIO),将不同标记下正负标记的频率分布作为该标记的权值加入到特征选择的过程中,并修正传统的信息熵计算方法,从而得到一组更高效的特征序列.以多标记k近邻(multi-label k-nearest neighbor, ML-kNN)为基础分类器,在Mulan数据库的11个多标记基准数据集上,对基于最大相关性的多标记维数约简(multi-label dimensionality reduction via dependence maximization, MDDM)算法、基于多变量互信息的多标记特征选择算法PMU(pairwise multivariate mutual information)、多标记朴素贝叶斯分类的特征选择(feature selection for multi-label naive Bayes classification, MLNB)算法、基于标记相关性的多标记特征选择(multi-label feature selection with label correlation, MUCO)算法和MSIO算法进行评价,实验结果和统计假设检验说明,MSIO算法稳定性佳且分类精度高,具有一定的有效性和优越性.
In view of the fact that most of the existing feature selection algorithms do not consider the possible differences existing in the sample description by different labels, a multi-label feature selection algorithm with imbalance label otherness(MSIO)is proposed. The frequency distributions of positive and negative labels under different labels are added to the process of feature selection as the label weight, the traditional method of calculating information entropy is modified to get a more efficient feature sequence. Based on ML-kNN(multi-label k-nearest neighbor), the features are classified on 11 multi-label benchmark datasets of Mulan database, and the algorithms of multi-label dimensionality reduction via dependency maximization(MDDM), pairwise multivariate mutual information(PMU), feature selection for multi-label naive Bayes classification(MLNB), multi-label feature selection with label correlation(MUCO)and MSIO algorithm are evaluated. Experimental results and statistical hypothesis tests show that MSIO algorithm has good stability, high classification accuracy, and certain effectiveness and superiority.
现实世界广泛存在着多标记学习对象,多标记学习已日渐成为机器学习、数据挖掘和深度学习[1-2]等领域的研究热点之一.这些标记之间并非相互独立的,而是有着一定的关联,如一篇新闻报道可能同时属于“经济”、“体育”和“国家”; 人的面部表情可能同时被“开心”、“激动”和“兴奋”等标记.因此,如何利用标记的相关性构造出泛化性较强的分类器是多标记学习的关键之一[3].刘军煜等[4]通过挖掘标记之间的关联性,提出一种关联规则挖掘的多标记分类算法.何志芬等[5]提出基于多标记分类和标记相关性的联合学习.蔡亚萍等[6]利用标记的局部相关性进行多标记学习和分类.吴磊等[7]通过构建标记的类属属性提出基于类属属性的多标记学习算法.王一宾等[8]通过关联规则分析标记空间并提出一种基于回归核极限学习机的多标记分类算法.例如,在某个实例中,是否有该标记与实例的特征属性密切相关,如“感冒”和“肺炎”都有“发烧”和“咳嗽”症状,但若还有“流鼻涕”症状,则“感冒”的可能性要大于“肺炎”,此现象被称为标记的不平衡性.标记的不平衡性广泛存在于现实世界中,也正是由于标记的不平衡性造成了不同标记对样本实例的描述程度存在一定的差异性,有些标记出现的频率较多,能描述大部分的样本; 而有些标记仅仅存在于少量样本中,但往往这一小部分的标记却包含了很多信息.可见,实例的特征会直接影响到标记的结果,因此,研究特征与标记的相关性十分重要.
传统处理不平衡性标记的方法大多是先通过抽样或重采样将不平衡数据处理为平衡数据再进行研究,但是这种方式常会改变原数据集属性,丢失部分信息,降低分类器的分类精度.若能将不同标记包含的信息加入到分类过程中,则不仅能保留特征空间的原始属性,还能提高分类器的精度.在多标记学习中,为更准确的描述样本实例,往往需要大量特征,且特征越多描述越准确.但随着特征数据的增加,弱相关特征和冗余特征也增多,严重影响到分类器的分类精度,甚至造成误分类.因此,需先对特征数据进行降维.特征选择是一种广泛使用且有效的降维方法,经过解析样本特征与标记之间的相关性,选择出相关性高且冗余性小的特征作为特征子集进行分类训练与预测[9].张振海等[10]提出一类基于信息熵的多标记特征选择算法.刘景华等[11]基于互信息提出基于局部子空间的特征选择算法.LIN等[12-13]通过扩展互信息提出一种基于邻域互信息的多标记特征选择算法,进而又提出一种基于模糊互信息的特征选择算法.
研究发现,在多标记学习中,由于标记对样本的描述存在差异性,即在每个标记下正类与负类出现的频率不一样,这种标记频率分布可为多标记学习的研究提供一定的辅助信息,从而提高分类的精度[14].本研究提出一种不平衡标记差异性多标记特征选择(multi-label feature selection algorithm with imbalance label otherness, MSIO)算法,首先计算标记空间中,记录每个标记下正标记(正类)样本和负标记(负类)样本出现的频率分布,并作为相应标记的权值保存在权值矩阵中; 其次,考虑到标记空间中的标记包含一些辅助信息结合信息熵设计相应的度量方法以度量特征与标记之间的相关性; 最后,根据所构造出的模型提出不平衡标记差异性多标记特征选择算法.在11个常用公开数据集上与5个常用的多标记特征选择算法[15]对比,证明MSIO算法可提高分类器的分类精度.
多标记学习是一种针对实际生活中普遍存在的多义性现象的学习框架,在此框架下,样本由多个特征和多个标记构成,学习目的是将未知的实例对应上更多正确的标记[16].
假设T是由n个特征组成的特征集合T={t1, t2, …, tn}, L是由m个标记组成的标记集合L={l1, l2, …, lm}, 在标记集合中,有该标记为1,否则为0,则含有z个样本的多标记数据集表示为
DataSet={(Ti, Li)|1≤i≤z, Ti∈T,Li∈L}(1)
定义1[11] 若X={x1, x2, …, xm}为随机变量, xi的概率为p(xi), 则X的不确定性期望为
H(X)=-∑mi=1p(xi)lb p(xi)(2)
H(X)亦被称为随机变量X的熵,其值越小表示X的期望和不确定性程度越小.
定义2[11] 设随机变量X={x1, x2, …, xm}和Y={y1, y2, …, yn}, 则X和Y的联合熵为
H(X,Y)=-∑mi=1∑nj=1p(xi, yj)lb p(xi, yj)(3)
定义3[11] 设随机变量X={x1, x2, …, xm}, Y={y1, y2, …, yn}, 则Y在X条件下的条件熵为
H(Y|X)=-∑mi=1∑nj=1p(xi, yj)lb p(yj|xi)(4)
H(Y|X)可用来度量Y在给定X时的不确定性程度.
定义4[11] 若X和Y为已给定的随机变量,则定义X与Y之间的互信息为
I(X; Y)=-∑mi=1∑nj=1p(xi, yj)lb(p(xi, yj))/(p(xi)p(yj))(5)
I(X; Y)用于衡量随机变量X和Y的相关性, I(X; Y)越大,表明X与Y之间的相关性越大.同时,互信息还满足以下关系
I(X; Y)=H(X)+H(Y)-H(X,Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)(6)
在多标记学习中,一个样本由多个特征和标记描述,则特征与标记集合之间的互信息可定义为:
定义5[11] 对于给定描述样本的特征 f和标记集合L={l1, l2, …, lm}, li∈L, i=1, 2,…, m, 若特征 f与标记li之间的互信息为I(f; li), 则特征 f与标记集合L之间的互信息为
IML(f; L)=∑mi=1I(f; li)(7)
由I(f; li)≥0可知, IML(f; L)≥0. 当f和L相互独立时,等号成立,此时特征与标记之间不提供任何信息,即该特征与标记空间互信息为最小值. 互信息值越大, 特征与标记之间的关系越密切.
同理,式(8)和式(9)成立.
IML(f; L)=IML(L; f)(8)
IML(f; L)=∑mi=1H(li)-∑mi=1H(li|f)(9)
根据式(9)可得,若
IML(f; L)=∑mi=1H(li)(10)
则表明标记集合L可完全由特征 f确定,两者的不确定度之和取得最大值.
在多标记数据集中,常因标记的不平衡性导致不同标记对样本描述程度有所不同,而目前多数算法并未考虑这种情况.为此,本研究根据标记空间中的每个标记下的正负样本个数对标记赋予权值,建立标记权值模型,具体定义为:
定义6 给定样本空间U={x1, x2, …, xz}, 其特征空间T={t1, t2, …, tn}, 标记空间L={l1, l2, …, lm}. 对于li∈L, i=1, 2,…, m, 样本总数为z, 在第i个标记下的正标记和负标记数目分别为|l+i|和|l-i|, 权值为ω+i=|l+i|/z和ω-i=|l-i|/z.
对于传统的单标记运用互信息进行特征选择过程中,假使用两个特征 f1和 f2对样本进行刻画,则对于特征与特征之间的冗余性用I(f1; f2)进行有效表示; 倘若样本的特征用给定的 f表示,样本的类别标记用l表示,则对于特征与标记类别之间的相关程度用I(f; l)进行有效表示.而在现有的多标记学习中,各个样本可用1个特征向量来表示,也可能隶属于多个类别标记,同时,充分考虑到标记权值模型下的各样本所含有的有用信息,因此需对加权特征和标记集合之间的相关性进行更深层次的探究.定义7给出了加权特征与标记集合之间的互信息定义.
定义7 对于给定样本空间U={x1,x2,…,xz}, 标记空间L={l1, l2, …, lm}, li∈L, i=1,2,…,m, 由定义6和式(7)可知,加权特征 f与标记之间的互信息为
IML(f; L*)=1/m∑mi=1ω*iI(f; li)(11)
其中,“*”可为“+”(正标记)或“-”(负标记),则ω+i和ω-i分别为定义6中的正负标记的权值.
考虑到标记对样本的描述存在一定的差异性,为使描述的样本实例更准确,同时也为了更充分地挖掘存在于少量样本中但包含众多有用信息的一些标记,首先计算标记空间中同一标记下正负标记的权值; 其次,利用加权信息熵度量特征与标记空间之间的相关性,并由此得出两组不同的特征重要度排序; 最后,将两组重要度不同的特征进行融合排序,得出最终特征序列.MSIO算法伪代码如图1.
分析图1的算法可见,MSIO算法先通过统计标记空间中类标记下的正负标记密度,然后计算标记空间与特征空间的相关性,并按照标记密度对特征进行赋权得分输出两组序列,再按照一定关系对两组序列加权得出最终序列.此方法简单易行且运行快速,既考虑了多种因素,又能有效提高分类器的分类精度.MSIO算法流程图如图2.
采用Mulan数据库[16]中11个常用的公开实验数据集(表1),来验证算法MSIO的有效性.
表1 多标记数据集[17]
Table 1 Multi-label datasets[17]
利用平均准确率(average precision, AP)、排位损失(ranking loss, RL)、1-错误(one-error, OE)和海明损失(Hamming loss, HL)4个评价指标[18]对多标记实验实验结果进行验证和评价度量.
测试集为{(xi, Yi)}mi=1Rd{+1,-1}L. 其中, Yi为隶属于样本xi的相关标记集合,经算法预测得到的标记集合记为h(x); 符号表示维度相乘.根据预测函数 fl(x)定义排序函数为rankf(x,l)∈{1, 2,…,L}.
AP为评估预测标记排在前列且正确存在于相关样本标记的平均概率,如式(12).该值越大表示分类效果越好,最优值为1.
AP(f)=1/m∑mi=1(1/(|Yi|)∑l∈Yi((k|rankf(xi, k)≤rankf(xi, l), k∈Yi))/(rankf(xi, l))))(12)
其中, Yi为隶属于样本xi的相关标记集合.
RL用于评估无关标记在相关标记的样本前列的多少,如式(13).该值越小表示分类效果越好,最优值为0.
RL(f)=1/m∑mi=1(1/(|Yi||Y^-i|)|{(l, k)|rankf,(xi, l)≥rankf(xi, k),(l, k)∈YiY^-i}|)(13)
其中, Y^-i为集合Yi在标记空间中的补集.
HL用于衡量样本在单一标记上的非正确匹配情况,如式(14).该值越小,分类效果越好,最优值为0.
HL(h)=1/m∑mi=11/L|h(xi)≠Yi|(14)
其中, Yi为隶属于xi的相关标记集合; h(·)为分类器,即可得xi的预测标记向量.
OE用于衡量最高排序中样本的标记不存在于相关标记集合中的情况,如式(15).该值越小,表示分类效果越好,最优值为0.
OE(h)=1/m∑mi=1{[arg maxl∈L f(xi,l)]Yi}(15)
在4个评价指标中,除去AP值越大越优,其余的越小越优.
本研究实验代码均在Matlab2016a中运行,硬件环境Inter CoreTM i7-7700HQ CPU @ 2.80 GHz,8 Gbyte内存; 操作系统为Windows 10.以多标记k近邻(multi-label k-nearest neighbor, ML-kNN)[19]作为基础分类器,对基于最大相关性的多标记维数约简(multi-label dimensionality reduction via dependence maximization, MDDM)算法[20-21]、基于多变量互信息的多标记特征选择算法PMU(pairwise multivariate mutual information)[22]、 多标记朴素贝叶斯分类的特征选择(feature selection for multi-label naive Bayes classification, MLNB)算法[23]、 基于标记相关性的多标记特征选择(multi-label feature selection with label correlation, MUCO)算法[13]和MSIO算法的AP、RL、OE和HL值进行排序.其中,MDDM算法按照参数所选择的不同分为MDDMspc与MDDMproj算法.由于MDDM、PMU、MUCO和MSIO算法得到的是一组特征序列,于是设置特征子集的个数与MLNB算法一致,并设ML-kNN中的平滑系数s=1, 近邻个数k=10. 表2至表5列举了6种算法在数据集中的AP、RL、OE和HL值.
表2 六种算法在11个数据集中的平均准确率排序1)
Table 2 Average precision ranking of 6 algorithms in 11 datasets
表3 六种算法在11个数据集中的排位损失排序1)
Table 3 Ranking loss of 6 algorithms in 11 datasets
表4 六种算法在11个数据集中的1-错误上排序1)
Table 4 One-error ranking of 6 algorithms in 11 datasets
表5 六种算法在11个数据集中的海明损失排序1)
Table 5 Hamming loss ranking of 6 algorithms in 11 datasets
1)MSIO算法在4种评价指标中的最优数目和平均值均位列第1,且在Art、Computer、Rec和Ref数据集中的所有评价指标均优于其他算法.
2)在AP指标上,仅MUCO算法在部分数据集上占优,但最优的Cal500数据集也仅提高了2.15%; 在RL指标上,6种算法各有千秋,其中,在Emotions数据集中MDDMspc算法占优最大,为11.12%; 在OE和HL指标上,最优的分别高7.46%和3.58%.
图3为6种算法在不同评价指标上的箱型图.由图3可见,6种算法在4种评价指标上展现的分类性能对比中,MSIO算法在箱形图中的中位数表现明显占优.可见,MSIO算法稳定性更好的,且分类精度更高,性能优于其他特征选择算法.
运用统计学知识,对在11个数据集上的实验结果进行显著性水平为5%的Nemenyi统计假设检验,若在所有数据集上两个对比算法平均排序的差低于临界差(critical difference, CD),则认为它们无显著性差异,否则,认为这两个对比算法有显著性差异.本研究设显著性水平α=0.05, qα=2.850(第k个对应数), 算法个数k=6, 数据集个数N=11,则
CD=qα(k(k+1)/6N))1/2=2.274(16)
图4给出了各个算法在不同评价指标下的对比.坐标轴上的刻度描述了各种算法在不同指标中的平均排序,轴上数字越小,表明算法性能越优.不同线型相接的算法表示在性能之间无显著性差异.由图4可见,MSIO算法排名除在RL指标上比MUCO稍微逊色,在其余指标中均明显较优.
通过对不同标记在样本空间的描述程度存在一定的差异性的思考,结合信息熵的相关知识,提出一种不平衡标记差异性特征选择算法MSIO,通过不同标记下的正负标记权值修正传统的信息熵,由于加入了标记空间的信息,使选出的特征具有更加丰富的信息.在多组数据集上的多个评价指标中,MSIO算法性能都优于目前多数的特征选择算法.但是,MSIO算法在进行特征选择时仅考虑了特征与标记的相关性,而未对特征空间本身进行冗余性约简,这也是下一步的研究方向.
深圳大学学报理工版
JOURNAL OF SHENZHEN UNIVERSITY SCIENCE AND ENGINEERING
(1984年创刊 双月刊)
主 管 深圳大学
主 办 深圳大学
编辑出版 深圳大学学报理工版编辑部
主 编 李清泉
国内发行 深圳市邮电局
国外发行 中国国际图书贸易集团有限公司(北京399信箱)
地 址 北京东黄城根北街16号
邮 编 100717
电 话 0755-26732266
0755-26538306
Email journal@szu.edu.cn
标准刊号 ISSN 1000-2618
CN 44-1401/N