作者简介:李 婵(1992—),女,深圳大学硕士研究生.研究方向:高光谱遥感植被分类.E-mail:13728817048@163.com
中文责编:英 子; 英文责编:木 柯
1)深圳大学海岸带地理环境监测国家测绘地理信息局重点实验室,广东深圳 518060; 2)深圳大学信息工程学院,广东深圳 518060
1)Key Laboratory for Geo-Environmental Monitoring of Coastal Zone of the National Administration of Surveying, Mapping and GeoInformation, Shenzhen University, Shenzhen 518060, Guangdong Province, P.R.China2)College of Information Engineering, Shenzhen University, Shenzhen 518060, Guangdong Province, P.R.China
object spectroscopy; hyperspectral remote sensing; vegetation classification; leaf spectrum; principal component analysis; machine learning; k-nearest-neighbors; support vector machine; random forest
DOI: 10.3724/SP.J.1249.2018.03307
基于农业区域8种植物的叶片光谱数据,提取63种光谱特征变量,并对全波段光谱(原始、一阶微分和包络线去除光谱)提取主成分,分别采用k最近邻(k-nearest-neighbors,kNN)、 支持向量机(support vector machine,SVM)和随机森林(random forest,RF)3种机器学习方法对不同植物进行遥感分类.比较3种方法所得的总精度、训练精度、验证精度及8种植物的生产者精度.结果表明,SVM的分类性能优于kNN与RF; 单一的光谱特征变量识别精度都较低(<50%); 基于主成分分析的一阶微分光谱识别性能优于原始光谱和包络线去除光谱.研究指出,叶片一阶微分光谱与SVM相结合的方法能够准确识别不同植物物种.可为景观或区域尺度的植被遥感分类、精准农业和森林资源调查等提供借鉴.
With the leaf hyperspectral data of eight plant species in the agricultural region, this paper aims to extract 63 spectral characteristic variables and principal components derived from three types of full-spectrum(the original, the first derivative and the continuum-removed reflectance spectrum). We employ three machine learning methods(k-nearest-neighbors, kNN; support vector machine, SVM; random forest, RF)in the remote classification of different plants. Based on the comprehensive comparisons of the overall accuracy, training accuracy, test accuracy and species producer's accuracy, we find that SVM outperforms kNN and RF in vegetation classification, and single spectral characteristic variable has relatively weak classification accuracy(<50%). Moreover, the classification models with the PCA-based first derivative reflectance outperforms those with the PCA-based original and continuum-removed reflectance. This study demonstrates that the combination of leaf-level first derivative reflectance and SVM method can accurately identify different plant species and provide the method and theory basis for the remote classification of vegetation, precision agriculture and forest resource inventory at the landscape or region level.
植物物种的识别与分类对区分植物类别、探索植物间亲缘关系以及阐明植物系统进化规律具有重要意义.目前,在环境污染、滥伐森林、超限采摘和盲目开垦等人类活动影响下,一些植物物种已消失或骤减[1].对植物资源的调查、识别与分类,并建立植物物种数据库,有助于生态环境和物种多样性的保护与恢复.
遥感技术具有监测范围广、速度快、成本低和动态性强等特点,不少学者已采用各种多光谱影像进行植物遥感分类研究[2- 4].但是,多光谱传感器在空间遥感探测中容易出现“异物同谱”的现象,可能影响物种识别的精度.与多光谱遥感相比,高光谱遥感能够提供成百上千个光谱波段,具有更加细致的地物光谱信息,可高效、高精度地识别不同植物物种的光谱差异性,已逐渐用于植物遥感分类领域.姚云军等[5]提出多时相高光谱数据能探测作物在更窄波谱范围内的变化,实现了准确地对作物进行详细分类与信息提取.
基于高光谱遥感进行植物分类的研究主要利用叶片[6]、冠层[7]、机载或星载高光谱数据,对森林植物、草地、湿地植物和农作物等进行识别与分类.为了提高植物物种分类的精度,研究人员对原始光谱进行变换,如一阶微分[7]、包络线去除[7]和小波变换[7-8]等,并在此基础上提取光谱特征变量,如三边参数[7]、吸收特征参数[7]或植被指数; 为显著减少光谱波段之间的冗余度,利用主成分分析(principal component analysis,PCA)[9-10]对高光谱数据进行降维处理,进而提高了植物遥感分类的精度与效率.近年来,越来越多的研究结合高光谱遥感和机器学习方法,如k最近邻(k-nearest-neighbors,kNN)[11]、判别分析[12]、人工神经网络[12]、支持向量机(support vector machine,SVM)[13]和随机森林(random forest,RF)[14]等,进行植物遥感分类,有效提高了植物识别与分类的精度.例如,浦瑞良等[12]选择了30个光谱变量利用非线性人工神经网络和线性判别分析来区分城市区域的11种阔叶树种类,总体分类精度达86.3%~87.8%; 石晶晶等[13]利用支持向量机构建了叶片光谱识别模型,受稻纵卷叶螟危害的水稻最高识别精度达到100%.但是,不同机器学习方法进行植物分类的精度差异较大.另外,以上研究较少关注不同机器学习算法、光谱特征变量和光谱变换进行植物分类的综合比较,难以为研究者推荐合理的方法组合.
本研究基于江苏宜兴农业区域8种植物的叶片光谱数据,提取63种光谱特征变量(三边参数、吸收特征参数和经典植被指数),并对全波段光谱(原始、一阶微分和包络线去除光谱)提取主成分因子,进而综合比较3种机器学习方法(kNN、SVM和RF)对不同植物进行遥感分类的精度,为景观或区域尺度的植物遥感分类、精准农业和资源调查等提供技术参考和理论支撑.
基于随机采样方法,于2010- 08-11—2010- 08-14在中国江苏宜兴市郊的农业区域采集8种植物共95个叶片样本(各物种叶片如图1),包括黄豆11个、玉米13个、茶树11个、樟树10个、枸骨11个、芝麻12个、狗尾草13个和水稻14个.将新鲜叶片样本装入样品袋,置于装有冰袋的样品箱内,采样完毕立即送至实验室采集叶片光谱数据.
在暗室内,采用ASD FieldSpec 3地物光谱仪采集新鲜叶片光谱数据(350~2 500 nm).测定前,将待测光谱的叶片用脱脂棉擦拭干净; 测定时,把单层叶片平整地置于反射率近似为0的黑色橡胶上,设置光谱仪视场角为25°,探头垂直向下正对待测叶片中部,距样品表面15 cm; 光源用光谱仪自带的50 W卤化灯,光源距样品表面50 cm,方位角为60°; 每测定5个样本校正标准白板.为保证测定精度,每个样本采集10个连续光谱数据,取其均值作为该样本的光谱反射率值.
为减少噪声影响,剔除信噪比较低的边缘波段(350~399 nm及2 451~2 500 nm),用Savitzky-Golay滤波方法对95个样本的光谱数据(400~2 450 nm)进行平滑去噪(平滑后的光谱称为原始光谱).为提取光谱特征变量并比较不同光谱变换进行植物遥感分类的精度,本研究对原始光谱进行一阶微分及包络线去除变换.一阶微分变换能减弱背景噪声,增强光谱波段之间的差异性; 包络线去除变换可有效突出光谱曲线的吸收和反射特征.
高光谱波段之间存在强相关性,提取光谱特征变量可减少光谱数据冗余.本研究提取3类高光谱特征变量(三边参数、吸收特征参数及植被指数)对8种植物进行遥感分类.
三边参数可很好地反映植被的光谱特征[15].植被光谱的“三边”是指其“蓝边”、“黄边”和“红边”,描述“三边”特征的参数主要有“三边”的位置、幅值和面积.本研究使用的19种三边参数的定义见表1.
基于包络线去除光谱,提取吸收特征参数,包括吸收位置(absorption position, AP)、吸收深度(absorption depth, AD)、吸收宽度(absorption width, AW)和吸收面积(absorption area, AA).通过观察原始光谱曲线可知,在495、670、970、1 180、1 450和1 930 nm附近共有6个比较明显的吸收谷,故可提取24种吸收特征参数,见表1.
植被指数是对多个光谱遥感数据进行分析运算(加、减、乘、除等线性或非线性组合方式),产生某些对植被长势、生物量等有一定指示意义的数据[16].根据文献[17],本研究选取20种与植被生理生化参数高度相关的经典高光谱植被指数,探究其对所选8种植物进行遥感分类的潜力,各种植被指数的定义见表1.其中, Ri表示波长i处的原始光谱, DRi表示波长i处的一阶微分光谱.
PCA可对高光谱数据进行压缩和降维,显著减少运算量和高光谱波段的高冗余度.本研究对3类全波段光谱(原始光谱、 一阶微分光谱和包络线去除光谱)进行PCA处理,提取主成分,并结合3种机器学习方法对8种植物进行遥感分类.
kNN是一种线性分类器,通过计算每个样本数据到待分类数据的距离,取与待分类数据距离最近的k个样本数据,这k个样本数据中哪个类别的样本数据占得多,则待分类数据就属于该类别[18].
SVM将低维线性不可分样本转化到高维特征空间使其线性可分,基于结构风险最小化,在特征空间中构建最优分类超平面,得到全局最优解[19].
RF是一种将弱分类器组合的分类方法,构成RF的基本分类器是决策树.它利用bootstrapping自助法从原始样本中抽取多个样本,对每个样本进行决策树建模,最终由所有决策树投票决定输入向量的最终输出[20].
基于分层随机抽样方法,每种植物样本随机选择2/3样本作为训练样本,余下1/3样本作为验证样本,因此,植物物种分类模型的训练集共63个样本,验证集共32个样本.基于训练集的单一光谱特征变量(共63个)及全波段原始光谱、一阶微分光谱和包络线去除光谱的主成分因子,分别利用kNN、SVM和RF方法建立植物遥感分类模型,并用验证集验证植物分类的性能.
本研究利用总精度、训练精度、验证精度及8类植物的生产者精度11种分类精度对植物遥感分类精度进行评价.分类精度的计算方法为分类的正确个数与实际个数的百分比.另外,基于11种分类精度采用综合等级分数(0~10)对各个植物遥感分类模型进行打分评价,综合等级分数越高,分类性能越好.打分规则为:精度=0,分数=0; 0<精度≤10%,分数=1; 10%<精度≤20%,分数=2; 20%<精度30%,分数=3; 30%<精度≤40%,分数=4; 40%<精度≤50%,分数=5; 50%<精度≤60%,分数=6; 60%<精度≤70%,分数=7; 70%<精度≤80%,分数=8; 80%<精度≤90%,分数=9; 90%<精度≤100%,分数=10; 总精度、训练精度和验证精度对应权重均为0.2,每种植物的生产者精度对应权重均为0.05,由此计算出每个植物遥感分类模型的综合等级分数.
8种植物的均值原始光谱曲线如图2.由图2可见,它们的曲线形状非常相似,很难区分开来,但仍能通过诊断光谱分析识别出它们之间的细微差异,从而实现对不同植物类型的精细分类.整体而言,8种植被的原始光谱曲线在800~1 300 nm、 1 500~1 800 nm和 2 000~2 400 nm波段内具有显著差异.
如图3,基于单一的光谱特征变量,kNN、SVM和RF三种方法进行植物遥感分类的总精度、训练精度和验证精度均较低(<50%).基于kNN方法,使用63个光谱特征变量进行植物遥感分类的总精度、训练精度和验证精度平均值分别为18.75%、18.17%和19.89%; 基于SVM方法,3类精度平均值增长至24.36%、26.15%和20.83%; 基于RF方法,3类精度平均值分别为20.42%、20.46%和20.34%.
图3 基于机器学习和63个光谱特征变量(实验序号见表 1)进行植物遥感分类的总精度、训练精度和验证精度
Fig.3 Overall accuracy, training accuracy and test accuracy of vegetation classification based on 63 spectral characteristic variables and machine learning methods
基于单一光谱特征变量进行植物遥感分类总精度和训练精度最高的方法组合均为SVM+AP_1180(序号为32,1 180 nm附近吸收位置),精度分别为43.16%和49.21%; 而验证精度最高的方法组合为RF+WP_b(序号为5,490~530 nm内最大的一阶微分值对应的波长),精度为43.75%.此外,基于RF方法总精度、训练精度和验证精度最高的特征变量均为WP_b(序号为5),精度分别为42.11%、41.27%和43.75%.
基于SVM方法,有9个光谱特征变量(序号分别为8、16、18、23、46、53、54、59和62)使得茶树、樟树、枸骨和水稻的生产者精度达到100.00%; 基于kNN方法,仅1个光谱特征变量(序号为36)使黄豆的生产者精度达100.00%; 基于RF方法,序号为5的特征变量使得8种植物生产者精度最大值为92.86%(表2).
对于黄豆和玉米来说,3种机器学习算法中kNN的生产者精度平均值最大,分别为39.54%和33.70%; 对于樟树、枸骨和水稻来说,SVM的生产者精度平均值最大,分别为9.21%、17.60%和53.06%; 对于芝麻和狗尾草来说,RF的生产者精度平均值最大,分别为16.27%和18.19%; 对于茶树来说,kNN和SVM的生产者精度平均值最大,均为24.39%.
对全波段原始光谱、一阶微分光谱和包络线去除光谱进行PCA处理,变量由2 051个降为10个,前10个主成分的累计贡献率分别为99.81%、87.76%和93.98%,基本保留了原来变量的光谱信息.因此,本研究选取前10个主成分进行植物遥感分类是合理的.
表3为利用原始光谱、一阶微分光谱以及包络线去除光谱,经PCA后的前10个主成分,结合3种机器学习方法进行植物分类的总精度、训练精度和验证精度.其中,OR、FD和CR分别为利用原始光谱、一阶微分光谱和包络线去除光谱经PCA后的前10个主成分进行分类.
表2 基于63个光谱特征变量8种植物的生产者精度平均值与最大值
Table 2 Mean and maximum producer's accuracies of eight plants based on 63 spectral characteristic variables %
表3 结合PCA与机器学习算法的植被分类总精度、训练精度和验证精度
Table 3 Overall accuracy, training accuracy and test accuracy of plants classification by combining PCA and machine learning methods %
由表3可知,与单一的光谱特征变量相比,对3类全波段光谱进行PCA后,8种植物的分类总精度、训练精度和验证精度得到大幅度提高,均在60%以上.基于kNN方法,对3类全波段光谱经PCA后进行植物分类的总精度、训练精度和验证精度的平均值分别为70.18%、69.31%和71.88%; 基于SVM方法,对应的平均值增长至90.88%、95.24%和82.29%; 基于RF方法,对应的平均值分别为72.28%、70.37%和76.04%.
总之,最高分类总精度和训练精度对应的方法组合均为SVM+一阶微分光谱,精度分别为94.74%和100.00%; 最高验证精度对应的方法组合为kNN+一阶微分光谱,精度为87.50%.
基于原始光谱,采用3种机器学习方法进行植物分类的总精度、训练精度和验证精度均值分别为77.89%、79.89%和73.96%; 基于一阶微分光谱,对应的均值增至82.81%、83.60%和81.25%; 基于包络线去除光谱,对应的均值分别为72.63%、71.43%和75.00%.
统计基于单一光谱特征变量的8种植物的生产者精度平均值与最大值,结果如表4所示.从生产者精度角度分析,基于kNN方法,使用包络线去除光谱和一阶微分光谱的前10个主成分均使黄豆和茶树的生产者精度达到100.00%,使用3类全波段光谱的前10个主成分均使水稻的生产者精度达到100.00%; 基于SVM方法,除茶树和枸骨外,其他6种植被的生产者精度均达到100.00%; 基于RF方法,使用原始光谱、一阶微分光谱和包络线去除光谱的主成分均使水稻的生产者精度达到100.00%.
对于黄豆、玉米、茶树、樟树、枸骨、芝麻、狗尾草和水稻这8种植被,采用SVM方法的生产者精度平均值均高于kNN和RF方法,分别为90.91%、98.08%、81.82%、87.50%、63.64%、97.92%、96.15%和100.00%.可见,基于PCA和3种机器学习方法的总精度、训练精度、验证精度和8种植被的生产者精度基本满足植被分类的精度要求,其中,对水稻的分类效果整体最好,对枸骨的分类效果整体最差.
按照1.4.2节中植物遥感分类精度评价中的打分规则,对基于光谱特征变量与PCA进行植物分类的11种精度进行综合评价,综合等级分数如图4所示.基于单一光谱特征变量,kNN、SVM和RF三种方法的综合等级分数平均值分别为2.27、2.76和2.42; 而基于3类全波段光谱的PCA,3种方法的综合等级分数平均值依次为7.43、9.38和7.73.
表4 基于PCA的8种植物生产者精度平均值与最大值
Table 4 Mean and maximum producer's accuracies of 8 plants with the PCA-based reflectance %
图4 光谱特征变量和主成分分析结合机器学习方法进行植物分类的精度综合评价
Fig.4 Comprehensive accuracy evaluation of vegetation classification with spectral characteristic variables and PCA based on machine learning methods
对于单一的光谱特征变量,综合等级分数最高的方法组合依次为RF+WP_b(序号为5,分数为4.75)、SVM+AP_1180(序号为32,分数为4.50)和SVM+WI(序号为63,分数为4.20); 基于kNN方法分数最高的特征变量是MSR和PSND(序号分别为51和59).
基于3类全波段光谱的主成分,SVM的综合等级分数均高于kNN和RF,且SVM对应的分数分别为9.65、9.70和8.80.基于原始光谱、一阶微分光谱和包络线去除光谱,3种机器学习方法的综合等级分数平均值分别为8.15、8.62和7.78.另外,基于kNN、SVM和RF方法,使用一阶微分光谱的主成分均使得植物分类精度的综合等级分数最高,分数分别为8.25、9.70和7.90.
本研究利用中国江苏宜兴农业区域8种植物的叶片光谱数据结合3种机器学习方法进行分类,综合比较总精度、 训练精度、 验证精度及生产者精度,发现SVM的分类性能优于kNN与RF.这与杨珺雯等[21]的研究结果相反,基于高光谱影像的实验表明RF分类器优于SVM.导致结果不一致的原因可能是训练样本数量不够,SVM出现过拟合现象.
实验结果表明,单一的光谱特征变量(包括三边参数、吸收特征参数和植被指数)分类效果较差,总体分类精度均小于50%,其中,分类性能最好的光谱特征变量是蓝边位置、1 180 nm附近吸收深度和水体指数.林川等[7]利用选定的8个光谱特征变量进行7种植物生态类型识别,总体分类精度超过85%.本研究选择的光谱特征变量分类性能较弱的原因可能是各种植物叶片光谱之间的差异较小,仅有的几个波段难以表征植物的绝大部分光谱信息,也有可能是所选的光谱特征变量并不是识别物种差异的敏感变量.
对3类全波段光谱进行PCA降维后精度得到大幅提高,可满足植物分类与识别的要求,刘雪华等[9]的研究结果也表明,PCA能对光谱进行有效降维,提高识别效率.另外,基于PCA的一阶微分光谱分类性能优于原始光谱和包络线去除光谱.这一发现与齐浩等[22]的研究结果相似,通过对高光谱数据进行变换可以明显提高植物分类的精度,且一阶微分变换对所选8种植物的分类精度最高.
本研究的主要结论如下:
1)对于农业区域所选8种植物,SVM方法的分类性能优于kNN和RF方法.
2)单一的光谱特征变量分类效果较差,难以满足植物分类的精度需求.
3)基于主成分分析的一阶微分光谱的分类性能优于原始光谱和包络线去除光谱,能够满足植物分类的精度需求.
4)总体而言,叶片一阶微分光谱与SVM相结合的方法对农业区域所选8种植物的分类效果最好.
本研究采用的高光谱数据是基于室内测量的叶片光谱反射率,通过比较不同光谱特征变量、光谱变换和机器学习算法进行植物分类的性能,一定程度上可为研究者提供合理的方法推荐.由于本研究的植物样本有限,一定程度上可能影响kNN、SVM和RF模型的分类精度,在以后的研究中需要进一步增加样本量,并结合机载或星载高光谱影像,充分发挥高光谱遥感技术的优势,以期为景观或区域尺度的植被遥感分类、精准农业和森林资源调查等提供技术参考和理论支撑.
深圳大学学报理工版
JOURNAL OF SHENZHEN UNIVERSITY SCIENCE AND ENGINEERING
(1984年创刊 双月刊)
主 管 深圳大学
主 办 深圳大学
编辑出版 深圳大学学报理工版编辑部
主 编 阮双琛
国内发行 深圳市邮电局
国外发行 中国国际图书贸易集团有限公司(北京399信箱)
地 址 北京东黄城根北街16号
邮 编 100717
电 话 0755-26732266
0755-26538306
Email journal@szu.edu.cn
标准刊号 ISSN 1000-2618
CN 44-1401/N