作者简介:于 泉(1976—), 北京工业大学副教授、博士. 研究方向: 交通控制及智能交通. E-mail:yuquan@bjut.edu.cn
中文责编:方 圆; 英文责编:淡 紫
1)北京工业大学北京市交通工程重点实验室,北京 100124; 2)中国公路工程咨询集团有限公司,北京 100124
1)Beijing Key Laboratory of Traffic Engineering, Beijing University of Technology, Beijing 100124, P.R.China2)China Highway Engineering Consulting Corporation, Beijing 100124, P.R.China
transport engineering; green wave coordinate; intersection correlation; principal component analysis(PCA); radical basis function neural network; traffic flow restoration
DOI: 10.3724/SP.J.1249.2019.03304
为实现对交通流异常数据的有效修复,根据流量-占有率函数模型,利用主成分分析法对绿波协调控制交叉口群中各路口的占有率参数进行相关性分析,间接得到各路口流量相关性的大小,构建相关路口集; 根据相关路口集的历史数据,分别利用流量-占有率模型、径向基函数神经网络模型以及基于两种方法的组合模型,对目标路口的缺失交通流数据进行修复; 通过实例分析验证模型性能.结果表明,与单独流量-占有率模型或径向基函数神经网络模型相比,组合模型可更精确地修复交通数据,在实际数据验证中表现出更好的适应性.
In order to restore the fault data of traffic flow effectively, according to the flow-occupancy function model, we use the principal component analysis(PCA)method to analyze the correlation coefficient of occupancy of each intersection in signalized intersections under green wave coordinated control, and obtain the correlation of traffic flow data at each intersection indirectly. Finally, we construct the relevant intersection set. According to the historical data of the relevant intersection set, we restore the missing traffic flow data at the target intersection by using the traffic-occupancy model, the radical basis function(RBF)neural network model, and the combination model based on the two models, respectively. The performances of the three models are verified on the basis of case analysis. The results show that the combined model can be used to recover traffic data more accurately than the other two models and shows better adaptability in actual data validation.
高质量的交通流数据是准确预测交通状态和实施道路交通管理的基础.然而,在利用检测设备进行数据获取时难免会出现一些问题,如设备固有缺陷、线路故障及数据处理错误等[1],导致数据缺失和错误.若将这些异常交通流数据直接用于预测交通状态和管理分析道路运行状况,会使结果出现严重误差,因此,在应用数据之前,需对交通流异常数据进行有效准确的修复,使其能真实反映交通流状态,为有关部门进行交通管理和控制提供准确可靠的数据基础.目前应用较为广泛的交通流异常数据修复方法,主要有时间序列分析法和空间插值法[2],前者依据交通流参数观测值与时间的相关性对故障数据进行估计,后者以空间维为研究视角,使用相邻地点检测数据来估计缺失数据[3].此外,由于交通流是有人参与的主动系统,具有扰动性强和非线性的特征,相关路口之间也并非严格的线性关系,使传统的线性预测方法不能满足需求[4].目前,对交通参数的研究越来越重视其自身存在的随机性、非线性及复杂性,研究也从最初的线性、单变量及单模型转向非线性、多数据及多模型融合方向发展; 研究范围由原来的仅考虑单一路段或交叉口逐渐转变为综合考虑相关路口[5].
本研究在对交通流缺失数据进行修复时,综合考虑交通参数之间的非线性关系及相关路口之间的内在时空相关性,在路口相关性的基础上,建立新的数据修复方法.
控制交叉口群中的应用
车道占有率(Oc)是指在某一时刻,已知路段上所有车辆的长度总和与该路段长度的比值[6].基于Greenshields提出的速度-密度线性模型,可得流量-车道占有率关系为
Q=-(1 0002a)/(L2)O2c+(1 000b)/LOc(1)
其中, a和b为待标定参数,均大于0; L为斜率; Q为流量,单位为辆/(h·车道).可见,在不受干扰情况下,连续交通流量与车道占用率之间存在抛物线关系,如图1.
当连续交通流受到交叉口的截断,会形成类似锯齿波的间断流.交叉口信号控制一方面对交通流具有截断作用,另一方面非均匀的连续流经过交叉口的聚集后离开,交通流变得更加规整与均匀.
在绿波协调控制交叉口群中,主干道交通受交叉方向车流干扰较小,车流方向的趋同性高,因而交叉口群的车流更加规整和均匀[7].绿波带内的车流处于相邻交叉口中的同一相位和同一流向,在理想状态下,前一交叉口绿灯时间内通行的车流将无阻碍通过后续交叉口.绿波带间的车流方向趋同性很强,虽然有部分车辆会改变运行方向,使车流从原有绿波带跨越到一个新的绿波带中,这部分车流在下游交叉口可能会因相位差而滞留,但考虑车辆在路段的运行时间与绿波带中设置时间偏离,部分车辆可能因早到和晚点而顺利通过交叉口.
基于此,本研究根据信号交叉口服务水平等级的划分要求[6],提出当各路口的单车平均延误小于10 s时,可近似认为车辆以连续流状态通过各路口的假设.因此,在满足一定精度前提下,可利用流量-占有率函数模型对绿波协调控制交叉口群中的路口进行相关性分析.由式(1)可知,当绿波协调控制交叉口群中某路口交通流量数据完全缺失或损坏时,可对路网中各路口车道占有率参数进行相关性分析,结合流量-占有率非线性模型,间接得到各路口车道流量相关性的大小.将与数据缺失路口相关性程度较高的路口组成一个集合,根据相关路口的历史交通数据,实现对数据缺失路口交通流量的修复.
本研究基于流量-车道占有率之间的关系,利用主成分分析法对绿波协调控制交叉口群中,各交通路口的占有率参数进行相关性分析,根据各路口相关性大小,构建被修复路口的相关路口集,然后根据相关路口集的历史交通数据,分别利用流量-占有率模型、径向基函数(radical basis function,RBF)神经网络模型及基于两种方法的组合模型,对交通流量缺失路口的交通流量进行修复(修复模型结构图请扫描文末右下角二维码).
主成分分析的基本原理是设法将原来的变量重新组合成一组新的相互无关的综合变量,并根据实际需要,从中取出几个较少的综合变量,使其尽可能多地反映原来变量的全部信息,即将多变量的大量数据进行提炼,得到最有效的数据,并将多维状态空间降维到二维或三维.分析步骤如下.
步骤1 设参加相关性分析的路口数为n, 选取路口相关性分析指标数据(本研究为占有率参数)为p, 由估计样本的原始数据可得矩阵 X=(xij)n×p, 其中, xij为第i个路口的第j项占有率参数指标数据.对xij进行标准化处理,得到标准化矩阵.
步骤2 根据标准化数据矩阵建立协方差矩阵 R(X)为
R(X)=1/(p-1)XXT=
1/(p-1)∑i=n, j=pi=1, j=1xij xTij=(rij)n×p(2)
其中, rij为第i和第j个路口的相关系数. R(X)反映n个路口彼此间的相关程度,其值越大,说明对数据进行主成分的必要性越大.
步骤3 根据 R(X)分别求出特征值、主成分、主成分贡献率及累计主成分贡献率,确定主成分个数.特征值方程为
|λjE-R(X)|=0(3)
求解式(3)可得特征值λj和正交特征向量 q(j)(j=1,2,…,p).主成分计算为
Zi(j)=qT(i)Xj, i=1,2,…,n;
j=1,2,…, p(4)
其中, Zi(j)为第i个路口的第j个主成分,对应特征值λj即为该主成分的方差,其大小反映了各个主成分的影响力.主成分贡献率为
Wj=λj/∑pj=1λj(5)
其中, Wj为主成分Zi(j)的贡献率; λj为主成分Zi(j)对应的特征值,反映各个主成分的影响力; ∑pj=1λj 为所有p个主成分总方差.累计方差贡献率为
Wm=∑mj=1λj/∑pj=1λj(6)
其中, Wm为前m个主成分的累计贡献率; ∑mj=1λj为前m个主成分的方差和.
选取主成分个数的原则要求特征值之和>1,且如果Wm≥85%, 取前m个主成分即能反映全部n个变量的绝大部分信息[8].据此,将路口按照与被修复路口的相关性大小进行排列,提取相关性较高的几个路口构造被修复路口的相关路口集,然后根据相关路口集的历史交通数据,对缺失路口的交通流量进行修复.
根据统计学原理,利用相关路口集的历史流量与占有率数据,对流量-占有率模型进行回归分析[9],得到式(1)中参数a和b值,然后根据待修复路口的车道占有率数据,通过对流量-占有率模型计算得到车道流量修复值F^-a(t).
将相关路口i在t时刻的流量记为Fi(t), i=1, 2, …, n. RBF神经网络由输入层、隐含层和输出层组成.输入层有n个神经元,分别是t时刻相关路口i的交通流量数据.隐含层可对网络输入做出非线性映射(映射函数即RBF).输出层有1个神经元,为交通流量修复值F^-b(t). 修复模型为
F^-b(t)=Y(F1(t), F2(t), …, Fn(t))(7)
其中, Y(·)表示映射关系.
综合利用流量-占有率模型和RBF神经网络模型的修复结果进行组合修复,即将F^-a(t)和F^-b(t)作为 RBF神经网络模型的输入层,输出层为最终的交通流量修复值,记为F^-c(t). 组合修复模型为
F^-c(t)=Y(F^-a(t), F^-b(t))(8)
为验证模型的修复性能,本研究选取误差(Error)、平均绝对误差(MAE)及平均百分比绝对误差(MAPE)[10]对3种模型进行对比分析.其中,Error数值大小反映修复值与实测值之间的差异; MAE数值大小反映修复值与实测值之间误差的绝对平均数变化; MAPE数值大小可以综合评价整个修复精度的高低.
设F(t)为被修复路口各个时刻的实测数据, F^-k(t)(k=a, b, c)表示通过3种模型得到的各修复值.各项评价指标的计算方法为
Error=F(t)-F^-k(t)(9)
MAE=1/n ∑nt=0|F(t)-F^-k(t)|(10)
MAPE=1/n ∑nt=0|(|F(t)-F^-k(t)|)/(F^-k(t))|×
100%(11)
以中国山西省临汾市中心地区的以绿波协调控制交叉口群构成的小路网为例,进行交通流量修复研究.该路网北起乡贤路,南至贡院南路,西由平阳南街经十字南街至迎春南街,共14个路口,划分为4个绿波带,路口编号及局部路网结构如图2.
对各路口延误进行计算(具体结果请扫描文末右下角二维码),通过计算结果可知绿波协调控制的14个交叉口的单车平均延误均小于10 s,可近似认为车辆以连续流状态通过各路口,因此可利用流量-占有率函数模型对14个路口进行相关性分析.通过调研可知,路口1的交通流量数据完全缺失,采集到14个交通路口30 d内在00:00—24:00中的车道占有率数据,其中,统计时间间隔为5 min,每天共288个数据,因此原始占有率数据共288×30×14=120 960个.应用14个路口连续30 d的车道占有率数据,作为路口相关性分析的指标参数,结合流量-占有率之间的关系,进行路口间相关性评价,建立相关路口集.
根据采集到的数据,整理得到除路口1之外的其余13个交通路口30 d内在00:00—24:00中的交通流量数据,原始交通流量数据共288×30×13=112 320个.本研究以各路口进口外侧直行车道为例进行分析,分别利用3种模型对路口1进口外侧直行车道在2017- 05- 08的交通流量缺失数据进行修复.
根据2.2节给出的主成分分析法,利用各路口的占有率参数,对路口进行相关性分析,可得关系矩阵的14个特征值及相应的贡献率(计算结果请扫描文末右下角二维码); 通过计算各个主成分的贡献率可知,前2个主成分的累积贡献率为87.91%,大于85%,因此取前2个主成分可以反映所有14个变量的绝大部分信息,结果如表1.
分别以主成分1和2为横纵坐标,可在2维空间中将14路口的相关性表示出来,结果如图3.可见,与路口1相关性最大的为路口3和13,因此,选择路口3和13作为目标路口1的相关路口集,根据相关路口3和13的历史交通数据对路口1的缺失交通流量数据进行修复.
通过相关路口集连续30 d的历史流量数据以及车道占有率数据,对流量-占有率模型进行回归分析.取车辆平均长度为6.0 m,可得a=1.18, b=110.36, 将其代入式(1)得
Q=-32 777O2c+18 393Oc(12)
将路口1 2017- 05- 08的外侧直行车道占有率数据代入式(12),得路口1该天该车道的交通流量修复值F^-a(t). 模拟路口1的检测器损坏情况,采用其他检测器对路口1该天该车道的交通流量进行测量,作为目标路口的实测值F(t). 将F^-a(t)与F(t)进行拟合对比,结果如图4.
图4 F^-a(t)和F(t)对比曲线图
Fig.4 The contrast chart of F^-a(t) and F(t)
采用Matlab软件调用RBF神经网络,构建交通流量修复模型.首先,以2个相关路口前20 d的车道交通流数据作为训练样本,利用newrb函数对其进行训练.已知相关路口的交通流量数据采集时间为每天24 h,且数据采集时间间隔为5 min,因此可得训练样本数为2×20×24×12=11 520组.利用上述样本数据对神经网络进行训练,RBF神经网络通过自动增加神经元的方式降低误差,直至满足精度要求(神经网络训练的均方根误差变化图请扫描文末右下角二维码).
采用训练好的网络,利用两个相关路口剩余10 d的5 760组外侧直行车道流量数据对路口1在2017- 05- 08的外侧直行车道交通流量数据进行预测,用预测值实现对数据的修复,最后将修复值F^-b(t)与实测值F(t)进行拟合对比,结果如图5.
图5 F^-b(t)和 F(t)对比曲线图
Fig.5 The contrast chart of F^-b(t) and F(t)
组合模型的RBF神经网络设置同5.2.2,将F^-a(t)和F^-b(t)作为组合模型中RBF神经网络的输入神经元,对路口1在2017- 05- 08的外侧直行车道交通流量数据进行修复,得到修复值F^-c(t), 并与实测值F(t)进行拟合对比,结果如图6.
图6 F^-c(t)和F(t)对比曲线图
Fig.6 The contrast chart of F^-c(t) and F(t)
根据式(9)~(11)分别计算各模型的修复性能,对比结果如表2.可见,3种模型的最大修复误差从大到小依次为:流量-占有率模型的31.31,RBF神经网络的-24.00及组合模型的9.28; 3种模型对应的MAE值分别为4.61、3.82及1.96; 3种模型对应的MAPE值分别为8.91%、7.43%及3.96%.
1)通过对各项性能指标分析可知,3种模型的修复精度依次为:基于路口相关性的流量-占有率模型<基于路口相关性的 RBF神经网络模型<基于路口相关性的组合模型.
2)无论采用哪种指标进行评价,组合模型的修复误差明显降低,使得修复结果更接近实际,证明该方法可更精确地实现对交通流缺失数据的修复.
3)本研究在对路口缺失交通流量进行修复时,假设各路口的单车平均延误小于10 s,并近似认为车辆以连续流状态通过各路口.今后研究中应结合道路交通运行状态,考虑更实际精准的车流运行状态,以提高模型的精度和实用性.
深圳大学学报理工版
JOURNAL OF SHENZHEN UNIVERSITY SCIENCE AND ENGINEERING
(1984年创刊 双月刊)
主 管 深圳大学
主 办 深圳大学
编辑出版 深圳大学学报理工版编辑部
主 编 李清泉
国内发行 深圳市邮电局
国外发行 中国国际图书贸易集团有限公司(北京399信箱)
地 址 北京东黄城根北街16号
邮 编 100717
电 话 0755-26732266
0755-26538306
Email journal@szu.edu.cn
标准刊号 ISSN 1000-2618
CN 44-1401/N