作者简介:陈娇娜(1989—),女,长安大学博士研究生.研究方向:数据挖掘. E-mail:chenjn@chd.edu.cn
中文责编:方 圆; 英文责编:木 南
1)长安大学公路学院,陕西西安 710064; 2)长安大学电子与控制工程学院,陕西西安 710064
Chen Jiaona1, Zhang Shengrui1, and Jin Yinli21)School of Highway, Chang'an University, Xi'an 710064, Shaanxi Province, P.R.China2)School of Electronic and Control Engineering, Chang'an University,Xi'an 710064, Shaanxi Province, P.R.China
traffic engineering; highway; travel time reliability; probability density estimation; parameter estimation; log-normal distribution; non-parametric estimation; wavelet density estimation
DOI: 10.3724/SP.J.1249.2016.04432
针对传统参数估计方法依赖于事先对总体分布假设的情况,在概率分布簇不确定的前提下,提出一种基于小波密度估计的高速公路行程时间可靠性建模方法.以西安市绕城高速为例,构建了小波密度估计的高速公路行程时间可靠性.实证结果表明,基于小波密度估计的高速公路行程时间分布函数明显优于其他方法.同时探讨了电子不停车收费系统对高速公路行程时间可靠性的影响.
In the situation of an uncertain probability of distribution clusters, the model of highway travel time reliability based on wavelet density estimation is proposed to overcome the shortcomings of traditional parameter methods where accuracy depends on the distribution hypotheses. The results show that wavelet density estimation(WDE)is superior to other methods in highway travel time distribution estimation. Finally, the example verification is carried out on the highway sections in Xi'an of Shaanxi province. The test result shows that the proposed method is effective. In addition, the influence of electronic toll collection(ETC)on highway travel time reliability is discussed.
行程时间可靠性是指给定的起终点之间,出行者能在规定时间内完成出行的概率[1]. 行程时间可靠性已成为微观出行决策和道路性能评价的关键指标,利用不同视角量化行程时间可靠性的研究不断展开. 柏喜红等[2]总结了数理统计、缓冲时间、行程延误和行程时间分布宽度及斜度4个角度的高速公路行程时间可靠性指标及适用性. 降雨[3- 4]、雾天[5]、冰雪[6]及交通事故[7]等因素下对行程时间可靠性影响的研究也逐渐深入,浮动车[8]、车检器[9]和联网收费系统[10]等不同数据源被用于行程时间预测. 行程时间分布估计被认为是量化行程时间可靠性的重要开端. 求解行程时间可靠性的问题,实际上就是求解行程时间的累积分布函数. 科学获得行程时间分布函数是可靠性量化的关键.
在统计学中,常用的概率密度估计方法有参数法和非参数法. 参数法是假定总体服从某种已知的分布,即密度函数的形式是已知的,在目标函数族中寻找特定的解. Bell等[11]认为,当交通量较大时,路径行程时间服从正态分布,交通量不大时,服从对数正态分布. Arezoumandi[12]分析伽马分布、最大极值分布、log-logistic概率分布、对数正态分布及威布尔分布与 18 h行程时间数据的拟合程度,得到可变限速情形下高速公路行程时间的分布服从对数正态分布. 陈琨等[13]分别用正态分布、对数正态分布、伽马分布和威布尔分布对路段行程时间的概率密度函数进行曲线拟合,结果表明对数正态分布的拟合效果最佳. 尹志鹏等[14]基于对数正态分布评价旅行时间可靠性. Michael等[15]认为城市交通行程时间分布服从Burr分布. 侯立文等[16]利用Gram-Charlier分布函数作为城市交通行程时间可靠性的研究手段. Younes等[17]比较了不同交通条件下用于行程时间建模的6种统计分布,分别是Lognormal、 Gamma、Burr、Weibull、复合Normal分布和复合Gamma分布. 张勇等[18]否定了当前行程时间可靠度研究普遍认为的行程时间服从正态分布假设. 参数法依赖于事先对总体分布的假设,而在实际问题中作出准确的假设往往非常困难. 上述研究表明,不同交通状况(交通量和密度)、不同道路等级(城市交通或高速公路)及车辆类型等因素对行程时间分布函数的形式和参数值有一定影响. 对于高速公路行程时间的理论分布没有统一的定论,高速公路行程时间分布规律有待深入研究.
为克服参数模型的基本假定与实际模型之间的差异,杜春燕等[19]对高峰时段的数据拟合正态分布、平峰时段的数据拟合对数正态分布,对大多数不服从常用理论分布函数的路段行程时间,使用Edgeworth渐进级数来近似其概率密度函数和分布函数,进而构建相应的路段行程时间可靠性的计算模型. Yang等[20]使用核密度估计(kernel density estimation, KDE)建立旅行时间分布模型. 由于车辆行驶速度在一个客观的限制范围内,即行程时间的集合是有边界的,受边界效应影响核密度估计值可能会出现一些不理想的情况. 此外,核函数和窗口宽度的选择对计算精度会产生重要影响[21].
近年来小波被不断应用于变点检测[22]、非平稳随机过程[23]等研究. Doukhan首次将小波分析运用于密度函数估计[24],Walter等[25-26]认为小波密度估计在总体逼近效果上优于核密度估计. 一些实证[27-28]和带噪声[29-30]的密度函数小波估计研究相继展开. 戴鸿哲等[31]在结构可靠性分析应用中,验证了小波密度估计性能受初始参数选择的影响较小,且在较少的样本下与核密度估计精度相当.由于小波密度估计具有较好局部适应性和收敛速度,能够较好处理局部不连续或突变的情况,比传统非参数密度估计方法有着一定的优越性[24]. 因此,本研究提出一种基于小波密度估计(wavelet density estimation,WDE)的高速公路行程时间可靠性建模方法,不依赖模型假设或初始参数选择,以精确地反映不确定、复杂及随机的高速公路行程时间分布规律.
可靠性
对于任意x∈R, l, k∈Z, 存在相互正交的尺度函数φ(x)和小波基函数φ(x), 则任意函数f(x)∈L2(R):={f(x)|∫R|f(x)|2dx<∞}均能用小波序列函数表示.
定义φl,k(x)=2l/2φ(2lx-k), 尺度函数描述了f(x)的总体趋势; φj,k(x)=2j/2φ(2jx-k), 小波基函数表现f(x)的局部信息. 则f(x)的小波展开为
f(x)=∑k∈Zαl,kφl,k(x)+∑∞j=l∑k∈Zβj,kφj,k(x)(1)
其中, αl,k和βj,k为小波系数. 要估计密度函数f(x), 可以通过估计小波系数αl,k和βj,k来实现.
随着Donoho小波收缩理论的建立,提出了基于小波系数阈值的非线性小波密度估计,即
f ^(x)=∑k∈Zα^l,kφl,k(x)+
∑∞j=l∑k∈Zθ(β^j,k,λ)φj,k(x)(2)
其中, θ(·,·)为阈值函数; λ为阈值.
密度函数f(x)的小波估计常取为式(2)的截断形式,即
f ^m(x)=∑k∈Zα^l0,kφl0,k(x)+
∑lm-1j=l0∑k∈Zθ(β^j,k,λ)φj,k(x)(3)
其中, m为可调参数; l0为最粗尺度; lm-1为最细尺度. 可见,密度函数估计的优劣取决于分解尺度l0、 lm-1和相应的阈值λ.
假设高速公路行程时间t为概率密度函数f(t)未知的随机变量, t1,t2,…,tn为n个独立同分布的随机样本, f ^(t)为f(t)的小波估计. 在密度函数支撑集的尾部或样本稀疏的区域可能会出现负值,从而密度函数积分不为1. 为保证∫R f(t)dt=1且f(t)≥0, 通常对(f(t))1/2进行估计,然后再变换回来[34],该方法估计的方差具有稳定性.
令g(t)=(f(t))1/2, 分解尺度范围为1~J, 则
g ^(t)=∑k∈Zα^J,kφJ,k(t)+
∑Jj=1∑k∈Zθ(β^j,k,λ)φj,k(t)(4)
考虑密度函数的光滑性,采用软阈值法,得
g ^(t)=∑k∈Zα^J,kφJ,k(t)+
∑Jj=1∑k∈Zβ^j,kI(|βj,k|>λ)φj,k(t)(5)
由式(5)可知,分解尺度J和阈值λ的选取影响g ^(t)的逼近效果. 分解尺度J越大,包含的样本信息量越多,拟合结果的平滑性可能会降低. 阈值λ可以减小细节信息和运算量同时保留有用信息.
Donoho等[32]给出一种分解尺度最大范围和全局阈值的选取方法,即Jm=[lb(n/(lg n))], λ=(2ln n)1/2. Hardle等[26]给出了依赖于分辨率水平的阈值λj=Kmax|β^j,k|, 其中,常数K∈[0.6, 0.8]. Pinheiro等[33]建议选择E ^(j)=∑kβ^j,k以指数增长的初始值为分解尺度J, 阈值过程为θ(β^j,k,λ)=β^j,kI(β^2j,k>kβ-2), β-2=1/m∑β^2j,k, k为常数. 乔舰等[34]详细综述了小波密度估计实现过程中基于不同标准的参数选取方法,同时指出参数的确定不具有普遍适用性. 在高速公路行程时间概率密度函数的小波估计实际应用中,考虑估计精度及运算效率,根据样本容量n确定最大分解尺度Jm, 采用逐一验证法选取最佳分解尺度和最佳阈值规则.
高速公路行程时间可靠度为
R=P{ti≤T}=∑ti≤Tf ^J(ti)=∑ti≤T(g ^J(ti))2(6)
其中, R表示行程时间可靠度; ti表示实际行程时间(单位:s); T表示行程时间的阈值. 根据佛罗里达算法,定义行程时间的阈值为
T=tmedian+Δt=tmedian+δtmedian=
(1+δ)tmedian(7)
其中, tmedian为t1,t2,…,tn的中位数; Δt为可接受的延误时间; δ取5%~20%.
高速公路收费数据包含了入口站编号、出口站编号、入口日期和时间、出口日期及时间、车型、车种及车辆牌照等信息[35],可以较为准确地计算车辆在确定起迄点(origin destination,OD)之间的行程时间. 车辆的行程时间计算公式为
ttravel=ttravel+ttoll≈tout-tin(8)
其中, tout为对应车辆的出口时间; tin为对应车辆的入口时间; ttravel为车辆行驶时间; ttoll为车辆通过收费站所产生的延误. 高速公路运输通常是长距离出行,因此ttoll相对总的行程时间而言可忽略不计.
由于系统故障、人工误操作及特殊驾驶行为等因素,可能会产生入口站编号等于出口站编号、入口站编号或出口站编号不存在、出站时间小于进站时间、车型不确定、行程时间过长等错误数据. 因此,需对原始数据进行预处理,剔除异常数据.
由于突发事件的随机性,交通延误时间上限具有不确定性. 为保留严重交通延误的数据特性,同时避免扩大取值范围后极端行程时间的出现(即车辆行驶速度异常高),采用非对称方法进行错误数据的过滤. 通过四分位法和统计原理相结合的方法,确定有效样本数据的取值范围为G=[tlimit-down, tlimit-up], 即
tlimit-down=t25%-1.5×(t75%-t25%)(9)
tlimit-up=tmean+3σ(10)
其中, tlimit-down为有效数据区间G的下限; tlimit-up为G的上限; t25%和t75%分别表示样本数据的25%和75%分位数; tmean为样本均值; σ为样本的标准差.
考虑到节假日交通需求波动对分析结果的影响,剔除重大节假日期间的数据,数据清洗后将试验样本分为工作日和节假日两类. 考虑高速公路客车与货车限速值的差异,且客车在路网中数量比例较大,选择客车作为研究车型. 选取2015年7月作为研究数据源,清洗后样本量为15 422 187条.
定义均方误差(MSE)、确定系数(R2)、 偏度系数的相对误差(RES)和峰度系数的相对误差(REK)4个指标来衡量分布拟合效果. 其中,MSE用于反映拟合估计值与样本的接近程度; R2、 RES和REK用于说明曲线拟合在解释数据的变异性方面是否成功,样本的分布特征是否得到保留. MSE、RES和REK越接近0,则曲线的拟合效果越好. R2取值范围为[0,1],其值越接近1,曲线拟合的效果越好. 各个指标的计算方法如下:
MSE=∑ni=1|f ^(ti)-f(ti)|2(11)
R2=(∑ni=1(f ^(ti)-f -(ti))2)/(∑ni=1(f(ti)-f -(ti))2)(12)
RES=|(S-S ^)/S|×100%(13)
REK=|(K-K ^)/K|×100%(14)
其中, f(ti)为原始数据中行程时间ti的经验概率值;
f ^(ti)为拟合分布中行程时间ti的概率估计值; f -(ti)为原始数据经验分布概率的均值; S ^为拟合数据的偏度估计值; K ^为拟合数据的偏度估计值.
以路网单位距离行程时间为研究对象,分别随机抽取工作日和节假日中4个不同时段(早晚高峰和平峰),共计2×4×10=80组容量为104的试验样本,根据Donoho方法计算最大分解尺度Jm,比较不同分解尺度、不同阈值方法的拟合优劣衡量指标,确定高速公路行程时间概率密度函数小波估计的最佳尺度和最佳阈值方法.
采用db3作为小波基和Donoho全局阈值λ, 计算不同分解尺度的MSE和E ^(j), 如图 1. 可见,分解尺度J在2~5时,MSE较低且趋于稳定,结合Pinheiro的方法,确定最佳小波分解尺度为5.
采用上述80组试验样本,分解尺度J=5, 比较Donoho、Hardle 和Pinheiro三种阈值的密度估计效果衡量指标,结果见图2. 可见,Hardle方法的MSE、RES及REK较小,且R2较大. 因此,本研究采用效果较理想的Hardle阈值方法.
对于高速公路行程时间分布估计,采用db3小波,选取分解尺度J=5和Hardle阈值方法时得到小波密度估计性能最佳.
通过小波密度估计、核密度估计、正态分布、对数正态分布和极大值分布对高速公路行程时间的概率密度函数进行拟合,分析高峰和平峰的行程时间分布情况,试验样本和估计模型分别如表 1和表 2. 其中,核密度估计中采用高斯核函数,选择最优窗宽hn=(4σ5/3n)1/5. 小波估计的参数选取方法根据2.3节结论确定.
对试验样本分别进行概率密度函数估计,拟合优劣的衡量指标结果如表3. 可见,在参数模型中Log-normal的MSE最小,但均大于Wavelet和Kernel,说明参数估计方法的准确度均不高. 8组样本中Wavelet方法的MSE、 RES和REK最小, 且R2更
接近于1,说明估计准确度最优,且能很好地拟合数据的变异性. 在4个时段中,采用Wavelet方法进行行程时间分布拟合时,工作日10:00—11:00时段的拟合效果最优. 结果表明,采用小波估计行程时间的概率密度函数具有更好的拟合效果,且更接近实际分布的偏态性和峰值.
通过5种模型对表1中试验样本进行高速公路行程时间可靠度估计(δ=10%), 估计值与实际值的绝对误差计算结果如表4.
由表4可知,非参数模型的绝对误差均小于参数模型,Wavelet的绝对误差最小,工作日比节假日的行程时间可靠性估计更为精确. 采用Wavelet方法进行高速公路行程时间可靠性估计时08:00—09:00的绝对误差最小.
采用小波密度估计建立行程时间可靠性模型(δ=10%),分析陕西省路网中路段的行程时间可靠性.选取西安市绕城高速南外环各路段为分析区段,实际路网结构如图 3.图 4为研究区段的抽象表示.
对6个研究区段进行行程时间可靠度计算,并与参数估计方法中常用的对数正态分布进行比较,研究区段的行程时间可靠性结果如表5. 可见,通过小波密度估计方法计算的可靠度较接近实际值,且绝对误差明显小于对数正态分布.中国目前尚未规定行程时间可靠性阈值的标准,故采用可靠性平均水平作为可靠性目标,即将该研究区段的行程时间可靠性阈值设为R=1/n∑ni=1Ri=0.642 3. 可见,Seg.1、Seg.2、Seg.4及Seg.6的可靠度低于平均水平,即未达到目标阈值. 因此该研究区段需要采取相应的措施,以提高道路行程时间的可靠性.
3.3 电子不停车收费系统(electronic toll collection, ETC)对高速公路行程时间可靠性的影响
选取“西高新—长安—曲江” 较为活跃的行驶路径为研究对象,距离为10.5 km,利用小波密度估计得到工作日和节假日07:00—22:00时段ETC和非ETC车辆的行程时间可靠度,即RETC和RNETC, 如图 5. 可见,工作日或节假日RETC始终大于RNETC, 即ETC车辆在各个时段的可靠性均高于非ETC车辆. 工作日的RETC在不同时段波动最小,并能维持在一个较高水平; 节假日各个时段RETC与RNETC的差异比工作日更明显. 可见,ETC是一种提升高速公路行程时间可靠性的有效措施,在节假日期间ETC在可靠性方面的优势显著.
本研究利用小波密度估计近似行程时间分布函数,取得较好效果. 在概率分布簇不确定的前提下,提出一种新的行程时间分布模型估计方法,避免了人为进行分布假设带来的较大误差,可灵活应用于不同等级和不同交通状况的道路. 将该方法用于陕西省高速公路行程时间可靠性评价,结果表明,该方法准确有效. 同时,通过实例分析了ETC对高速公路行程时间可靠性的影响. 对行程时间可靠性阈值标准的研究有待进一步深入.
深圳大学学报理工版
JOURNAL OF SHENZHEN UNIVERSITY SCIENCE AND ENGINEERING
(1984年创刊 双月刊)
主 管 深圳大学
主 办 深圳大学
编辑出版 深圳大学学报理工版编辑部
主 编 阮双琛
国内发行 深圳市邮电局
国外发行 中国国际图书贸易集团有限公司(北京399信箱)
地 址 北京东黄城根北街16号
邮 编 100717
电 话 0755-26732266
0755-26538306
Email journal@szu.edu.cn
标准刊号 ISSN 1000-2618
CN 44-1401/N