1 引言
随着经济社会的发展,城市人口持续增长,数量持续增长的车辆给交通基础设施通行能力带来极大压力。交通拥堵、交通事故、环境污染及能源短缺已成为目前面临的重要问题,尤其在高速公路交通管理尤其变得更加明显。如何有效利用传统的高速公路数据与设备,提高交通运输效率、安全性、整体效益,提高交通的科学管理和组织服务水平是管理者迫切需要解决的问题。
车辆在高速公路上,本身的动作及设备会产生海量数据,在没有大数据平台之前,高速公路上产生的数据分门别类的分布在Oracle、MySQL等数据库中,因为各自处理语言不同,在刚使用时分析速度尚且可以,但随着数据量越来越多,查询调用越来越频繁,速度变得越来越慢,无法满足高速管理需求。
2 高速公路数据产生
高速公路的信息化建设包含从基建到信息记录等多个层面。所有的环节都在不停地产生数据,成为智慧高速中的海量数据来源。首先是高速公路的硬件和基础设施,当一辆车开进收费站,先经过地下预埋的地感线圈,经过地板线圈进行切割磁力线,产生很弱的电流,车辆开进来会由定焦在地感线圈的摄像机拍一张图片,产生车辆进入收费站的第一个数据。继而递交收费卡、读卡、写卡,写卡的同时计算从A点到B点的费用,每一个动作都在产生数据。高速公路收费还涉及更加复杂的情况,如起点A到终点B,中间经过三段高速公路,三段的收费主体不同,需要在收费的金额上进行三个收费主体的拆分,这涉及到后台的数据计算。所以一辆车从进入收费口到驶离收费口,至少会产生两张图片,十余条流水数据,同时还会产生车道摄像和停位摄像等大量的视频信息。
产生大量车辆数据的同时,收费员的动作,如按抬杆键、放行键、军车键等,也会产生数据记录,方便后续稽查时的图片分析,避免逃费等行为。设备本身也会产生大量数据,比如抬杆、打票、红绿灯转换,全部都会产生日志信息进入数据库,这还只是收费相关的数据信息。在看不到的地面上,还会存在很多信息采集系统,比如地磁式传感器、摄像头,检测车辆通过时的平均速度、平均车间距和平均占有率等等信息,大量数据都会进入数据库,进行后续的存储分析。一辆车在驶离高速公路时,已经产生了大量的数据信息,其中包含结构化和非结构化数据、流数据等多种数据形式。
3 大数据平台架构设计及数据处理
高速公路上产生的海量数据,需要一个企业级的大数据平台,对数据进行分门别类的存储管理,TDH企业级一站式大数据平台,以分布式架构对数据进行存储和计算,并在此基础上进行数据处理和应用。
3.1 大数据平台架构设计
数据进入大数据平台,上游业务系统中的数据,通过文件交换或Sqoop方式同步到大数据平台的贴源层,然后经过批处理加工后,形成明细层、汇总层和模型层。对于历史数据,比如收费站入口流水表和出口流水表,选择存储在Search引擎中,可以进行快速的历史数据检索。对于非结构化数据,例如图片和视频影像,选择存储在Hyperbase引擎中。
同时,为了提高大数据平台的数据质量,使用Governor管理元数据(包括表和存储过程),监控所有数据的更改历史,进行数据血缘分析和影响分析。对上层的基于大数据平台的应用,可以使用标准的JDBC或ODBC与大数据平台进行连接,对数据挖掘需求,如节假日车流量预测、高速路拥堵程度预测等,可以图形化拖拽机器学习平台Sophon组件进行预测。
3.2 高速公路的数据存储及处理
高速公路中产生的车辆动作和收费员动作、信息采集系统等产生的海量数据都进入大数据平台进行存储和处理。这些结构复杂,形式多样的海量数据,对数据存储和处理提出了很高的要求。
大数据平台支持兼容Oracle 、DB2 、Teradata数据库/数据仓库SQL方言,可以轻松的将数据从传统架构中进行迁移,所以方便应用研发人员利用这一特性实现数据处理核心的升级换代。同时,TDH支持低延时和高吞吐的实时计算场景,可实现基础结构化数据、非结构化数据和流数据的存储,并随时无缝扩容。大数据平台基本架构在于,对全省高速路网监控收费运营数据进行采集和整合,进入数据中心,基础数据库经过大数据平台处理形成专题数据库,然后将路网设备设施等资源统一融合,形成GIS和视频支撑平台,继而在集成平台以GIS和视频平台做支撑形成五大应用系统相互协作,最终在终端设置,如监控中心的监控大屏、会商室显示、普通的监控工作站、移动终端等设备上进行展示和发布。
高速公路大数据由几个大的部分构成:高速收费数据主要应用于收费管理、风险管理、运营优化;监控设备数据主要应用于视频监控、运营管理、指挥调度;交调设备数据主要应用于基础采集、运营管理、指挥调度。交通数据尤其是视频数据和图像数据,在一个省份数万个摄像头下,以TB量级甚至PB量级增长,数据量巨大,在大数据平台支撑下,完成平滑扩容和查询分析等业务应用。
4 智慧高速中的大数据应用
4.1 大数据平台的处理
大数据平台把实时数据,包括高速公路上的收费、监控等实时数据上传,与传统业务数据进行整合,包括一些城市交通等外联单位的历史数据。将各类结构化、非结构化、半结构化的数据,包括监控图像、抓拍信息、收费日志和视频等信息,进行数据集成、数据转换处理,然后各自建模分析,形成专题数据,把专题数据应用到相应的应用系统中,提供支撑。
4.2 主要应用方面
大数据在高速中的应用主要包括以下几方面:
(1)客户服务。在ETC用户管理与车辆引导中,主要使用Apriori算法进行关联分析,提供客户增值服务和精准信息推送,同时满足客户关系管理的要求。可以根据客户的车辆迁徙路线等分析,进行相关的路线信息推送等。
在ETC用户管理与车辆引导中,基于客户历史迁徙路线和商品购买历史,运用高维矩阵分解方法,发现客户购买偏好和潜在需求以及出行规律。当客户通过ETC时,实时拍照识别鉴定客户之后,基于客户车辆历史通过卡口数据,调用训练好在线数据挖掘模型,可以以大数据可视化的方式显示出来客户迁徙路线,并预测出客户未来迁徙线路,进而进行精准的地点线路信息推送。
路线迁徙的可视化和路线预测的建模过程如下:
利用大数据可视化方法,不仅可以详细每个车辆在地图上车辆行驶轨迹,而且可以显示所有车辆的运行总线路。例如春运年前的时候,可以看到小轿车大部分都是从北上广深流向中西部城市,年后的时候大部分车辆向北上广深汇集。再者,某个客运或者货车司机的路线有其固定的运行线路。路线预测建模过程如下:
基于客户信息、车辆信息、车辆通过何时通过卡口数据历史数据,利用关联分析和高维矩阵分解方法,找到车辆和卡口进出对应关系,预测客户在下一段时间会通过的卡口,进而预测车辆行驶轨迹,从而提供精准的信息推送。
(2)运营优化。通过流式机器学习实现时效分析,提前预警,协同各单位指挥调度;在进入大数据平台之后,通过数据分析,可以通过高速公路热点视频查看,进行自动推送;建立领导驾驶舱,设定流量排名,为优化运营提供决策依据。
通过流式机器学习实现时效分析,提前预警,协同各单位指挥调度;在进入大数据平台之后,通过数据分析,可以通过高速公路热点视频查看,进行自动推送;建立领导驾驶舱,设定流量排名,为优化运营提供决策依据。基于sophon的在线的流式增量机器学习算法,开发时空深度残差网络(ST-ResNet)预测车辆密度。例如把高速公路,划成很多个矩形小区域,多个区域同时分析,它是一种整体性的预测。主要基于平滑性、周期性以及趋势性等三个个时间属性 以及空时间属性和外部天气数据。
第一,模拟局部相邻时刻。它是一个平滑的过程,比如中午三点跟中午四点流量变化不会很大。
第二,模拟周期性。把对应时间点昨天、前天、近一周平均、近一个月平均这个时刻的数据,作为输入,来刻画周期性。
第三,模拟趋势性。把当前时间点更远点(前推半个、一个小时)的时间点(例如昨天、上周、上个月)的数据,模拟趋势性。
第四,抽取空间属性。利用深度卷积神经网络,把一些地区划成子区域之后,相关的区域做会做卷积运算并合并,通过卷积之后,抓住了这个区域周围的车辆流量的相关性。这样卷积多次之后,相当于把更远相关区域的属性的影响都聚合到一起了。
基于这四个结果,系统再做一个融合。第一部分融合,就是只考虑它的时间和空间属性。再考虑外部因素,比如最近的附近天气数据拿做第二次融合得到最终结果。
(3)稽查分析。通过在Inceptor中对原始交易流水费分析,提供逃费稽查、出入口流水对比等异常行为的分析服务。
通过在Inceptor中对原始的交易流水统计分析,抽取车辆逃费稽查和出入口流量相关历史特征,具体有,车辆最近一周、最近一个月、最近半年的缴费信息,缴费卡口每天每个时间点的出入流量信息。
利用discover模型融合方法,融合时序预测模型和异常检测模型,效果较单独一种方法提升1.6倍。具体实现如下:
首先,利用discover大数据分布式自动的时序预测方法,预测此卡口的当前流量,并和当前实际的出入情况对比,如果当前流量少于预测流量,则可能有逃费稽查情况出现;其次,利用分布式异常检测算法iforest和无监督算法深度自编码器检测数据异常,发现行为诡异车辆,业界先进的iforest和深度自编码器算法可以自动异常检测此种逃费稽查的车辆,会和平时它的缴费习惯不同,也会和其自前所属群体的习惯有所偏离,综合的偏离程度月的,逃费的概率越大。最后,利用非线性模型融合的方法,融合时序预测模型和异常检测模型两者的优点,能更准确的定位异常行为的车辆,为车辆稽查分析提供智能。
(4)联合指挥。通过各项数据在Inceptor中的汇总和分析,综合呈现各相关数据,形成联合指挥。基于应急资源管理、路网交通协同调度、应急预案管理、处置效果评估、无人机监控等模块,实现交警、消防、路政等多部门联动响应,为各类交通事件条件下的路网协同控制和诱导管理提供可视化管理界面和决策支持。
(5)应急资源调度。借助Inceptor的大规模数据处理能力,整合传统的应急资源设备与资源,协同建立最优化的调度。应急指挥调度系统可以采取“挂图作战”的形式进行,有效地保证在出现特殊情况时可以采取科学的应急措施,积极、快速、有序地处理各类事件,保障高速公路的正常、安全运行,实现应急指挥、应急资源和应急过程的信息化管理。
(6)预测预警。扩充传统全面风险管理的数据维度,在交通预警等角度分析,提前告知用户。根据往年节假日各收费站流量统计数据,通过分析算法对本年节假日流量做出预测并进行排名。预测值是否超过对应收费站设定的报警门限,可以根据颜色分级进行预警。根据历史通行数据对车流量进行分析和预测,为节假日高峰时段的安全畅通发出预警、提前采取保畅措施,为高速路网的安全畅通提供保障。
基于对各收费站实时数据的分析结果,可以对平日车流量按站点、小时/天分别进行统计得到时间序列,ARIMA是做时间序列预测较为成熟的模型,分别对该时间时间序列采用ARIMA自回归进行建模,然后对未来一个周期的数据进行预测。ARIMA全称为自回归积分滑动平均模型,可以记作ARIMA(p,d,q),其中p为自回归项,d为差分阶数,q为移动平均项数,通过ARIMA模型可以对收费站某个时段流量进行预测与应用,从而提升对车流量的预测预警。
(7)资产管理。结合Inceptor和workflow,实现交通设备资产全生命周期管理,包括设备故障预测、质量分析等;通过设备监控专题,可以对高速公路外场设备如车检器、摄像机、气象站、情报板、GPS车辆及无人机等进行基于GIS地图的一体化监控;点击设备图标即可查看各种设备的状态、数据及图像。
结合Inceptor和workflow,实现交通设备资产全生命周期管理,包括设备故障预测、质量分析等;通过设备监控专题,可以对高速公路外场设备如车检器、摄像机、气象站、情报板、GPS车辆及无人机等进行基于GIS地图的一体化监控;点击设备图标即可查看各种设备的状态、数据及图像。
基于新老设备的历史数据,建立设别的寿命预测,可以大大降低故障率,及时对故障进行预警,并及时更换设备。抽取样本从当前状态到达设备不能使用或者故障的状态所经过的时间作为样本标签,设备的各种温度、电压、电流、功率、脉冲,表面数字清晰度、当前个指标的误差等作为特征,从而基于这些的建立训练数据,训练一个GBDT模型。经过交叉验证,证明此寿命预测模型的精度高于90%。
总体来讲,通过Slipstream的流式处理,Inceptor的复杂逻辑数据加工,Discover和Sophon的数据挖掘和分析,可以及时、高效、全面地对高速场景和业务进行深度优化处理,为“智慧高速”的构建提供了强有力的支撑。
5 结语
现在,在平台上的技术应用与数据分析已经发展到集合机器学习和深度学习阶段,应用中算法模型也会不断根据新的数据进行迭代学习。同时,随着物联网建设的推进,产生更多海量的数据,数据处理和应用的价值将得到进一步体现。高速公路的数据将和更多的行业数据打通进行跨界应用,让高速公路更加“智慧”,并应用到实际的场景中。