研究丨大数据背景下的交通模型发展思考（附PPT全文）_研究

研究丨大数据背景下的交通模型发展思考（附PPT全文）

　　交通大数据的应用在中国已经有20多年历史。随着信息化技术的不断发展和完善，大数据在定量分析决策支持中的作用也越来越大。相对于传统技术，大数据提供了一种全面、连续观察研究对象的手段，为城市交通分析技术带来变革的契机。交通模型是城市交通定量分析的重要工具，探究人、车、物的移动规律，在大量数据的基础上标定模型参数，模拟城市交通特征，进而进行交通需求预测。大数据背景下，面对大量多元化数据，如何从现象探究交通行为的本质，在既有交通模型的理论框架下，根据大数据的特征改进交通模型的方法体系，是交通模型发展面临的极大挑战。本文提出当前大数据应用的若干问题，并探讨交通模型在研发技术上的改进方向。

1、“互联网+交通大数据”促进交通模型发展

　　交通模型的基础数据要求

　　交通模型系统的要素包括基础数据、数学模型、软件工具三个主要组成部分。其中，数据是交通模型的基本原材料，没有数据交通模型就无法建立，数据质量和完整度很大程度上决定了所建交通模型的可靠性和精度。

　　交通模型是反映人、车及货物交通规律的数学模型，需要基于大量、全面的基础数据，并通过严谨的模型理论和数理算法实现。在模型建立过程中，基础数据采集、数据库构建以及数据综合校核分析是最重要的基础工作。交通模型系统运算的核心输入数据主要包括：土地利用及人口、就业岗位分布、综合交通网络数据、基于交通调查的模型参数等(见下图)。这些核心数据作为交通模型的输入条件，直接影响模型计算的输出结果。大数据环境一方面提供更加丰富完善的数据种类，另一方面给各种数据的准确性验证带来新的维度。

研究丨大数据背景下的交通模型发展思考（附PPT全文）

上海市交通规划模型基础数据库

　　“互联网+交通大数据”为交通模型核心数据提供支撑

　　“互联网+交通大数据”时代给交通模型带来丰富的原材料。随着智能交通技术的发展，交通信息的采集手段和来源越来越丰富，为交通模型提供更加全面的原始数据。

　　过去，中国城市主要依靠10年一次的人口普查和5年一次的经济普查获取人口和就业岗位数据。现在，可以使用手机信令调查获得持续且动态更新的人口和就业岗位数据。例如，城市24h的人口分布情况以及就业人口居住地和工作地的空间联系。这是单一的人口普查和经济普查无法实现的。传统的居民出行调查中虽然也可反映被调查者的职住空间关系，但样本量非常有限。

　　综合交通网络数据包括道路网、轨道交通网、公共汽车线网、模型辅助网络要素等。道路网的很多数据已经可以通过互联网得到。一些商业地图提供了完整、及时的道路网信息以及公共汽车线路和车站信息。道路网和公共汽车线网模型数据库构建的工作量巨大且耗时长。随着互联网信息技术及交通模型数据库构建技术的发展，信息来源的准确性及数据库构建的速度得到极大提高。例如，可将网络地图的公共汽车线路和车站数据下载后，形成线路和车站图层，并采用地图算法将线路和车站与道路网链接起来，形成交通模型专用的公共汽车线网数据库。上海市上下行约2500条公共汽车线路，5.7万个车站，原来人工维护需要约150个人日，通过上述方法后仅需10个人日即可完成。

　　交通模型的参数是利用交通调查数据，应用专业的软件进行标定。交通调查数据包括传统的人工调查和信息化技术采集的大数据。大数据为观察现实世界带来更多便利。例如，公交IC卡数据可完整记录轨道交通乘客的站间OD，并反映不同时段的客流情况；公交IC卡数据可通过一定算法推算出通勤者搭乘公共汽车的车站OD；应用车载GPS数据可以获取出租汽车的路段车速、出行OD以及乘客的乘距等；高速公路收费OD实时记录不同车种的出入情况并可推算道路网的拥堵程度；高架路(桥)和地面道路的线圈数据、交叉口数据等为交通模型校核提供有力保障。当然，如何将这些数据和传统调查数据进行综合校核和融合分析，是大数据应用于交通模型的前提。

　　大数据为交通模型的精细化深入研究提供条件

　　大数据的主要特点是采集手段自动化、覆盖面广、规模巨大、具有较细的空间分辨率和时间分辨率等，为交通模型的精细化研究提供了足够的条件。例如，使用居民出行调查数据来标定出行空间分布模型的参数，由于受到调查样本量的限制，通常无法研究较小区域的客流吸引范围分布。使用手机信令数据、车载GPS数据分析商圈、工业园区等区域的出行分布特征，一方面解决了样本量不足问题，另一方面通常基站分区比交通分区精细很多，可从空间精度上满足小区域的分析要求。再如，在分析轨道交通车站接驳距离时，单纯依靠抽样率较低的居民出行调查数据无法获得每个车站较多的接驳样本，根据手机信令数据对应的地铁车站的专用基站信息，便可获知每个车站足够的样本来分析乘客接驳轨道交通的信息。

　　大数据为交通模型提供更多校核信息

　　大数据提供了海量的地图矫正点，可通过自动化手段对传统调查进行融合校核分析。即使是规模巨大的大数据，其分析结果也不可能完整全面，但部分具备确定性的分析结果往往可以被作为参照，用于校核分析。这些零散而准确的结果，可以作为居民出行调查扩样校核的依据。例如，很多大数据可以反映居民出行时间分布特征，包括公交IC卡数据、车载GPS数据和高速公路收费OD数据等。此外，不少大数据可以分析空间分布特征，例如手机信令数据可以分析核查线流量和大区间OD分布，车载GPS数据可以获得出租汽车乘客OD等。

　　在出行目的方面，根据多个城市居民出行调查的经验，非基于家的出行比例往往偏低。漏填漏报的主要原因包括隐私问题以及被访问者不在家而由其他家庭成员代为回答。应用手机信令数据分析人的出行特征时，虽然无法得到出行的具体目的，但可以识别出行是否和家相关，并作为居民出行调查中非基于家出行比例的参考。居民出行调查数据作为建立交通模型最为核心的数据库，在通过大数据扩样校核后，可以较大程度地减少调查中存在的偏差，准确而完整地体现居民出行特征。

2、大数据与传统交通模型的不一致性

　　传统交通模型主要基于传统调查和统计理论与方法。大数据并不专门为交通模型而生，某些统计特征往往是一种副产品，应用于交通模型需要进行多道工序处理。一方面，需要通过原始的海量数据尽可能挖掘有用信息；另一方面，这些有用的信息要和交通模型衔接，才能真正支撑建模工作。大数据与交通模型的一致性问题主要体现在相关定义、市场细分以及信息完整性三个方面。

　　相关定义的不一致性由大数据本身的特点决定，大数据在挖掘过程中有时只能找到传统定义的近似结果。例如，居民出行调查中一次出行的定义，关键指标是出行距离大于400m(各个城市有所差异)，使用公共道路完成一次有目的的活动，并未限定活动持续时间的长短。如果把接送人作为一种出行目的，有时候活动持续时间很短。对应地，手机信令分析一次出行，只能依靠个体的时空电子脚印，按照某个地点的停留时间来判断是否产生一次出行。停留时间的长短设置并没有一个标准值，显然与居民出行调查的出行定义不一致。手机信令分析过程中，若停留时间设置太长，可能遗漏居民出行调查中的一些短时间活动；停留时间设置过短，则容易把一次出行误判为多次出行，例如由于交通拥堵而导致个体在同一空间上的停留。

　　市场细分方面的不一致性与交通模型结构直接相关。传统的人工问询调查虽然样本量小，但可以得到同一样本较多的信息。交通模型构建过程中，一般会根据样本情况尽可能细分市场，体现交通需求的不同特征。例如，上海市交通规划模型结构中，家庭分为有、无小汽车，人员分为6个年龄组，出行目的分6个，交通方式分9种，几个层面的交叉分类，产生较多的细分市场。大数据要直接应用到模型中，其市场细分很难做到与原有模型结构一致。例如，手机信令数据无法获知个体年龄、收入等社会、经济情况，出行目的至多可以区分通勤和非通勤出行，交通方式一般只可以分析出使用轨道交通的情况。公交IC卡能够分析出通勤的车站OD，但对非通勤的车站OD则无能为力。车载GPS数据可以得到出租汽车乘客的OD信息和时段信息，但无法获得乘客的年龄分组、家庭经济情况及出行目的。

　　信息完整性方面既包括前文提到的大数据市场细分不足的情况，也包括大数据在出行过程中信息不完整的情况。例如轨道交通站间OD、高速公路及快速路出入口OD、利用公交IC卡推算的通勤出行站间OD，都仅仅是交通设施之间而不是交通模型中所需要的交通小区间OD。因此这些数据只能部分用于模型校核，而无法作为模型的直接输入数据，数据的应用价值因此大打折扣。为充分利用这些数据，交通模型技术得到不断革新。例如在公共交通模型方面，已有一些专业软件可以通过站间OD估算小区间OD；而道路交通模型方面根据出入口的车辆OD估算小区间车辆 OD 的工具还有待开发。

3、通过挖掘大数据改进交通调查和模型技术

　　手机信令调查、居民出行调查和手机GPS小样本调查技术的综合应用

　　这三类调查数据分别对应大数据、抽样调查数据和小样本调查数据，样本量越小，数据的完整性和精确度越高。

　　居民出行调查数据是现有交通模型必备的数据，主要存在样本量受经费限制而不足、调查中易产生漏填漏报等调查技术手段无法控制的问题，需要其他两类数据的补充校核。手机信令调查对于职住的分析技术已经相对成熟，对通勤出行的判别相对准确，而对其他出行的判别需要根据不同的停留时间参数进行敏感性分析，与居民出行调查数据进行比对。手机GPS小样本调查通过志愿者开通智能手机的GPS功能，先由系统大致判别志愿者的出行空间和活动次序，然后由志愿者上网校核并补充交通方式、出行目的等信息，形成完整的居民出行调查数据记录。这种调查的优点是完整地记录了人的出行活动空间，可以最大限度地避免漏填漏报。但由于调查成本较高，无法大规模展开，一般仅作为居民出行调查中有关漏填漏报校核调整的依据，特别是非基于家的出行。

　　三种调查方式的结果在相互验证的基础上，可以更加准确地反映城市居民的出行活动。

　　应用大数据促进4D模型研发

　　文献[2]提出3D模型，分别代表开发密度(Density)、用地多样性(Diversity)和城市设计(Design)；文献[3]增加目的地可达性(DestinationAccessibility)和至公共交通的距离(DistancetoTransit)，也称5D模型。由于至公共交通的距离可包含在目的地可达性范畴内，故一般称为4D模型。

　　4D模型中，开发密度主要指容积率，用地多样性表现出人口和就业岗位的混合程度，城市设计主要体现在路网形态，例如街区大小和交叉口间距。用地多样性和路网密度直接影响人员活动热度和步行交通方式选择。上述3D因素可以通过传统数据进行计算。目的地可达性指标具有不同的计算方式，包括基于一定时间内覆盖的城市活动要素绝对值，或基于效用理论计算方法等。其核心要素是城市活动要素的度量，即一定时间可达范围内的各种公共设施、人员活动集聚情况等要素的综合度量，过去往往以人口和就业岗位的综合计算来确定。在大数据环境下，各种兴趣点(Point of Interest, POI)数据、百度人流热力图、大众点评网数据、房价网数据等，为城市活动要素的度量增加新的数据源。因此，4D模型中引入大数据分析是可行的。

　　应用大数据改进出行分布的目的地选择模型

　　重力模型在出行分布中应用广泛，除考虑时间、费用等综合性出行成本外，由于城市内区域之间交通需求联系的特殊性，还需要增加K因子来调整区域间的联系程度。但K因子代表的意义很难解释，无法说明居民出行目的地选择的具体因素，与数学公式中的常数项类似。目的地选择模型可以考虑更多的居民出行目的地选择因素，在国外模型中已得到广泛应用。当重力模型中的阻抗函数

　　时，重力模型可以改进为Logit形式的目的地选择模型

　　居民出行活动中，通勤、通学的出行目的地相对固定，就餐、娱乐、购物等出行目的地选择较为灵活，因此具有替代性和互补性。如下图所示，假设居民从家H点出发，希望就餐后购物，A，B两地可以就餐，C地可以购物。若H至三地距离相似，且A，B两地至C的距离相差不多，则A，B具有替代性；若B和C较A和C临近，则在A，B与H距离相似的情况下，由于B，C的互补关系，选择B就餐的可能性将明显大于A，从而满足居民活动次序的需要。

目的地选择场景

　　体育锻炼、就餐、娱乐、购物等各种公共服务设施和人员活动数据等要素是目的地选择模型构建的关键变量。这些因素需要通过各种指标来剖析和探索，并需要应用交通以外的社会、经济大数据辅助分析，例如手机应用软件使用记录、银行消费数据、服务类网站使用数据等。依靠传统的居民出行调查能够获得这类出行数据，但在较小区域内的样本量往往不足。而大数据则可以弥补样本量不足的缺点。但是，如何利用大数据判断出行活动的详细类型及与传统交通模型出行目的分类的关系，仍然是目的地选择模型需要解决的问题。

　　应用大数据改进轨道交通出行接驳模型

　　轨道交通作为城市客流主要通道的交通设施，具有多种交通方式换乘接驳的使用特征(见下图)。换乘接驳包括进站前和出站后，具有多种组合形式。中国城市轨道交通网络客流分析在接驳方式模型水平方面尚有较大地改进空间。建模的主要难点在于两端接驳的组合类型较多、需要考虑接驳的站间OD与交通小区OD客流分配的配套分析功能，以及获取支撑接驳模型参数标定的调查数据。

轨道交通接驳方式复杂性

　　轨道交通网络规模较大的情况下，单纯依靠居民出行调查能够获取的样本量非常有限。专门的轨道交通车站问询调查受调查内容和规模的限制，难以获得完整的接驳数据或确定车站的服务范围。由于地下车站具有专门基站，结合手机信令数据分析车站全方式接驳的出行起点和讫点范围分布是可行的。但有关接驳交通方式的数据则需要结合传统的问询调查和接驳距离来综合判别。因此，改进轨道交通接驳模型的大数据应用需要深入探索。

　　应用大数据加强交通模型的出行成本校核

　　交通模型的出行成本模块，是出行分布模型和出行方式选择模型的基本输入数据，其准确度在模型中具有举足轻重的地位。出行成本模块中，对于步行和自行车、轨道交通等成本的准确计算相对容易，而对随机性较大的道路交通出行时间，依靠延误函数准确计算的难度较大。行驶过程中的延误一般分为路段延误和交叉口信号延误。在交通规划模型中，交叉口信号配时数据输入工作量巨大，一般采用简化方法批量处理计算。由此造成的交通小区间道路交通出行时间的偏差往往难以避免。

　　在大数据环境下，特别是针对浮动车数据和地图信息的应用，可以获得较为准确的路段车速数据及区域间的车辆出行时间。同时，采用网络等时线图可以比较直观地对比交通模型和大数据的路网出行时间。下图是美国北德克萨斯大都会(North Central Texas Council of Governments, NCTCOG)各区域至市中心的等时线，图中虚线和实线是早高峰模型与Google地图浮动车数据的对比。可见，即使是发达国家的成熟交通模型，道路交通出行时间方面的计算仍然存在较大偏差。因此，中国城市交通模型也应适当利用大数据进行校核。

北德克萨斯大都会到市中心的等时线

4、大数据与交通模型的互动发展

　　大数据和传统交通模型都可以独立进行决策分析。大数据可以作为交通模型的基础数据，也可以经过技术处理后直接应用于决策参考。由于很多大数据并不是为服务交通规划决策分析而产生，数据难以直接应用于决策分析，数据的副产品增加了利用难度，所以需要进行一系列的技术处理，实现信息挖掘。传统的交通模型技术过程一般是数据综合、参数标定、结果计算、决策分析，而大数据的技术处理过程一般是特征挖掘、融合分析、关联分析、决策分析。大数据进行特征挖掘及融合分析后，便可作为交通模型数据综合和参数标定的原材料。大数据和交通模型具有互补和促进作用，一方面大数据对模型精度具有促进作用，另一方面交通模型结合大数据可以分析出更多成果，例如通勤距离分布的计算等。

　　一种思潮认为大数据可能颠覆传统调查和模型的技术框架，或者替代传统交通模型的决策分析功能。本文认为大数据和交通模型是共同成长而非完全替代的关系。首先，交通模型具有完整的理论体系，而大数据及其处理技术并没有上升到理论体系的层面。依靠大数据本身的数据挖潜和处理分析，无法在分析理论与方法上突破传统交通模型。其次，大数据本身也存在诸多缺陷，有些分析仍需与交通模型结合。大数据清洗的规则有时并不明确，如何定义异常数据要根据经验判断；大数据的统计结果和传统定义的一致性，也需要做出很多假设和推断并确定一些参数；任何大数据都不可能完整，具有片面性[5]。大数据和交通模型共同成长，一方面要使大数据的分析适应传统交通模型体系，另一方面需要在大数据环境下改进交通模型。

5、结语：

　　交通大数据对人口和就业岗位分布、综合交通网络数据和基于交通调查的模型参数等交通模型核心数据的支撑都起到了较大的作用。大数据为交通模型的精细化研究提供条件，并为交通模型提供更多校核信息。大数据的应用过程中，要从相关定义、市场细分以及信息完整性三个方面判别大数据与现有交通模型的一致性问题，充分了解大数据的优点和缺点，并有效应用于交通模型研发。交通模型需要根据数据的环境变化进行相应修正，例如根据现有交通大数据的特点，可以在交通调查技术、4D模型研发、出行分布的目的地选择模型、轨道交通出行接驳模型、出行成本校核等方面做进一步的改进。大数据和交通模型都可以独立进行决策分析，大数据和交通模型具有互补和促进作用，今后需要互动发展。

以下为全文PPT：