实现 2030 年人类可持续发展目标,需要开展连续不断、长时间序列的地球表面监测,通过分析掌握环境变化的影响及驱动机制。为此,全球有条件的国家均会开展系列的资源环境监测和观测,为可持续发展决策提供可靠的依据。我国为了摸清全国不同区域的资源环境本底数据,不同部门开展了一系列大规模的综合科学考察,并建设了规模庞大的基础设施与人员队伍,如:依托全国布置 40 余万个地面采集样点定时开展的森林调查;依托全国 2 万多个水文站点开展水文要素的观测。国土部门的土地调查和统计部门的农业普查也相类似,它们需要消耗巨大的人力、物力——世界上只有少数国家能够承担得起如此沉重的财政负担,这也是大多数发展中国家资源环境数据缺乏的主要原因。与此同时,资源环境数据收集过程中,部门分割严重,重复投资现象突出,甚至在同一个部门内会建立相互独立的数据收集渠道和观测网络,有限的资源未能集中使用,这不仅导致数据冗余,而且不同部门间的数据资源更加分散;即便是收集到的资源环境数据也未得到有效的管理;在数据使用时,又多以保密、隐私为由,拒绝将相关资源环境数据进行共享,行保护小集团利益之实,这严重阻碍了资源环境监测与观测对推动相关行业发展的作用发挥。
移动通信技术的迅猛发展使得智能移动终端成为信息获取的新手段,而智能终端内置传感器愈发丰富恰恰成为众源地理数据采集的完美载体。移动互联网时代,每个移动终端每时每刻都会产生丰富的时空信息资源,正形成人人都是地球空间信息员的新局面,催生了包括地理位置、移动速度、移动路径、运动覆盖面、照片等信息在内的海量的众源地理数据。大量对地观测数据对公众免费开放下载和使用,以及云平台的普及,催生了大量的云端资源环境数据,从而改变了传统的资源环境生成方式,给资源环境监测与评估提供了新的数据获取方式。本文结合笔者近 30 年来在资源环境数据方面开展的研究,特别是近几年大数据研究工作,从众源地理数据、云端资源环境数据和云端资源环境专业服务 3 个部分递进式阐述资源环境数据生成的大数据方法及潜力,并对未来的发展方向进行展望;以期能够以新的大数据方法,改变当前资源环境数据的不透明现状,促进科学与业务数据的联结,推动大数据时代资源环境数据获取方式及应用广度的发展。
众源地理数据
众源地理信息是快速获取大量具有地理位置数据的有效手段,主要通过众多非专业人员采集数据,并按照特定标准将众源地理数据汇交至服务器、分布式数据库或云平台的方式。通过这种方式获取的数据被称为众源地理数据(volunteered geographic information,VGI)。
众源地理数据已成为资源环境领域受青睐的数据获取方式。众源地理数据主要来源于大众无意识的采集,采集方不需要根据特定目的,也不需要传统数据采集的专业知识。早在 1890 年,现代通信技术发明之前,美国国家气象局就建立了“公众合作观察者”(Cooperative Observer Program)项目。基于该项目的很多数据集,已经被广泛地应用到了天气监测、极端天气预警和气候变化等科学研究中。此后,“北美繁殖鸟类调查计划”(North American Breeding Bird)利用众源方式长期跨国监测鸟类种群活动,共记录了 400 多种鸟类的分布格局和数量变化。进入 21 世纪以来,随着移动互联技术的发展,智能手机成为人们生活中必不可少的随身设备,而众多不同类型的移动应用程序陆续面世,进一步促进了众源地理数据的发展。
数据众源采集的发展趋势十分迅速,特别是智能手机的普及为众源数据提供了强大的采集手段。如 Fritz 等建立了 Geo-Wiki.Org 网站并发布“GEOwiki pictures”手机应用程序,使得全球的志愿者可以通过该应用上传带有 GPS 信息的照片,以提供森林、草地、农田、水体等生态系统的“众源数据”;借此收集到相关地表覆被信息,用于修正和提升全球耕地分布数据分类质量。GIS cloud、Poimapper、GeoODK collect、FieldMap等众多不同的移动应用程序也被广泛用于众源地理信息采集;ARCGIS 等传统地理信息系统(geographic information system,GIS)工具提供商也纷纷开发出面向移动终端的应用程序,其中Collector for ArcGIS——用户能够使用“自定义表单”“精确定位”“离线地图”“标注地块”及“作物类型”等多样化功能。
众源地理数据为公众提供了众多日常服务。最为典型的例子是地图服务提供商利用手机定位信息确定道路拥堵状况,并实时提供路况研判、最优导航路径更新等信息服务,为公众出行提供了便捷服务。英国的“OpenStreetMap”(OSM)也是基于众源数据采集的理念,创造内容自由且能让所有人编辑的全球范围的地图;注册用户可上传由用户根据手持 GPS 设备、航空摄影照片、卫星影像或其他方式获取的 GPS 路径,并可以使用 OSM 网站的编辑器或其他软件编辑地图的矢量数据,以实现网上地图协同维护的目标。
通过照片可收集很多的信息,如判断地物形状、路径等信息。国内外也发展了很多手机端众源数据的地理数据采集软件,并在这个基础上开展很多应用。例如用于土地覆被的验证数据源,可以为作物生长提供监测信息,也可以为极端气候与气候变化提供预警信息。2015 年以来,全球农情遥感速报团队通过将原有的“GVG(GPS、VIDEO 和 GIS)农情采样系统”桌面端软件升级移植至智能手机端,并在智能手机应用市场对外开放,实现了农作物种植状况照片的随时随地采集。利用该方法已成功实现了农田照片与作物类型的快速采集;每年获得由不同用户在全球范围开展的作物种植结构调查数据记录达 10 万余条,大幅缩减了全球范围作物种植结构信息获取的时间和财力,并为作物种植面积估算与预测提供地面观测大数据支撑(图 1)。2017 年依托该应用程序,在 70 天内,快速高效获取了覆盖全国 1 381 个县级行政单元超过 75 万条作物种植状况地面样本信息,支撑了 2017 年全国水田/旱地及其他土地覆被分区域提取。升级后的“GVG 众源地理数据采集”应用程序采用固定表单的形式,为非专业人员提供不同土地覆被类型标识的解决方案,降低了众源地理数据采集过程的不确定性;“GVG 众源地理数据采集”应用程序改变了过去需要开展全球地面观测或通过数据共享获取地面观测资料的工作模式,在减少地面观测工作量的同时,也大大减少地面观测的人力和财力投入,为土地覆被分类的样本获取提供经济有效的解决方案。该应用程序目前已经可在谷歌、苹果、华为等应用平台免费下载和使用;该应用与云端服务器实时通讯,用户仅需要进行简单的账号验证以后,便可以使用其采集土地覆被、农作物样本等信息;伴随着用户数量的增多,通过该应用程序采集数据时,大数据的意味也越浓。
然而,当前手机照片能提供的信息并没有得到充分的利用,目前的应用只是粗浅的,深度应用还有待进一步开发和发展。随着手机功能的不断强大,嵌入的传感器越来越多,以及内置各种传感器的应用程序越来越多,可测量的信息就越来越多。例如:利用智能手机进行单片测树,包括树高、胸径和材质; Kinect 传感器技术提供的植株冠层三维测量的方法等。这些全新的内置传感器及相应的应用程序使得手机可采集的信息更加宽泛,而有些信息恰恰可以取代当前资源环境领域花费大量人力物力、乐此不疲采集信息的落后方式。众源数据获取方法,由于数据采集更加高效,可获取数据量也将有大幅提升,甚至可以通过海量众源数据克服当前数据采集过程中系统性和代表性不足的弊端,从而实现众源地理数据逐渐替代传统行业部门数据采集的方式;更是大幅提高业务部门工作效率的有效手段,将逐渐替代传统的雇佣、派遣的数据采集方式。公众的参与,避免了业务数据调查过程中的大量投入,并逐渐淡化业务数据的专业性,使得数据走向大众化,实现大众共同参与资源环境管理的新局面。
此外,众源数据采集者的无意识和非专业特点使得众源数据存在不一致性、不完整性等问题,造成众源数据具有一定程度的不确定性。目前的解决办法是,在众源采集进行数据汇交时,通过一种明确的机制和标准规范实现数据的汇集和集中管理,自动对众源数据进行标准化整理与分析。通过固定选项的方式进行数据标识,可以提高非专业人员采集数据的标准化程度,降低数据的不确定,提高数据的有效性。这种策略解决了众源数据的规整、汇聚问题以及数据采集的标准化问题,并大幅降低众源数据的不确定性,提升其可用性;然而这种方式也限制了大众的无意识行为,从无意识的采集数据变成了有意识的数据收集,从而导致众源数据“小众”化,而这一点则是众源数据采集面临的最大问题。
云端资源环境数据
21 世纪以来,随着对地观测数据的爆炸性增长和广泛应用,人类开始对地球实现多尺度、全方位的立体观测,海量多源遥感数据给资环环境监测带来了极大的便利。然而,面对动辄几十、成千上万幅的长时间序列遥感数据,传统计算机的计算模式已经远远不能满足如此大数据量数据的快速处理工作。
随着网络和计算机技术的变革,云存储和云计算技术已经在过去几年得到了迅速发展。相比传统的个人计算机、服务器,云平台具备计算效率高、性能强、可弹性扩展、存储容量大、价格低、数据安全等特点,非常适合用于海量地理数据的处理与运算。地理数据云平台随着自身的普及,通过云平台调用数据的方式,越来越多地成为资源环境数据研究和生产的平台。利用云平台上的高速计算设备,无需将大量数据下载到本地进行计算,即可在云端对数据进行有效处理,并将分析处理后的最终结果提取或下载到本地使用,从而大大提高资源环境数据分析的效率;还可以对更长时间序列、更高的空间尺度对地表资源环境进行分析,摆脱了运算、存储能力的限制。这催生了大量的云端资源环境数据。
2011 年,Google 公司发布了“Google Earth Engine”地理数据云计算平台。与此同时,澳大利亚地球科学院(Australian Geoscience)也于 2011 年提出并开发了云端地理数据处理方案“Data Cube”,并运行在澳大利亚超算平台中,从而实现了对澳大利亚全境的、包括遥感、气象、地面站点数据的一致性数据管理构架。通过平台调用的方式,用户可以在个人计算机上通过浏览器实现对澳大利亚全境的地学数据进行处理与分析。2016 年,澳大利亚将“Data Cube”开源化,完全公开了当前所有数据构架和应用算法,并支持用户构建自己的数据管理与运算系统,因此得到了全球用户的广泛支持。另外,“AWS 亚马逊云”通过公开对地观测数据,共计开放了包括“NASA Earth Exchange数据集”“全球的 Landsat 系列”“Sentinel 系列卫星”“气象雷达(NEXRAD)”“美国农业影像计划(NAIP)”和“数字高程(DEM)”等共计 61 组数据集。借助这些云端对地观测数据,科学家可以方便地在云端开展全球资源环境监测。
云计算和机器学习极大地促进了资源环境监测向高分辨率要素类监测的转变。例如,我国科学家借助“Google Cloud”,生产了 30 m 全球土地覆被产品。欧盟联合研究中心基于“Google Earth Engine”完成了1984—2015 年全球尺度 30 m 分辨率陆表水体空间分布监测。由于陆表水体是区域水资源状况的最直观反映,长时间、可比较的序列数据集为诊断干旱生态系统水资源胁迫程度及其变化提供了十分有价值的信息:欧盟联合研究中心开展了 1975、1990、2000 和 2014 年全球人居用地监测;美国马里兰完成 2000—2016 年全球 30 m 分辨率的森林覆盖的变化监测;美国地质调查局 USGS 采用“Google Earth Engine”与超级计算机,首次完成 2015 年全球 30 m 分辨率的耕地种植空间分布图;中国科学院遥感与数字地球研究所完成 2015 年全球 30 m 分辨率火烧迹地的遥感监测。欧空局针对“Sentinel数据集”,开发“S2ToolBox”工具,可开展空间分辨率为 20 m 的植被叶面积指数(LAI)、植被光合有效辐射吸收比(FAPAR)、植被覆盖度(FCOVER)监测,将生态参数监测提升到与类型监测相同的分辨率,实质性地实现了高分辨率的类型与功能一体化监测。
新的数据源将不断出现,新的分类、识别及分析手段,特别是人工智能(AI)技术的发展日新月异,使得云端的资源环境数据产品高、中、低分辨率齐全,而且中、高分辨率遥感数据种类越来越多,分辨率也越来越高——从过去的公里级,逐渐发展百米级、十米级的数据产品,未来米级的数据产品也必将涌现。全球尺度、更高分辨率的遥感产品生产将成为主流趋势,而且将成为对地观测领域竞相角逐的制高点。高分辨率的云端资源环境数据普及后,科学研究和业务生产之间的界限将大大淡化;依托云端的强大运算能力和公开的数据资源,生产高分辨率的数据产品将逐渐取代以生产数据为己任的专业业务部门的职能。
云端资源环境专业服务
云端储藏的海量数据,以及快捷方便的信息提取,为资源环境问题的发现及专业服务提供了新途径。
云端水资源环境监测
笔者综合 Google 云存储的 2000—2015 年的欧盟联合研究中心水面监测数据集,利用“Google Earth Engine”(GEE),综合利用“哨兵 1 号”雷达遥感数据 VV 极化的后向散射系数、“哨兵 2 号”多光谱遥感数据计算的归一化水体指数,分析 2000—2017 年北京市常年水体面积的变化:2000—2015 年北京市的常年水面面积呈快速下降的趋势,由 2000 年的 515 km2减至 2015 年的 197 km2,累计缩减 318 km2,减幅 61.7%;2015—2017年北京市常年水面面积有所反弹,监测表明 2016 和 2017 年北京市的常年水体面积为 244 和 285 km2,分别比 2015 年增长 47 和 85 km2。基于 GEE 上存储的“热带降水雷达多卫星遥感降水数据”(TRMM),分析了 2000—2017 年北京市降水的变化趋势,发现 2000—2017 年北京市的降水强度呈现波动上升的趋势(图2)。南水北调中线工程的竣工供水,是 2015—2017年北京市水面面积反弹的主要原因。《北京市水资源公报》显示,仅 2016 年南水北调工程向北京供水 10.63 亿立方米。常年水面面积的变化是自然与人类活动要素综合作用下,区域水资源丰枯变化的综合表征,只需利用云端数据就可以监测并评估北京市水资源管理的效果。
云端农情资源监测
要想获取某一个领域的专业信息,需要对云端数据进行抽取、集成与分析,提供专业化的服务。2013年起,笔者团队开发的“CropWatch”利用大数据技术分析不同用户对农情监测与预警信息需求的差异化,面向不同需求的农情信息建立了云服务平台,为不同的农情信息需求者提供不同的农情信息服务,建成了基于公有云的参与式全球自助式农情遥感监测云平台——“CropWatch-Cloud”,包含“全球农情在线生产系统”(CropWatch Pro)、“全球农情在线浏览”(CropWatch Explorer)、“全球农情遥感速报在线分析”(CropWatch Analysis)与“全球农情在线发布”(CropWatch Bulletin)四大模块,实现云端数据的抽取与集成、监测模型处理云端化、数据信息透明化、分析参与开放化以及监测成果公开化的链式无缝集成(图 3)。
基于公有云的“CropWatch Pro”,通过对云端数据的抽取与汇聚,实现了全自动的全球农业气象条件监测、农作物生长状况监测和全球粮食供应形势监测相结合的业务化运行。同时,云平台向用户开放了数据和计算能力,用户可以在系统中运行和测试自己的农情算法,并使用自己的算法生产相关的农情监测产品和农情分析。
“CropWatch Explorer”通过矢量地图、栅格地图、动态图表相结合的方式,用浏览器展示全球农情监测中多种农气、农情、粮食生产形势指标,实现近实时的全球农情在线信息服务。
“CropWatch Analysis”包括创建分析任务、分配任务、在线分析与提交、发布分析报告等功能。使用户在任何时间地点,即可通过互联网设备无障碍的完成感兴趣区域的农情遥感监测与分析,实现全球各国相关专家的远程参与全球农情遥感速报的监测与分析工作,共同编写多语言版全球农情遥感速报,从而大幅提升全球农情遥感速报的全球参与度。
借助容器化服务技术,“CropWatch”封装了体系中所有的农情算法,通过微服务的方式满足用户定制化农情系统的需求。借助这一服务,为“一带一路”沿线国家提供了定制化的农情监测系统,大幅提高这些国家的农情监测水平。
云计算已经越来越多地改变了当前数据存储和处理的方法与理念。与传统的地理信息系统相比,云端专业服务系统的建立、定制、更新与维护的成本显著降低;同时,云平台的特点决定了用户不再需要在下载和处理数据上浪费时间,人们可以在任何时间、任何地点,对世界上的任何感兴趣的区域,进行资源环境的监测与分析,从而突破了以往国界、地域、领域的限制,使得人类第一次可以共同应对人类共同面临的资源环境问题。
展望
云端的资源环境数据产品数量成指数增长,不同于当前的数据大多存储在各个实验室的现状,数据将不再是深藏于生产者的硬盘、部门的档案库里,云端数据让资源环境数据人人触手可及。云端数据的易获取、易对比、易使用的特点,大幅提高了数据的透明度和置信度。
基于众源地理数据和大数据获取资源环境数据的方法将逐渐替代传统的业务方法,并更加有效地服务行业部门,实现了公众对资源环境监测与管理的参与,契合了资源环境是人类共同利益的所在。这将使得现有的资源环境数据获取方法、管理方式与信息价值的挖掘被更加高效的众源和大数据方法所替代,专业机构的数据生产职能也将逐渐淡化,从而大幅提高数据采集效率、信息价值挖掘,并显著降低监测成本。