前言:
大数据是一个事关我国经济社会发展全局的战略性产业,大数据技术为社会经济活动提供决策依据,提高各个领域的运行效率,提升整个社会经济的集约化程度,对于我国经济发展转型具有重要的推动作用!2016年,由中国首席数据官联盟与网加时代网发起并承办,北京大学信息化与信息管理研究中心、中国新一代IT产业推进联盟、数邦客协办的"影响中国大数据产业进程100人"大型人物专访活动全面启动,被采访对象分别来自政府、产、学、研、企各个领域,他们将从不同角度,不同层面向大家阐述当前大数据产业热点、难点、疑点问题,为中国大数据产业健康、持续发展探索经验、保驾护航,敬请关注!
第二十九期专访人物:中国首席数据官联盟专家组成员,北京博图纵横科技有限责任公司副总裁石峰
石峰,中国首席数据官联盟专家组成员,北京博图纵横科技有限责任公司副总裁。
本期特邀嘉宾中国首席数据官联盟发起人鲁四海,就智慧城市大数据应用向石峰先生发起提问。
鲁四海:在谈智慧城市大数据应用之前,我想先问一下石总,在您看来,我国的智慧城市发展到什么阶段,面临哪些挑战?
石峰:智慧城市应要从电子政务说起,我国电子政务是从部门、行业信息化率先起步的,形成了"纵强横弱"、"条块分割"和"信息孤岛",自成体系、重复建设问题未能得到根本解决,部门信息壁垒难以突破,由此造成了信息资源难以共享,同时还面临着采集工作量大、数据不一致、数据准确难、数据动态难等问题。因此,政务信息资源共享成为普遍存在的一个老大难问题,长期困扰和制约了智慧城市建设向纵深推进。
按照住房和城乡建设部《智慧城市公共信息平台建设指南(试行)》的标准和要求,把城市公共信息平台建设作为智慧城市重要的基础性工程,深化公共信息跨部门跨层级共享为抓手,整合共享各级政府部门和公共服务机构的公共信息资源,稳步推进城市公共信息平台建设,在提升政府管理和公共服务水平,降低行政成本,提高行政效率,方便市民办事等方面发挥了关键性作用。
鲁四海:您刚才提到,城市公共信息平台是智慧城市大数据应用的重要基础,这个平台将承载多个部门的数据交换共享,可以想象的时数据种类会很多,数据量也很大,同时分布也广,怎么样才能快速找到需要的数据,真正共享起来呢?
石峰:这是一个很关键的问题,如果都不知道数据在哪有哪些数据,这个平台就没有意义了,所以在这个平建设及运营过程中都要注重目录体系和交换体系建设。由于政务信息资源门类多、数量大、分布广、标准不一,在目录体系建设上,很多地方花很大力气梳理部门政务信息目录并建立了目录系统,但因为信息变化大,维护工作量大,而信息应用少,造成信息目录系统只建不管、只建不用现象非常普遍。在交换体系建设上,由于部门分割形成的理念、体制、技术等方面阻力,极少建立了实时、动态的数据交换平台,现有数据也仅仅是一次性拷贝或很长时间交换一次,或者今天交换明天不交换,使得交换的数据是"死数据"无应用价值。
建设思路上不能为建设而建设,应该走应用带动的路子。目录系统建设应该是在数据交换基础上,而交换的数据是在应用基础上,通过应用需求驱动数据交换,通过对交换数据进行梳理、建目和入库,逐步建设和完善政务信息资源目录,从而为政务信息资源共享和业务协同应用提供支撑。通过目录体系的建设,规范政务信息的归集、整合和管理,逐步形成全市政务信息资源共享目录,方便用户发现、定位和共享信息资源;通过交换体系的建设,规范数据交换接口和流程,整合完善全市统一的政务信息交换平台,实现部门间横向按需信息交换。
鲁四海:在您看来什么样的交换机制更适合当前智慧城市发展的阶段?
石峰:首先信息的动态、鲜活是信息共享和应用价值的关键,而实时交换共享机制是保障信息动态、鲜活的关键。实时交换共享机制必须实现:一是要在线自动交换,采用前置机方式,即在部门业务数据库与数据交换中心之间,部署前置交换机,以完成两个数据库之间的在线实时交换。二是交换频次要短,最好实时交换,也可以一天两次或多次,对实时性要求不高的可以一周一次或一月一次。数据交换频次设定根据信息应用具体情况,或者在不影响部门业务数据库前提下与部门协商交换条件。比如:宜昌建设了社保信息网上查询系统,最初商定一天增量交换一次。但市民在查询使用时,对实时性要求越来越高,市民在医院或者药店消费后,需要查询其消费额及医保账户余额,而现有交换频次不能满足市民需要。经过与市人社局协商,将医保消费记录信息和医保账户信息的交换频次提高到5分钟一次。
实时交换共享机制是为信息共享建立长效机制提供了技术保障,同时减轻数据交换维护工作量,数据维护工作人员每天只需对数据交换情况进行监控,以及对异常数据交换情况进行处理。
鲁四海:好的交换共享机制能让数据活起来,那么又将如何来保障数据的质量呢?
石峰:以数据采集为抓手。数据采集是信息共享数据来源之一,部门除了通过日常工作中产生大量业务信息,还在基层采集大量基础信息。如公安部门在社区采集"两实"信息(实有房屋、实有人口),人口计生部门采集全员人口信息,人社部门采集居民信息,民政部门采集社区人口信息等人口基础和人口变动信息。
以人口信息为例:将公安人口信息与计生委人口信息进行数据比对,会发现大量数据不一致问题,就常住人口信息两家大相径庭,原因有的是数据口径不一样,有的是数据采集不准确。而且不知道谁对谁错,将结果反馈给两家部门,都说我的数据没有问题。通过调研发现,各部门在基层开展的数据采集,由于基层工作人员少,而数据采集工作量大、重复采集多,造成采集的数据质量很差,主要是动态更新不及时和准确性不够,其结果是哪家的数据我们都不能作为基础数据来建设人口基础数据库。因此,采用第三方数据采集--网格采集,是解决基层动态采集、多头采集、重复采集的有效路径。
数据质量直接关系到共享的信息能不能用,数据质量问题就是要解决数据不一致和数据准确性,解决方法就是开展数据关联比对和数据核查。但部门之间数据标准不一致、数据口径不一样,其关联比对结果相去甚远。同时,对于不一致或者错误的数据,没有一个部门愿意,也没有一个部门有能力进行核查纠正,原因是核查纠正数据工作量大。因此,采用第三方数据核查--网格核查,是解决数据不一致、不准确的有效路径。
只有通过周而复始的采集交换--关联比对--核查纠正,才能在此基础上建立动态、完整、准确的人口、法人等信息数据库,最终为各级、各部门提供动态、真实、可靠共享信息奠定坚实基础。否则,即使建立了数据库,但不能提供动态、真实、可靠共享信息,不仅得不到部门认可和继续支持,更会陷入信息共享的恶性循环:部门不能共享或者共享信息不能用,部门就不再积极提供或者支持,部门不提供就不能进行关联比对,不关联比对就更不能保障信息的动态、真实、可靠,最后逐步成为"死数据库"。
鲁四海:在您看来,一个完整的城市公共信息平台应该包括哪些内容呢?
石峰:平台总体框架由数据交换与数据处理两部分功能组成。数据交换部分包括:数据交换专网、数据交换管理、交换数据管理。
1.数据交换专网,为确保数据交换的安全保密,以及部门业务数据库的安全运行,在电子政务专网以外,搭建部门和电子政务之间的数据交换专网,数据交换专网与电子政务专网之间采用物理隔离的防护措施。
2.数据交换管理包括:数据交换前置管理和数据交换接口管理。数据交换前置管理主要负责完成部门到中心、中心到部门之间的在线、实时、可靠数据交换传输。
3.交换数据管理包括:基于部门业务数据,建立数据交换元数据管理和目录管理。
数据处理部分包括:数据清洗、数据关联、数据比对、数据核查、数据入库、数据变动、数据应用、数据台帐、数据查询、共享服务等。
鲁四海:您能给我们举个例子说明一下城市公共信息平台应用效果么?
石峰:以宜昌为例,按照"大统一"的模式建设,经过几年艰苦努力,通过城市公共信息平台建设,实现了多部门之间的信息共享,支撑了智慧宜昌应用体系建设,开展了全方位的网格化社会管理与惠民服务,取得了明显的突破和成效,为成功解决这个老大难问题探索了有效途径。
宜昌市公共信息平台中户籍人口、常住人口、流动人口、法人信息等基础信息完整程度较高,覆盖了城区人口和法人信息90%以上。实现了人口、法人、空间地理基础信息25个部门无条件交换,占全部委办局90%以上。人口基础信息无条件交换部门14个:公安、人社、民政、卫计、房管、公积金中心、电子政务(市民查询)、综治(网格采集)、教育、国土、司法、民宗、残联、工会;法人基础信息无条件交换部门9个:工商、质监、地(国)税、住建、城管、环保、水利、食药监、公共资源交易。空间地理基础信息无条件交换部门2个:国土、规划部门。截止2015年8月底,公共信息平台数据总量24.1亿多条(部门交换380数据表,8439数据字段,5.0亿条数据。中心库235表4713字段1.6亿条,历史数据17.5亿条),每天新增入库100多万条。
目前,宜昌18个部门间利用公共信息平台,在公共信息共享利用上开展了业务协同,取得了一定成效。