摘 要:数据治理能力不足是当前政务大数据建设应用中的突出难题之一。针对政务大数据治理中存在的问题,分析了政务大数据治理的特点、目标和需求,在此基础上,结合数据治理技术理论和政务大数据治理实际场景,提出了一个政务大数据环境下的数据治理框架设计,以期对组织开展政务大数据治理工作和构建政务大数据治理体系提供实践参考。
一、引言
随着大数据时代的到来,全球数据规模呈现爆发式增长,据国际数据公司(IDC)监测,全球数据量大约每两年翻一番,预计2020年有望达到35ZB[1]。大数据蕴含巨大价值,世界各国政府和组织对此有高度认识,纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手,积极推动实施大数据技术的研发和应用落实[2]。
我国政府也高度重视发展大数据技术,将大数据上升为国家战略之一。2015年,国务院发布了《促进大数据发展行动纲要》(国发〔2015〕50号),将政务大数据放在主要任务的第一位,明确提出要着力推动政府数据开放共享利用,提升政府治理能力。在政策引导和市场驱动下,国内政务大数据建设快速发展,各级政府积极探索政务大数据应用,且取得一定成效。但总体上,在推动政务大数据建设应用中,还存在不少问题,数据治理“难”就是其中之一。数据治理“难”主要表现在:对政务大数据治理目标、内容和场景把握不准,缺乏统一标准规范,技术手段单一,数据治理成效达不到预期等。因此,深入研究数据治理技术,探索政务大数据环境下的数据治理体系构建,对解决政务大数据治理的难题,落实国家大数据战略具有重要的实践意义。
二、相关概述
(一)政务大数据
狭义上,政务大数据是指政府所拥有和管理的数据,包含自然信息、社会主体信息、城市建设信息、社会管理信息、以及服务与民生消费类信息等。广义上,政务大数据是政府掌握的数据在公共服务领域的应用实践,即政府将自身的业务数据和收集的外部数据进行汇集、治理,开展数据共享交换、开放、交易以及业务协同等。
(二)政务大数据治理
⒈治理概念
由于切入视角和侧重点的不同,业界对数据治理的定义各有不同,至今未形成一个统一标准定义。这里从三个层次角度,给出治理的概念定义:
第一,宏观层面。从体系架构上看,大数据治理是对单位或组织的数据管理和数据利用进行评估,形成一个指导和监督的体系框架。它通过制定战略方针、建立组织架构、明确职责分工等,实现大数据的风险可控、安全合规、绩效提升和价值创造,并提供不断创新的大数据服务[3]。
第二,中观层面。从治理计划和策略上看,大数据治理是广义信息治理计划中的一部分,即制定与大数据相关的数据优化、隐私保护与数据变现的政策[4]。
第三,微观层面。从治理程序上看,大数据治理是描述数据在其生命周期内如何变得更有用的组织策略或程序。
另外,在数据治理实践中,常从数据价值和数据管理的角度作如下定义:大数据治理是针对数据资产管理而建立的数据规划、整合和控制体系,是站在数据中心全局之上定义的数据质量、安全、服务和开放标准,是依托元数据和控制权限进行的技术元数据和业务元数据管理。
⒉治理目标
综合各种数据治理概念的内涵和外延,可将大数据治理的总体目标归纳为:围绕数据的使用,建立数据标准规范和管理机制流程,保证数据质量,提高数据管控水平。在政务大数据环境下,数据治理的目标如下:
第一,提升数据质量。通过统一标准,强化检核,确保数据的可用性和安全性,为实施政务数据的共享应用做好质量保障。
第二,促进数据融合。以应用为导向,对政务数据进行集成,实现政务数据资源的充分融合。
第三,规范数据流程。通过统一的规范,使得数据加工处理的流程更规范、有序。
第四,发掘数据价值。通过关联比对,在数据的关联关系中发掘更多的数据价值。
⒊治理体系
大数据治理体系贯穿于整个数据生命周期,通常由组织架构、标准规范、流程机制和功能软件等四方面内容组成。
第一,组织架构管理。定义数据治理所需人员组织的岗位和职责,形成工作管理机制,保障数据治理内容的落实和执行。
第二,标准规范。基于国家和行业标准,制定数据治理标准规范体系,包括数据标准、质量标准和技术规范等。
第三,流程机制。针对数据的使用操作、权限控制和问题处理等,制定规范的数据管控流程机制。
第四,功能软件。是指数据治理软件,提供可视化、智能化的治理平台或工具,实现便捷、高效和自动化的数据治理。
需特别指出的是,除了上述四个方面,大数据治理体系还要有配套的法律法规支撑。只有从国家法律和标准上充分界定大数据的资产定位、管理机制、共享开放原则和范围等,才能形成全面标准的大数据治理体系。
三、政务大数据中的数据治理需求分析
(一)政务大数据特点
从数据治理的关注点来看,政务大数据具有以下三方面特点:
第一,数据规模大,价值高。数据规模大是大数据的典型特征,政务大数据也不例外。我国是个大国,既是人口大国,又是陆地大国、海洋大国,还是贸易大国、能源消耗等大国。无论从哪个纬度看,我国都具有庞大的基数,由此决定了我国政务大数据的规模庞大。以省级数据共享为例,保守评估可共享的政务数据规模达PB级。另外,政务大数据汇聚各级政府部门的业务数据和相关公共数据,记录着社会主体活动的方方面面,具有巨大的价值。
第二,数据类别多,来源广。政务大数据记录了社会活动的全部,形成了种类繁多的信息类和数据项,例如《江苏省省级政务信息资源目录(2017版)》统计显示,全省72家省级政务部门产生6000多类数据,约13万个数据项。除类别多外,政务数据的来源范围也广,既有数量众多的各级政府部门,还有水、电、气等公共企事业单位,以及互联网。
第三,数据格式杂,质量不高。由于区域和行业信息化发展水平的差异,各数据源头单位记录数据的格式种类多样,有各种数据库类型和电子文档格式,还有纸质文档。因此,政务大数据中存在各种格式的数据。同时,因为缺乏统一的数据标准,政务数据普遍存在质量问题,常见的有数据重复、数据错误、数据缺失等。
以上这些特点,使得政务大数据的治理要求高、难度大,须从技术和管理两方面建立跨层级、跨地域、全方位的数据治理体系。
(二)政务大数据治理存在的问题
随着国家大数据战略的深入落实,特别是国家政务信息系统整合共享和政务服务一网通办等工作的实施,各级政务大数据平台建设加速,政务大数据共享交换取得积极成效。但总体而言,政务大数据的建设和应用还存在许多不足,具体到数据治理方面,主要问题如下:
第一,缺乏统一数据标准。长期以来,我国政务信息化建设普遍存在“各自为政、条块分割、烟囱林立、信息孤岛”等问题,由此导致数据标准管理分散,数据标准执行力度差。这给跨层级、跨平台的政务数据整合共享造成较大的困难,是政务大数据治理中数据重复、数据不一致、数据难以聚合等难题的根源。例如,因数据定义缺乏统一,工商注册登记的企业类型有22类,而税务登记中的企业登记注册类型有60类。
第二,数据质量问题突出。数据质量管理是政务大数据治理的核心内容,也是难点之一。政务大数据来源于各级政务信息系统,是各类政务信息资源的聚合。实践中发现,因为在各政务信息系统建设和运行中,对于数据质量的重视程度不高,数据质量把控不严,导致数据错、重、漏现象频现。特别是对同一数据作多源整合关联时,出现大量的不一致问题,这给数据处理和应用带来难题。
第三,数据管控程度不高。政务大数据建设的最终目标是促进政务数据应用,最大程度发挥数据价值。因此,在当前政务大数据的治理中,人们普遍重视数据应用,围绕应用中出现的数据关联、质量管理、业务协同等进行数据治理,而忽视数据治理体系中的管理机制、控制能力以及安全与隐私保护等。
第四,治理机制流程不健全。在政务大数据环境下,数据治理的主体趋于多元化,即一个数据治理流程往往需要多方参与。例如,在数据质量管理中,问题数据的发现、反馈、修正是一个多方参与的闭环流程,参与方包括:政务数据中心(数据治理方)、数据源头单位(数据提供方)、数据用户(数据使用方)等。这种多方协同治理的业务模式,对政务大数据治理制度和流程机制提出了更高要求。
第五,技术支撑不足。政务大数据治理体系的技术支撑需要涵盖大数据管理、存储、质量、共享与开放、安全与隐私保护等多个方面,当前相应的技术研究关联性和系统性还存在欠缺,都是侧重于点,而在整体上将技术关联起来还有问题。[5]具体来说,以金融或电信运营商行业为典型代表的传统数据治理技术,是以基于主数据、元数据、数据规范的数据仓库管理系统,可实现特定领域和类型的应用级数据质量管理。但无法满足政务大数据环境下的海量、异构、多源、全格式(结构化、半结构化和非结构化)数据的治理需求。
(三)政务大数据治理需求分析
针对政务大数据治理中存在的问题,汇总各种治理场景,就政务大数据治理框架提出以下基本需求:
第一,建立政务大数据标准规范。围绕数据中心各基础数据库,建立元数据标准、主要实体的数据元标准、数据分类编码标准、数据质量标准,以及数据处理流程规范等。
第二,建立全面数据质量管理体系。在政务大数据整个生命周期中,建立贯穿数据采集、处理、融合、应用等数据质量控制体系,满足问题数据“发现-反馈-修正”的数据质量闭环管理。为促进数据质量提升及设计质量评价体系提供量化自动数据质量评判和报告。
第三,建立数据治理可溯机制。围绕建立快速发现并解决问题数据的数据质量闭环控制体系,深度挖掘分析问题数据,在数据建模阶段引入必要的数据质量控制字段,实现对问题数据的源头可追溯和反馈,相关基础功能点包括:精确定位问题数据的产生源头单位,给出问题的所属分类及解决方案建议,以问题数据工单的方式反馈源头单位并跟踪问题的解决处理。另外,给出问题数据闭环控制的工作流程机制。
第四,建立数据质量检核引擎。一是要引入机器学习、模式识别等技术,建立数据质量检核引擎,支持对结构化和非结构化数据的检核;二是要构建较为齐全的数据检核规则库,支持对结构化、半结构化和非结构化数据进行正则检核、函数依赖检核、自定义函数检核、文本识别检核等,实现深度数据质量技术检核;三是要支持对关系型数据库和主流非关系型数据库中数据的检核;四是基于主数据和核心数据项,进行业务数据检核(业务检核结果支持人工干预)等,从业务和技术两方面确保数据质量;五是要能以API接口、SDK函数包等多种方式,对外提供数据质量检核、检测和分析服务。
第五,实现数据治理可视化。提供数据治理可视化功能,并将其集成到统一可视化运维平台中,实时展示数据质量监测、分析、质量考核等情况。
四、面向政务大数据的数据治理框架设计
(一)总体框架设计
根据政务大数据治理特点和场景需求分析,从政务大数据应用创新的角度,提出一个数据治理框架设计(参见图1),整个治理框架由9部分组成。
图1 政务大数据治理总体框架
⒈大数据生命周期管理
数据生命周期是数据治理的时间轴,数据治理服务于数据的全生命周期。因此,完善的数据生命周期管理是确保数据治理有序、全面的前提条件之一。在政务大数据领域,数据生命周期管理又分为两类,一类是技术层面的数据周期管理,指按照数据加工处理时序(数据建模、数据处理、数据调度、数据销存)而建立的时间里程管理;另一类是业务层面的数据周期管理,指按照业务流程时序而建立的时间里程管理。
⒉数据源管理
以数据资源目录的功能形式,提供对待治理的数据源的管理。在功能模块上,数据源管理由两类功能组成:一是数据源部门相关的组织机构管理功能,二是数据源的目录、格式类型和交互周期等资源属性管理功能。从数据源提供的数据类型上看,政务大数据治理的对象包括结构化数据、半结构化数据和非结构化数据,以及来自互联网的数据等。
⒊主要技术支撑
政务大数据治理中所用的主要技术包括数据检核引擎、ETL工具、消息中间件、流程引擎、Hive和MPP DB等。相对于传统数据治理技术,专门引入了Hive和MPP DB等大数据领域的数仓工具,代替传统数仓中Oracle、MySQL等关系型数据库,以满足大规模数据的治理效率要求。另外,要特别强调的是,数据质量检核引擎的设计最具技术含量,也最为重要,它直接决定了数据检核的能力和数据质量的把控程度。因此,质量检核引擎的设计要充分响应上文中的需求分析,体现技术先进性、功能完整性、覆盖全面性、检核深度性和使用便捷性,实现良好的数据质量检查和核对功能。
⒋贴源层治理
贴源层治理又叫近源治理,是指在最贴近数据源头的一侧,对数据进行建模、标准化和技术检核方面的治理。贴源层治理的要点如下:
第一,数据建模时,须按照对业务属性的影响程度,区分主数据和一般数据,以满足数据实体在业务流程、数据质量控制方面的不同要求。主数据是指对业务影响至关重要的数据,如来自工商、民政、编办的法人登记信息;反之,则为一般数据。同时,也要按照记录属性对数据实体识别的影响,为每个属性设计权重,区分核心和普通属性,以满足深度数据质量控制要求。
第二,数据标准化是指按照元数据或数据元标准规范,对汇集的源头数据(以下简称源数据)进行格式转换、字典映射,进行初步的数据规范。
第三,数据检核是数据质量控制的核心举措,根据是否存在业务相关性,又分为技术检核和业务检核。其中,数据技术检核是指对数据进行不涉及业务的检查和核对。即按照数据质量标准,使用数据检核引擎,对源数据进行格式、值域、重复度、完整性、准确性等质量校核,以最大程度地发现、排除问题数据,为后续质量控制打下坚实基础。
第四,数据质量考核评价是贴源层治理的主要输出结果,通常这个结果以数据质量报告的形式输出。数据质量报告由标准规范体系中预先定义的质量评价指标组成,用于反馈数据治理相关方,触发数据质量控制的相关业务流程。
⒌中心层治理
与贴源层治理相对应的是中心层治理,即在贴源层治理和数据资源中心之外的其他治理内容。中心层治理的内容包括数据关联、数据融合和数据业务检核,它们具有一个业务相关的共性特征,即治理内容与数据所属业务领域密切相关。中心层治理的要点如下:
第一,数据关联是指基于业务主数据,将各相关数据模型串联起来,形成实体的一个全息数据画像,并通过相关属性,将这种数据间的关联关系保存起来。数据关联对于政务大数据应用实施具有决定性作用,通常可关联的数据,才是实际可用的数据。
第二,数据融合是指在数据关联的基础上,将同类数据去重后聚合,把“一数多源”变为“一数一源”;或者将同一个实体的不同数据片段,构建形成新的、更完整的数据描述。数据融合通常面向特定应用场景,是数据应用中最为常见的数据操作之一。
第三,数据业务检核是基于数据的业务属性进行的业务逻辑合规性检查核对。业务检核是数据质量检核中不可或缺的部分,与技术检核同等重要。以个人身份证号数据为例,技术检核仅能做到身份证号长度、格式、特定位值(地区编码、年龄)等的合规检查,而不能识别该号码的真假;业务校核则是通过把该号码与身份证登记机关的数据库相比对,确认出号码的真假。
⒍数据资源中心
形成数据资源中心是数据治理的结尾环节,进入数据资源中心的数据被认为是标准、合规、正确、可直接应用的数据。在政务大数据治理体系中,数据资源中心阶段的数据治理,侧重于数据资产的形成和管理,以及数据集的存储划分。在本框架中,以数据资产目录来统领数据资产的管理;以面向数据实体的基础数据库和面向应用的主题数据库,统一存储治理后的数据。
⒎数据标准规范体系
数据标准规范是实施数据治理的基础前提条件,对数据治理的成效起着决定性作用。简言之,没有标准规范,无从数据治理;标准规范不全,数据治理不全。对于政务大数据来说,要做好治理需建立健全以下规范:
第一,元数据标准。要全面建立元数据标准,做到对全域数据的覆盖。
第二,数据元标准。要有选择地为主要数据实体建立数据元标准。
第三,数据分类编码标准。要为重要数据建立分类编码标准,并为基础数据建立编码字典表。
第四,数据目录规范。要在尽可能大的范围内,建立统一的政务数据资源目录规范,在最大程度上规范目录编码和操作。
第五,数据质量标准。要从准确性、合规性、一致性、重复性、及时性、完整性等指标角度,建立全面的数据质量标准,并给出评估指标和评估方式。
第六,数据治理流程规范。流程化是治理有序的保障,要将数据治理流程化,建立相应的流程规范,通过流程规范提升治理有序水平。
⒏大数据安全和隐私管理
政务大数据价值大、敏感度高,涉及各类社会主体的隐私和权益。因此,在政务大数据的治理中,要建立相应的治理安全管理体系,确保各治理环节的数据安全。一般情况下,数据治理要达到以下安全保护要求:
第一,按照《信息安全等级保护管理办法》和《信息系统安全等级保护定级指南》的要求,确定数据治理系统的安全保护等级,构建安全防护体系。
第二,针对不同信息可动态设置安全保护手段。
第三,治理功能与组织机构和用户分级权限相结合。
第四,提供数据签名和数据脱敏功能,确保隐私安全。
第五,所有治理操作均有记录日志,纳入统一安全审计管理。
⒐其他方面
为构建自动化、智能化的数据治理平台系统,政务大数据治理框架还需具有追溯和可视化展示功能。
追溯功能是指设置并记录数据治理的各个里程节点,可以追查数据治理的过程信息。并且在一定时效和条件下,可将某节点治理后的数据回退到其之前的任何状态。追溯功能可实现数据治理的灵活控制,利于复杂数据环境下实现智能化数据治理。
具有良好可视化展示功能是先进数据治理平台的基本要求。治理可视化能带来良好的用户操作体验,便于治理工作的实施,利于人工参与治理效率的提高。
(二)主要治理流程
政务大数据治理的主要流程(参见图2)如下:
图2 政务大数据治理流程
第一,数据源分析。在新的数据源接入时,首先做数据源的分析,内容包括:确认要治理的数据类别、数据项和数据周期等,抽取样例数据,分析数据特征,做好为数据治理服务的规划准备。
第二,数据治理规划。数据治理规划分为三个步骤:①对样例数据进行标准规范分析,根据分析结果得出数据模型和元数据标准;②对样例数据进行数据质量评估,根据评估结果制定数据检核规则、关联策略和融合方案;③将样例数据与其他已有政务数据进行对比,确定数据关联和融合策略,并进一步确认数据归属(所属的基础库或主题库)。
第三,数据标准管理。根据数据治理规划的标准规范分析结果,建立全部数据模型,以及相关元数据或数据元标准,更新相关数据标准。
第四,数据治理策略管理。根据数据质量评估和数据对比结果,确定数据检核规则,以及建立数据关联和数据融合的策略。
第五,常态化数据治理实施。对待治理的数据进行数据检核、数据关联和数据融合,除初次治理的数据须经前四个步骤外,同类型数据后续进入常态化治理阶段,直接从本步骤开始。
第六,数据资源管理。将治理后的数据存入基础库或主题库,从资产的属性对数据进行资产化处理,形成数据资产,进行数据资产管理。
五、结语
在政务大数据资源体系建设中,实现能满足数据应用要求的数据治理始终是个难点,也是政务大数据应用推广的技术堵点。为探索有效的政务大数据治理体系,在分析政务大数据治理特点和目标的基础上,针对存在的问题,将数据治理技术理论与政务大数据治理场景相结合,提出了一个政务大数据环境下的数据治理框架设计。该框架紧贴需求、目标明确、内容丰富,对探索构建政务大数据治理体系,建设政务数据治理平台具有实践参考价值和意义。
参考文献:
(略)
作者简介:
吴善鹏(1979—),男,河南虞城人,高级工程师,研究方向:政务大数据应用,社会信用体系建设。
李萍(1975—),女,汉族,江苏盐城人,高级工程师,研究方向:政务大数据应用,社会信用体系建设。
张志飞(1962—),男,汉族,江苏南通人,教授级高级工程师,研究方向:政务大数据应用,社会信用体系建设。
基金项目:2018年度江苏省财政课题“社会信用体系与大数据融合发展研究”。