摘要:随着大数据时代的来临以及信息技术的发展,人们产生的数据量正在以指数级的速度在增长,并且数据正以多元结构(结构化与非结构化)趋势发展,如此海量的、多元结构的数据就要求利用有效的方法来管理。数据是一个企业或政府部门的核心资产,数据治理是将一个企业或政府部门的数据作为战略资产来管理,需要建立一套从数据采集到处理应用的管理机制,以提高数据质量,实现广泛的数据共享,最终实现数据价值最大化。目前各行各业对大数据的研究比较火热,但对于大数据治理的研究还处于起步阶段,一个组织的正确决策离不开良好的数据治理。本文内容包括:数据治理的建设背景;数据治理的建设目标;数据治理的建设思路;总结与展望。通过本文能让大家对数据治理解决方案的整体有个基本了解,能对相关工作有一个更好的推动。
什么是数据治理?按国际数据管理协会(DAMA)的定义,数据治理是对数据资产的管理行使权力和控制的活动集合(规划、监控和执行),数据治理职能指导其他数据管理职能如何执行。数据治理是将数据转化为智慧,挖掘出价值,最终服务于人的重要途径。依托政务云平台,从原始数据中提炼出有用、有价值的资产信息,通过深度整合形成多维多层的知识图谱,将数据高度聚合,深度关联。通过AI人工智能,将数据深度研判分析预测,从数据的可知、可用到数据的可测,形成智慧大脑。为各级政府AI大数据应用奠定坚实的基础。
1 数据治理的建设背景
1.1 数据治理的现状
(1)回顾政务的信息化建设发展历程,可以发现“烟囱化”现象严重,建设系统多,数据分散,共享困难。
(2)各单位机构自建系统没有统一数据标准,数据质量参差不齐
(3)数据不可知:用户不知道有哪些数据,也不知道这些数据和业务的关系是什么,虽然意识到了大数据的重要性,但平台中有没有能解决自己所面临业务问题的关键数据。该到哪里寻找这些数据。数据不可控:指用户不知道汇聚了哪些数据、处理了哪些数据、服务提供了哪些数据。数据不可取:用户即使知道自己业务所需要的是哪些数据,也不能便捷自助地拿到数据。
(4)用户拥有着海量数据,但数据知识之间的关联还比较弱,没有把数据和知识体系关联起来,使得难以做到数据与知识之间的快速转换,不能对数据进行自助的的探索和挖掘,数据的深层价值难以体现,没有形成知识图谱。
1.2 数据治理势在必行
要解决这些问题,数据治理势在必行。数据治理不单是一个方法、也不是一个功能、也不是一个工具,而是一整套体系。数据治理核心领域功能不再是人工处理,而是全流程平台化,比如数据服务、数据质量、模型、数据标准;同时配套相应的组织架构、人员方案,通过考核机制、管控办法等制度章程予以约束和协调各部门在数据治理中的角色和要求;除了平台工具、保障措施之外,还必须有实施流程和技术的支撑,比如政务云的资源设施及各单位数据接入流程等。所以数据治理是平台工具、方法论和保障机制的有机体,不可分割。整个体系的重点、难点在于数据服务、数据模型和数据标准化实施。
2 数据治理的建设目标
基于数据治理体系,可以提炼为六大建设目标:
(1)数据接入标准化:通过制定接口规范,数据治理接入支持多源头采集、多种形态的数形式,同时数据对账清晰明了,对账不仅是源头有多少、进了多少做一个对比,另外一个层面是应该进多少,而进了多少的对比,通过设置预警阈值,对源头的数据监控,及时发现源头采集问题。
(2)数据处理自动化:通过自动化对标、自动化作业等产品、工具,以机器算法代替人力劳动,大大提高生产力。
(3)数据监控智能化:整个数据治理体系监控点很多,通过定义多种接口规范,实现运维监控的统一管理,短信、邮箱等多种提醒方式,及时发现并解决问题。
(4)数据组织知识化:通过分析各部门共享数据集,提炼权威数据,形成主数据模型。通过人、车、地址等主题域建模,掌握各主题的内在关系,深度整合,形成以实体为单位的复杂的关系网络,就是知识图谱。
(5)数据运行可视化:Etl工具、服务总线产品与数据治理平台有机结合,将数据治理实施流程各环节通过平台去实现,由平台驱动各产品协作完成整个数据治理过程。
(6)数据应用自助化:依托服务总线,建设统一的服务平台,服务大厅,通过服务权限和数据权限控制,用户可自助申请、自助使用、自助评价反馈。
3 数据治理的建设思路
3.1 形成数据治理体系
大数据中心的建设需要通过数据治理体系来实施,主要包括五大部分:
(1)定标准:建立汇聚、服务、共享标准,统一规范。
(2)整数据:对数据汇聚、清洗整合,解决的是质量问题和系统之间数据资源的融合问题。
(3)管资源:创建资源账本,记录数据资源数量,数据来源,标准情况等。
(4)通服务:数据治理的目的是共享和应用,通过建设共享服务,提供给警种和第三方使用。
(5)建应用:数据治理如何体现成效,就是透过全警能用、好用、爱用的应用来体现。
3.2 构建数据治理架构
图3数据治理平台的总体架构,设施和数据支撑层是基于政务云平台和大数据平台之上,主要是集中在数据资源层和资源服务层,包括数据中心、数据管理和数据服务。
(1)数据中心根据规划分成三部分。数据中心的数据来源政务内外部、以及互联网结构化、多媒体数据,例如目前个别地方政府部门已经建成“政务信息资源共享平台”,数据治理应该直接对接的是政务信息资源共享平台,数据中心分为三层架构缓冲库、基础资源库、业务专题库。
数据中心通过ETL工具、日志复制工具对数据进行汇聚整合,数据整合其实是一种方法论和经验,比如哪些数据需要去重,哪些数据需要多表关联,哪些数据需要冗余这些是需要业务积累和治理经验去完成的。
(2)数据管理包括标准、模型、资产等。数据模型是数据治理的根基,治理的目的是服务和共享,首先一点需要通过模型掌握数据所在业务域以及数据之间的关系,构建全景数据视图和知识图谱、使使用者更直观、更简单的去使用数据治理后的成果。
(3)数据服务通过服务大厅支撑服务的申请、发布及使用的流程,以及服务的运行监控。
3.3 构建数据中心架构
数据中心是按照三层架构,包括缓冲区、基础区和专题区:
(1)源数据区,是数据中心汇聚的基础,包括各政府单位的业务数据,以结构化数据为主体,也包括非结构化数据和流式数据。
(2)数据缓冲区,是数据中心和个业务系统之间的隔离层,再对数据治理治理过程中避免对各业务系统业务办理产生影响。
(3)数据基础区包括两部分,结构化标准库,是对缓冲库数据统一对标、标准化处理之后的数据;业务整合区是从全局角度对所有数据建模、知识化的过程,其中模型主要包括主题域模型、主数据模型,以及将数据纵横关联的知识图谱和标签库。
(4)业务专题区涵盖了通用业务专题,比如公安行业的法人库、证照库,以及各单位特有的专题库,整个业务专题区是数据治理成果的一种展现方式。
3.4 数据梳理
数据治理的前提是数据梳理,需要对数据资源情况进行摸底排查,掌握各系统的建设情况,包括数据调研、数据整理和数据反馈。导数据梳理工作开展,流程如下:
(1)数据梳理:首先采用各单位上报的方式,业务系统毕竟各单位是最熟悉和了解,系统的建设由来,现状等等,在此阶段提供一整套数据台账模板。
(2)业务建模:数据治理不是各系统的杂乱对接,这个阶段需要了解的是该系统的业务种类,业务域的划分,实体之间的关系,主子表之间的关联等,这是一个建模的过程,包括了主数据模型、主题域模型和知识图谱。
(3)数据汇聚:通过系统注册组件将系统注册到平台统一管理,并进行后续的缓冲库入库、数据标准化等一系列动作。
(4)资源目录:对基础资源库的资源进行数据编目、归类,为共享和服务做好支撑。
(5)数据服务:数据治理目标是提供数据服务,从不同维度支撑应用。
数据治理成果展示:对数据治理的标准、数据、服务、模型通过驾驶舱可视化展示。
3.5 充分利用ETl工具
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。利用ETL工具,与数据治理平台无缝融合。ETL产品含五大特点,可视化、集成化、管道化、集群化、模板化,同时支持多种数据类型,通过统一的运行和管理平台进行管理、平台为ETL工具提供元数据支撑;ETL工具为平台提供作业运行监控、数据对账以及作业自动生成的能力。
(1)可视化:模型设计可视化、抽取过程可视化、抽取结果可视化;
(2)集成化:多数据源、统一管理调度、运维;
(3)管道化:一次抽取、多次利用;
(4)集群化:多引擎并发执行,故障转移、达到高稳定性;
(5)模板化:提供预定义模版。
4 总结与展望
数据治理的目标是提高数据的质量(准确性、及时性、完整性、唯一性、一致性,有效性),确保数据的安全性(保密性、完整性及可用性),实现数据资源在各组织机构部门的共享,推进数据资源的整合、服务和共享,从而提升企事业单位信息化水平,充分发挥数据资产作用。通过实施数据治理工具,可以让数据质量变得更好,发掘数据资产的商业价值,实现如下目标:对业务的支撑;降低经营风险、安全保障;对决策进行支持;满足风险控制和外部监管要求;可企业持续发展。大数据时代,数据已经成为一个组织最宝贵的财富之一,组织如果想要利用庞大且宝贵的数据资产来挖掘其中的商业价值,在数据挖掘之前就需要使用数据治理技术,提高数据质量,减少实际挖掘所需要的时间,数据治理的核心目标是在降低风险的同时为企业增加价值,合理的数据治理能够建立规范的数据应用标准,消除数据的不一致性,提高数据质量,推动数据广泛共享,充分发挥数据对政府及企业的业务、管理、以及战略决策的重要作用。大数据治理对于确保大数据的优化、共享和安全是至关重要的,有效的大数据治理计划可通过改进决策、缩减成本、降低风险和提高安全合规等方式,将价值回馈于业务,并最终体现为增加收入和利润。