2017年,大数据迅速发展,开始深入到各行各业,电商、商业BI、人工智能、大数据金融等行业均开始与大数据并肩发展。数据量的爆炸式增长,直接引发了大数据产业的兴盛,同时给各行各业带来了发展机遇,但也提出了诸多挑战。7月29日,在北京举行的CDAS 2017中国数据分析师行业峰会上,国脉数据研究院常务副院长孙泽红以《数据基因助力数据资源管理》为主题作了精彩的演讲。
国脉数据研究院副院长孙泽红
以下为演讲实录:
大家好,非常感谢主办方的邀请,能够有机会跟各位分享数据基因和数据资产管理主题,刚才在门口学习了一下今天的演讲主题,九位演讲者,有七位都带着大数据或者数据字眼,是一个很高的比例。那么数据基因是什么?是国脉基于12年政务咨询研发的一个数据标准化管理的软件,国脉是做政务信息化出身的。那么数据资产管理是什么?简单就是数据的资源化、资产化。怎么管这个数据资产呢?除了制度以外还有几个关键的维度,第一是数据资产管理的概念,来自于数据发展本身的紧迫性,第二是管理的方法论,很重要一点是信息技术还有工具的应用。
今天的主题围绕这两个维度分享三个方面内容:
一、信息化发展新阶段
首先信息化进入一个以数据为核心的新的阶段,这个基础之上,资产管理如何体系化的建设,以及数据基因对数据标准化的作用。我们说在国家的信息化体系建设当中,政府的信息化是非常关键的,政府的信息化经历了办公流程的自动化,业务处理系统的信息化,还有政务处理的网络化三个阶段。办公流程阶段,基本上是以部门为建设的单位,属于一个各自为政的状态,形成了很多的信息孤岛,导致了行政成本及管理成本非常高;90年代以后随着12金工程的启动,依托互联网的升级,政务系统内部共享互联互通开始发展,此时建设主体由原来的单个部门演变到各级政府的联动,一条线的数据在一定程度上进行打通,信息资源从之前的"信息孤岛"变成了"信息烟囱",所以说这个阶段的数据整合是局部的,行政成本有所缓解。目前信息化是处在2。0的整合型向3。0平台型演变的阶段,全国一体化信息化的数据平台建设在2015年的《促进大数据发展行动纲要》当中也给出了一个时间表,一体化数据平台是一体化政府建设的前提,平台型发展的阶段信息化主要特点就是以开放开发、主体多元、隐私的安全一定程度能够得到保障,行政成本相对比较低。
互联网发展比较发达的国家,如新加坡和韩国在逐步探索智慧型信息化共创共享,这个模式创新要素的驱动,整个社会的治理成本,还有行政成本是比较低的。
数据作为新的生产力和生产资源基本的成为新的竞争优势,信息化像小孩子的书包,量很大需要减负,政府的工作量通过计算能力得到很大提高,信息连接时代,像支付一样,人与人的关系,人与应用系统的关系通过智能设备连到一起。
数据时代,数据的基因和传递性越来越强,和组织的竞争力处在合体的状态。我们参照《互联网进化论》一书绘制了互联网虚拟的结构图(见下图),支撑人类的思考和行动,也形成社会治理基本的结构,大脑的表层、终端和外设;视觉系统,采用物联网各种信息,听到看到可穿戴设备收集信息储存大脑当中,云计算作为一个基本的设施和软件,这两个层面来支撑整个大数据和大脑的运行。
二、数据资源管理体系建设
大数据给我们带来机遇的同时也让数据的治理面临挑战,主要表现三个方面,数据很庞杂,体量很大,数据需求非常多样,简单来理解就是以数据为核心的信息体系是不是健康的,可以两个维度来观察。
第一,从信息流动性看信息体系,有一个对比,传统的信息体系是依靠流程,或者依靠业务来构建的,业务随着流程结束而截止。前面说条块的数据烟囱基本原理就是基于业务流程来实现,那么以网络和系统重构的信息体系,关注的是这个数据的流动性以及其价值,哪需要数据,或者需要哪类数据,数据就能自动流动在哪儿去,流动的过程当中信息能够得到最大程度的共享和开放。
第二,从数据流动视角看平台技术架构体系,国办印发了《"互联网+政务服务"技术体系建设指南》中的平台技术架构图,非常系统要素也很完善,路径也比较清晰,我们可以探讨的就是这个结构图DNA在哪儿?如果我们能够进入数据资源层面有一个基础关键的管理,或者架构体系的话,就更好了。
在数据开放共享当中,数据资源管理中很重要的话题,主要从技术的角度来说明,从资源上看,数据资源应是数据库资源,除此之外数据资源其实还包括各种报表、视图、数据的接口和权限等等,我国政务数据是通过实施分级分类的管理来提升数据的共享和开放的程度,数据资源管理需到底需要解决什么问题?三个方面,首先是信息孤岛问题,需要打通数据。第二是标准规范问题,标准规范应该说我国进行了很长的探索和实践,在07年前后组织修订了《电子政务标准化指南》,今年的5月,中央网信办、国家质检总局、国家标准委联合发布《"十三五"信息化标准工作指南》,从国家层面来统筹推进这个数据的标准化工作,前面提到108号文件《"互联网+政务服务"技术体系建设指南》以及5月份国务院印发的《政务信息系统整合共享实施方案》,均从全局和根本上来解决当前长期困扰信息化建设的一些问题。第三是资源节约问题,最近浙江省和贵州省都启动了全省的数据资源的普查,普查调查了一个非常重要的方面就是硬件系统的建设,浙江是通过一个系统来评价现有的管理系统,关闭一些不能适应现在数据化要求的系统,贵州采取全省上云的方式,服务器和硬件都是统一部署云上,这样数据资源整合就非常的便捷。
信息资源目录推进思路
下面这张图罗列一系列的问题都需要依靠信息资源目录证明基础的工作来解决。这是国脉在服务咨询过程当中总结出来的一个思路,2014年、2015年国脉给浙江舟山市进行数据资源梳理,打印很厚一本报告,委办局拿上来的调研表,体量也非常大,这些调研表来自具体的业务部门,第一步要结合实际,第二步要自下而上,就像盖房子,先要把部门、主题目录梳理好,再需要对标对目录工具进行管理,服务配套跟上,基于下面几点我们可以构建一个合理的目录推荐机制。
信息资源目录梳理工作方法
开展最基础的部门目录梳理时一般采用三种途径,第一,业务职能途径,从业务的架构,业务职能、资源、数据项角度去梳理。第二,系统建设路径,有些部门委办局有自建的系统和数据库,基于现有系统,从系统、功能、数据表、数据字典角度梳理。第三,结合业务和数据两个途径推进。
数据基因功能、架构
数据基因很重要的一个特点就是具有内升动力,数据基因是参与者也是融合者,当前数据资源管理很多问题,包括底层数据的一致性,信息体系如何有效运行,这些关键的问题均可以通过数据基因的内升动力来驱动。
很多人可能会问到一个问题,就是为什么叫数据基因,因为我们听的比较多就是生物基因(DNA),生物学上基因结构是分为基因、基因序列和基因佐证三个层次,基因基因组可以随生命体的进化遗传和变异。数据基因记录在数据基因组,数据基因序列这么三个层次上,数据基因是基本的遗传、变异单位,基因序列是数据基因的组织形式,而数据基因组是数据遗传信息的完整表示。从生物基因到数据基因,一方面表达数据的特性,另一方面也描述不同数据之间的关联。随着数据从"旧"数据向"新"数据的进化,数据基因组通过遗传变异操作产生新数据的数据基因组。
通过数据基因系统的编目,可以实现五大模块的功能,第一,连机状态,可以对各种数据元进行建立数据的联系,树立其中的数据表,还有数据项,添加元数据的标注,按照标准数据项标准化,自动提取样例的数据形成虚拟的目录。第二,没有经过量化的资源型的数据怎么办?我们提取相应的数据元来把这些文件资源上传到虚拟目录当中,这些文件主要作用就是查询和下载,第三,没有联机的状态下可以通过手工的录入,上传样例数据形成虚拟目录,三类虚拟目录完成通过加载元数据模型进行编目,注册到分类的目录当中,进一步形成各种主题的主题目录、共享目录以及决策目录等,所有注册的数据资源,通过检索关键字,可以搜索到全部的结果。
数据基因有一个独立的模块是数据资产,有几个很便捷的特点,第一,与先前政府数据库是可以打通的,其他系统的数据可以导入系统当中进一步进行系统的数据。第二,资产化的分类很清楚,有数据的资产,包括软硬件的资产。另外对业务的梳理,首先参考了国标和行业的标准,比如说公路里程的描述,是根据行业发布的各种标准文件,按照元数据的属性分类规范描述。第三,政务服务事项的梳理,按照单一事项文件的要求进行梳理,比如港口事件开通的备案。
资产管理在整个数据登记的基础上实现由小到大颗粒度关系的呈现,这是呈现的关系图,这个关系图可以实现什么?通过系统建立之间的相互关系,理清楚系统与系统之间、系统与数据库、表之间、数据与数据之间的关系,实现数据-数据表-数据库-应用系统-服务器-机房(云)的关系展现,建立部门数据资产地图。
这个系统如何部署需求机构当中,如何部署到城市和政府,总共分七步走:
第一,基础资源的调研,纸质的材料;
第二,业务主题分析,结合咨询的实践进行概念模型的设计;
第三,数据流分析,重点关注一些物理的模型,系统的分布和架构;
第四,业务数据建模,模型导出来各种表单;
第五,数据的分析;
第六,设计数据的资源;
第七,实施数据的管理及使用。
以上就是数据基因系统部署需求单位七个步骤。
数据资源管理的目标
通过数据基因的嵌入,我们可以实现包括系统、数据、业务、人等资源形成全面的整合,理想状态下将呈现出六个方面的特征。
第一,数据标准是非常统一的,就是共享没有障碍;
第二,数据可以有序的流动,数据管理系统有效协同;
第三,数据之间的关系非常清晰,便于挖掘
第四,通过数据元分层分类进行管理,数据库之间灵活架构,应用也很便捷;
第五,权限明确、安全可靠;
第六,数据基因可作为信息资源目录梳理方法指导以及辅助工具使用。
三、数据基因与数据标准化
关于数据基因和数据标准化,先来讲一个巴比塔的故事,人类想建一个高梯通往天堂,上帝不想让人类通往天堂,让不同的人说不同的语言,人类之间就没法沟通了,这个计划就失败了,从数据的共享和资产化层面来说,数据本身是语言,数据标准不统一,沟通和交流必然受阻的,这是标准化基本的诠释,标准化是前提条件,从数据元和元数据开始。
以保险数据平台整合标准化做一个例子,数据产生以后,首先要经过数据标准来进行整合、加工、使用。可以看到,元数据表述的属相包含13项,在不同的保险系统实现客户信息,需要标准化的过程,这个基础上可以形成360度的基础的标准化数据,这个信息很多,部分敏感信息包括个人基本信息、财务信息等,这些信息可以实现业务的评估和业务的支持。
回到数据基因的应用上,我们说标准是数据资产化的一个基本的基础,国脉对数据资产进行准确的定义,数据基因这个产品就是把国标和行业标准贯彻实施好。数据基因的强大,一个非常重要的特点就是模板的数量,目前该系统汇集了省、市级部门各70个、标准化数据元10000项、核心数据集2000个模板,通过这么多模板,关联导入可以进行多维度的关联。
数据元标准化
数据元的标准化主要是通过从业务和系统中抽取过来的数据匹配和设置,前面讲的路径就是从业务和系统两个维度进行数据的匹配和设置。根据匹配规则在数据元模板中英文名称进行匹配,将完全匹配上的直接进行模板中数据元相关内容填充,明确数据元数据类型、长度、精度等描述。
数据基因发展历程
数据基因发布的时间也不长,2月15号正式发布1.0版本,7月26号发布3.0版本,数据基因1.0版本比较基础的,主要基于资源的模板还有一些登记功能,2.0基础上建立数据之间的关系,通过关系建立标准,普查做地图,还可以做模型。3.0这个版本功能比较强大,可以实现各种的匹配,包括数据元的标注,事项的梳理还有数据治理,整个梳理过程当中形成理想的目录和事实的目录。
应用案例
(1)淮安市信息资源梳理
这是第一个落地应用的数据基因案例。借助信息资源模板,在一个月内快速梳理出淮安全市82个部门的信息资源,通过数据基因系统,由各部门进行核实、确认,快速建立全市信息资源体系。
(2)浙江省全口径公共数据资源梳理
这也叫"公共数据资源梳理",因为它还包括企事业单位,并非只包括政府单位,其范围很大。依托17年电子政务项目预审的工作,开展全省项目独立预审单位的信息系统普查、"全省最多跑一次"事项普查(责任清单、权力清单)、信息系统实有数据普查等,同时借助系统开展事项标准、数据标准等工作。
(3)贵州省数据资产登记
根据《贵州省政府数据资产管理登记暂行办法》,开展贵州数据资产登记工作,对信息系统、硬件资产、软件资产、数据资产(围绕管理、保存、存储等角度)进行梳理,同时建立系统、硬件、软件、数据之间的关系图谱。除此之外,还有海南、四川、广东、宁夏等。
最后,给大家介绍一下国脉的体系,目前数据层,平台层和战略层为主,以上就是我演讲的内容,谢谢。