贾西贝:数字中国的“三融五跨”数据治理体系

2018-12-11 16:50 来源:数邦客
浏览量: 收藏:0 分享

  11月28-29日,由中国社会科学院信息化研究中心和北京国脉互联信息顾问有限公司联合举办的“2018智慧中国年会”在北京隆重召开,以“数据赋能 智慧中国”为主题,共有来自全国部委、省、市、区县电子政务、智慧城市、大数据主管领导、行业专家、企业代表、主流媒体千余人参会。

  本文系深圳市华傲数据技术有限公司CEO贾西贝于11月29日上午在“2018智慧中国年会”分论坛六--“微服务与数据赋能平台构建与实践研讨会”上的演讲,内容通过现场速记整理,未经本人审核。

image.png

【深圳市华傲数据技术有限公司CEO 贾西贝】

  今天要和大家分享的是“数字中国的‘三融五跨’数据治理体系”,主要从三个方面来讲:数据治理的指导思想、方法论、几大实践。因为时间关系讲得是简版,有些可能没法特别深入。

  一、政务数据治理的指导思想:三融五跨

  我会以问题的形式展开,主要还是引发大家的思考。

  1、数据是什么

  以前我在研究生论坛讲课及最近在工业大学开设的几个研究生课上,问“数据是什么”,期待的肯定不是今天这个答案,那主要探讨的是数据的科学性,今天我们讲的是从国家战略和城市战略的实操层面“把数据定位成什么去运用”。关于数据的定义,在国家十大战略之一的“国家大数据战略”中说得很清楚,数据是基础战略性资源。

  2、政务数据是什么

  按照工信部《大数据产业发展规划(2016-2020年)》,“政府部门、互联网企业、大型集团企业积累沉淀了大量的数据资源。我国已成为产生和积累数据量最大、数据类型最丰富的国家之一”,有人翻译过来称中国有三大“数据金矿”,其中政府数据是第一数据金矿或第一数据资源。

  3、政务数据面临的瓶颈(首要问题)是什么

  2016年,李克强总理在全国推进简政放权电视电话会议上指出“目前我国信息数据资源80%以上掌握在各级政府部门手里,‘深藏闺中’是极大浪费”,这也进一步印证了政府数据是第一数据资源,但它并没有像BAT等互联网企业发布的数据那样有多大价值、对我们生活产生多大的影响。微软首席信息官(后来也成为了奥巴马政府的首席信息官)也曾讲过“全球99.5%的大数据资源都被浪费了,只有不到0.5%的信息资源被利用了”。

  4、造成政务数据浪费的主要原因是什么

  我们看到的一个城市、国家的数据世界,说得极端点,其实在某种程度上散布了许多的“数据垃圾”。比如我们国家,从政府角度对数据的占有其实是高度碎片化、分散化的。深圳在政务服务方面做了很多创新,有个口号叫“市民办事不出街”“企业办事不出区”,就是市民办事不用出街道/社区、企业办事不用出区/县就能把事办了。我国一共有2500多个区/县、4万多个街道/乡镇。那我们想,如果办事都是在区县一级,一个区县的委办局一般在40个以上,我们调研了下深圳,深圳一个委办局的业务系统至少10个(多的有100来个),全国12万个部门会有多少业务系统和数据库呢?初步估计业务系统约20-120万个,数据库在100万个左右。

  分散在几十万个数据库中的数据,大家若将一个方块假设为一个业务系统、一个圆柱体假设为一个数据库,是一个什么状态?是“盲人摸象”。我们经常说一个城市的市长说不清所在城市的具体人口,这里指的是实际管理人口,不是户籍、常住人口,中国今天已不是用户籍把大家固定在户籍地,而是高度流动的,北京、深圳的流动人口占比已达50%以上,深圳户籍人口是400多万,加(流动人口等)在一起很多媒体都说深圳人口在2000万以上。

  数据的碎片化产生于业务的碎片化、技术的碎片化,碎片化实际是“数据氧化”的问题。无论是多么美好的组织,最后都会衍生成一个蜘蛛网结构,需要用一些办法把数据利用起来。

  5、解决政务数据开发利用问题的核心任务是什么

  “数据浪费”“数据碎片化”的破解之道是什么?我们总书记也给出了“数字中国”中“数据治理”的核心任务,在2017年12月8日的十九届中央政治局第2次集体学习会议上,习主席提出"以数据集中和共享为途径,推动技术融合、业务融合、数据融合""实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务",早在2016年10月十八届中央政治局第36次集体学习会议上习总书记也曾提过,后来你人民日报和新华社总结为“三融五跨”。刚才我们提到全国保守估计12万个部门有几十万个系统,要做五跨数据融合,其实就是任务之一。

  大家都觉得数据就是金钱、能赚钱。就像硬币,正面是数据利用、背面是数据监管,数据价格变现必须在良好的数据监管和数据保护的前提下,没有监管,数据利用就是脱缰的野马。数据是无界,但数据的应用是有界的,需要自律也需要监管。结合近期的新闻,其实基因也是无界的,所有生物体都有,但对基因的应用也应该是有界的。

  这方面中央也予以了重视,习总书记在2017年12月十九届中央政治局第2次集体学习会议上就提出,要切实保障国家数据安全、强化国家关键数据资源保护能力。所以数据治理,主要是治理数据的两面(数据利用和数据监管)。

  二、政务数据治理的方法论:GLDM五跨模型

  (一)数据大发现时代

  从领导人、国家的层面,对数据治理目前有很好的政策和指导思想,但要把几百万个数据治理好,中间还需有个桥梁,不管是做咨询还是IT,我们在多地都期待能有一个方法论。基于我们的经验,我们总结了这样一个国情:今天的时代,很像达伽马、哥伦布那时的“地理大发现时代”,我们不断能看到新的数据源、新的数据处理手段、新的数据应用场景,所以我们觉得2016年国家大数据战略发布后,政务数据进入了一个像“地理大发现时代”一样的“数据大发现时代”。

  哥伦布式大航海是“走的时候,不知道去哪儿;到的时候,不知道在哪儿;回的时候,不知道去过哪儿”,我们现在经常是“开始的时候,不知道能做什么;进行的时候,不知道该做什么;完成的时候,还不知道做了什么”,我们需要一个方法论来避免哥伦布式的数据大航海、数据处理。

  (二)GLDM--政务(五跨)逻辑数据模型

  做数据库的,应该都熟悉LDM。在数据库课程上,我们一般首先会讲概念模式、逻辑模式、物理模式等。物理模式与系统相关、概念模式太粗略,所以实际应用最广的是易于沟通的逻辑模式。全球数仓中最有名的是Teradata(天睿公司,美国前十大上市软件公司之一),在数仓和商业智能领域驰骋多年、立于不败地位,微软有个操作系统在数仓里面某种程度上垄断了主要行业的LDM,金融领域FS-LDM目前主要用的是90年代开始沿袭的Teradata的那一套,电信、交通、能源、医疗行业都是一样,但是Teradata的LDM没有跨领域的LDM,主要是国外没有大规模的“三融五跨”实践,目前这方面还是空白,我们基于海外研究和国内实际,组建了GLDM--政务(五跨)逻辑数据模型。

  GLDM--政务(五跨)逻辑数据模型,目的是让数据大航海,出发前“知道哪个地方是小岛、有海峡、有暗沟、适合走”“有海图、航路、指南针、轮船,知道往哪个方向去,最后还能驶向彼岸”。①数据大航海的“海图”实际对应信息化背景来说,是公路系统和元数据管理系统,政府每个委办局、每个部门的数据从在哪儿、从哪里来等每一步的操作都可以集中展示出来。②“指南针”是不走弯路、错路、邪路,一个是数据标准化,减少数据清洗工作,在可预见的未来,数据清洗工作只可减少、不会消失;不走邪路,数据泄露方面,2017年共抓了一万五千多人、办了4999个案件,如果非法提供或者获取超过50条,就可以判三年以下有期徒刑,500条以上可以判3年以上7年以下有期徒刑,所以立法是很严格的。政府的数据监管是一条红线,如何恪守这条红线也是非常重要的内容。③“轮船”,需要数据质量治理平台(舵)和五跨数据融合平台(发动机)。

  总结起来,从海图、航路、指南针、轮船等七个模块构成了走出哥伦布式“数据大航海”的要件,当然围绕这些,还有港口、货物等模块。在此也要感谢政府对我们技术研发的重视和支持。目前我们国内外专利有290多个,并参与了深圳核心数据元标准制定等多个数据治理、数据质量相关项目。我们希望政府数据治理、三融五跨能做好,实际上我们也是国际数据质量管理理论的奠基团队之一,结合技术标准和业务,特别是实践,实战的技术都是在琢磨中产生的。我们理解的数据治理,包括对数据目录、元数据、主数据、参考数据、数据标准、数据质量的治理等,政府的“主数据治理”主要是基础库和主题库的治理。

  三、政务数据治理的最佳实践:四重治理网、六层流水线

  最佳实践方面,数据治理分两大门类,一类在我们公司内部叫数据治理(慢加工),另一个是数据融合(快加工)。“慢加工”和“快加工”达成的数据质量不一样,“快加工”是达成“多源一致”的数据质量、满足数据的分析型应用,“慢加工”达成的是权威确认的质量。

  “快加工”相当于给每个城市、每个区县、每个省建一个数据“炼油厂”,进去的是碎片化的数据,出来的是数据资源和数据资产,包括刚才讲的基础库、主题库等。怎么去建立一个“炼油厂”呢?汽车工业的流水线是一个很高效的加工方式,数据炼油厂也像富士康的流水线工厂,只不过这里有人类、机器,能自动化的地方让它自动化,不能自动化的地方就人来做。这里我们分了“六层流水线”,包括历史层、标准层、原子层、整合层、主题层、应用层,主要是对数据进行差错、改错,这里有流程再造的工作,不进行流程再造可能会持续产生一些错误,还需要改系统是因为软件系统bug引进的错误,更主要的是数据清洗等。

  快加工的原理是“四定五加工”,最好是定源定目标。像编程的一个函数,如果把输入输出定好了,最后无外乎算法对不对、中间是否优化的问题。“双调”是数据调研和业务调研,双调是为双融服务,“双融”是数据融合和业务融合。我们会调研清楚每一个委办局的业务系统中的数据模型有没有数据规范、数据标准、字段如何命名(尤其是数据字典遗失的时候)、数据源、每个数据的类型、数据元代码集是怎样的、是如何标识每个数据的,这个都调研清楚后,其实是信息资源目录编制和调研的内容。

  在这个基础上,我们想把委办局数据达到一种怎样的状态呢?目标是基础目录。基础库包括人口、法人等,如人用身份证标识,房屋、项目、地址用什么标识就没那么简单了,如何标识一个实体、这个实体每个属性如何定义和用什么类型定义、每个属性如何命名、这些属性最后搭建的模型和表是一个怎样的标准,由此完成定源、定目标的工作。

  但光定源、定目标还不行,中间还要定一个附件:数据加工的过程很像手机翻新,拿来10个旧手机、最后想翻新5个新手机,假设10个旧手机分布在不同的委办局和不同的业务系统中,可以先把10个旧手机拆拆成最小的零件,标识哪些零件好、哪些零件不好,好的取出来组合成新手机;后面组装的过程就是我这里写的“后加工”;零件的标准就是数据元的标准;把它拆掉的过程,就是“前加工”;前加工之前还得在共享交换平台进行梳理。尽量把目录层的东西全集中起来,做数据集中到归集层,从归集层开始走共享数据去融合、走后面六层。所以定源头、定部件、定目标(两类模型),最后给大家用还得定接口,就像微服务,其实它是数据的接口,中间的加工过程我就不细讲了。

  基本信息对应的是一张表或者若干张表,最后组成LDM的数据模型。模型定好后,我们要确定用什么原则来加工,不要因人而异、因时而异、因事而异,大通铺、新鲜度原则等都会有问题。分区治理、分层加工,比如历史层会做数据拉链、时间戳等,所有做错的都可以追溯,每一个版本都会进历史数据管理系统。这个版本我们一般是每个月做一个快照,有点像压缩软件压缩、SBN、DF原理,后边每一层做的操作也会进源数据管理系统,每一层建立的新的表格、新的数据资源等用元数据管理系统管理起来,其标准来自于标准治理系统(标准图书馆)。刚才说全国几十万数据库,每个数据架构师、工程师都有自己的定义办法,现有标准大家可以一起去看,这就需要一个参考数据管起来,所以我们看到这里的每一层都去操作统一的元数据、标准、参考数据、历史数据管理系统,当然标准层是标准化、原子层是最小颗粒化、组合层是重新组装,在主题层之前做的类似数据预览,往往是让大家在商业智能、政务智能中迅速取数的加工,后面还有定制加工,让数据能符合每个接口。一个城市的权利责任清单大概有5000多项,一个权责事项至少需填1-2张表、有一些审批和证件,接口有几万个,几万个接口去用这些数据,就涉及定制。

  我们对数据治理的四个圈层:第一个是委办局业务库。各委办局的数据是分布式,全国来说是跨区域、跨层级的。第二层是目录数据,是业务库中已经调研出来在信息资源目录中能找到的数据,按照现在国家发布的政策,有“不予共享、有条件共享、无条件共享”三类,目录数据是业务数据的一个子集,这里包括有条件共享、无条件共享的数据。第三层是归集数据,做了数据集中,把目录数据中无条件共享的数据放到一个大数据中心。第四层是融合数据,指在大数据中心做了深度加工融合的基础库、主题库数据。跨越圈层的原则,比如在编制目录时候应“能享尽享”,归集数据时“应采尽采”,融合数据时“以用促融”。

  我们对智慧城市、数字政府的数据治理,其实是三个层面的事,包括数据、系统、服务,三者形成政府跨部门数据加工的过程。

  附:国脉,是领先的大数据治理和数字政府专业提供商。创新提出“软件+咨询+平台+数据+创新业务”五位一体服务模型,拥有数据基因和水巢DIPS两大系列几十项软件产品,长期为中国智慧城市、智慧政府和智慧企业提供专业咨询规划和数据服务,广泛服务于信息中心、大数据局、行政服务中心等政府客户、中央企业和金融机构。自2004年成立以来,已在全国七大区域设立20余家分支机构、5大技术研发基地,服务客户2000余家,执行项目5000余个,连续多年开展中国政府网站、智慧城市、互联网+政务、营商环境等公益评估评选活动。被业界誉为中国信息化民间智库知名品牌、电子政务优选咨询机构,国内首倡智慧政府理念,首创智慧城市、数据治理、互联网+政务评价体系,首推数据资产普查、全口径数据资源目录、数据元标准化、数源确认与供需对接、最多跑一次事项梳理、营商通等产品,信息资源编目、公共数据普查等业务全国占有率和影响力名居榜首。

标签:

责任编辑:bozhihua
在线客服