2018年11月28-29日,由中国社会科学院信息化研究中心和北京国脉互联信息顾问有限公司联合举办的“2018智慧中国年会”在北京隆重召开,以“数据赋能 智慧中国”为主题,共有来自全国部委、省、市、区县电子政务、智慧城市、大数据主管领导、行业专家、企业代表、主流媒体千余人参会。
本文系北京仓颉数源网络有限公司副总经理黄磊11月28日下午在“2018智慧中国年会”分论坛—“数字经济发展与智慧城市建设研讨会”上关于“仓颉数源数据元公共服务平台发布”的演讲,内容通过现场速记整理,未经本人审核。
【北京仓颉数源网络有限公司副总经理 黄磊】
大家下午好,今天我为大家介绍一下仓颉数源数据元公共服务平台。
一、数据市场正在极速扩张,数据标准化差制约大数据应用
当前,全球大数据市场规模达454亿,中国达到280亿。复合增长率快速增长,数据世界已经来临。数据市场在急速扩张,在这样大环境、大市场背景下,很多政府和企业都在做数字方面的战略转型。从某一点我们可以看到目前存在的一些问题。
1)数据需求缺乏规划,导致数据信息共享困难。
2)各政府部门数据标准定义依据不同,导致数据统计口径无法匹配。
3)业务口径不统一,导致各业务部门间沟通发生困难、发生歧义。
这些问题的根本原因则在于数据不标准,已经成为制约产业健康发展的最大障碍。因此,要做好数据标准化工作,比如字段标准化、对象定义标准化、代码标准化、业务指标标准化、数据元标准化等等。
二、大数据发展需要夯实数据元基础
统一规范的数据元是数据标准化的基础,本质上来讲数据在某一角度是对其还原,还原某一场景。数据元作为对数据的一种“元”描述,是数据的最小单元,其数量多少、质量好坏直接影响数据“语义”表达,进而影响数据传递、流通、交换、融合、共享等……数据元作为数据的“底层建筑”,在数据统计中具有基础地位,基础不牢,地动山摇。因此我们要做好数据统一规划中的数据元,因为它是数据标准化的基础,而大数据发展也需要夯实数据元基础。
三、政策环境高度重视数据标准化工作
国家政策多方面的引导工作,也表明数据元标准化工作的重要性。十九大上,习近平总书记提出要以数据集中和共享为途径,建设一体化的大数据中心,推进技术融合、业务融合、数据融合,实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务。同时,在《进一步深化“互联网+政务服务”推进政务服务“一网、一门、一次”改革实施方案》中提到了“实现政务服务同一事项、同一标准、同一编码”,各级政府要持续完善数据资源目录,不断提升数据质量;这些都是为了做好数据元标准化工作。有些城市、部门已经发布了相关的数据元标准、数据元目录等。
四、数据元标准化是数据治理难点痛点
做好数据标准要做好数据元标准化,其中有很多重点、难点,比如:多网并存、信息孤岛、信息烟囱、二次录入、数据壁垒等。而这些现象产生的根本原因是什么呢?就是数据元没有做好,导致了标准低、交换成本高、数据混乱现象,使得跨地区行业融合困难。相信大家会提出很多问题。比如,数据元标准文件和标准数据元从哪里获取呢?行业标准怎么设计?如何建设公共数据元池、标准数据元池?数据元作为资产来说如何管理?如何进行匹配?各式各样的数据元需求都冒出来了。解决以上问题,我们需要很多的专业的服务机构,也需要数据元的服务平台,而仓颉数源做的就是这个事情。
五、一站式需求呼唤数据元服务平台
仓颉数源作为数据元综合服务商,是构建数据元行业规范,助力国家数据工程,为全球数据体系提供高质量、标准化的服务,为数据植入高品质基因,为数据质量再造提供整体解决方案,为全球数据自由流通构建一致性语言体系。构建全球数据体系的语言词典——数据元字典。仓颉造字,而我们则在数据世界里做好元词典。
1)平台介绍
仓颉数源所打造的平台--数据元公共服务平台,集数据、服务、平台技术于一体。整合数据元产业链资源,打造由数据元消费者、提供者、服务者、建设者、开发者、协作者、商机提供者等构成的数据元线上闭环生态体系和服务交易集散地,助力数据元供需对接和应用创新。政府、企业在做数据治理时、进行共享交换时、提升数据质量时,软件开发商在提供数据质量标准时,仓颉就是一个很好的工具。数据服务平台是首选的服务平台,我们可以看到一些界面化的栏目,包含数据元、数据元的服务、知识体系、平台的服务等等。这是某栏目下相关的指引(见下图),有非常多的项,对每一个数据元有很多个字段,包括编号、中文、英文名称、地域书名、分类、原始数据类型是什么、现在数据类型是什么、数据格式是什么、数据元应用场景在哪里、相关值域有多少、来源于哪个标准文件、发布机构是哪些,每一个数据元有一个详尽的字段去描述。
仓颉数源数据元公共服务平台产品栏目图
2)产品构架
整体架构上面,数据源自各行业、国家颁布的各项数据元标准文件,在平台上产生的数据元和从网络上采集到的数据元整理,经过数据元池清洗、比对,做到标准数据源池。功能层做到采集、建模、清洗、校验、分析、制定标签标注等工作。同时,充分利用知识图谱打造数据元图谱,实现连接和治理。数据元的应用场景有很多,我们还运用人工智能技术做了智能的标签体系。
仓颉数源数据元公共服务平台产品架构图
3)产品价值
仓颉数源产品的价值主要有四点:推动数据源标准规范的落地和优化、助力数据问题定位和数据质量升级,促进数据元资源集聚、流通与应用,实现海量数据元存储和有效管理。
4)业务体系
目前平台上已经有几十万的数据元及值域。主要的服务体系是采用平台+数据+咨询的服务模式,除了平台,我们会提供大量的数据元,提供相关产业的数据元标准API接口,定制数据元池。还包括数据元的质量检测服务、标准辅助设计、在线建模、软件标准认证、智能建库、池库制定,共同构成一个核心服务体系。
每一项服务都针对很多问题、包含很多功能。一是质量检测服务。主要是根据一些配置、规则、方法、指标对数据元资产进行在线监测,包括数据元统一传输情况、标准化程度、完善率进行可视化的结果呈现,帮助企业对自己数据源质量进行检测。二是池库的定制服务。很多企业、客户有不同的需求,在池库里可以选取特定行业进行总结和比对,从而进行关联,制定个性的数据元池。三是建模服务。通过大量的政府数据元、行业数据元,借助平台以标准字段自定义创建一些契合自身需求和业务的数据元模型。特别是政务数据源有很多模板,可以从里面调取、删选、更新从而形成自己的一套模型。四是软件数据元标准检测认证服务。当我们的软进企业通过数据元标准检测认证之后,当你去参加政府招标、国企软件开发项目时,大家统一的使用某一行业规范的数据元之后,与其他系统之间的交换、对接将会更容易、更畅通、更有说服力。可以说我的系统、包括字段,是按照某某行业的相关标准,每一个字段都有相关的标准来源。五是数据元在线标准设计服务。很多的企业、行业龙头在做相关的标准的研究和创新,我们通过平台可以辅助做设计,定制符合特定主题的数据元标准。
5)应用场景
丰富多样的应用场景。快速建模生成数据元基础库,通过对数据元的采集整理,结合建库的需求,按照数据元组合方法,快速建立各行业基础库,辅助构建标准核心数据元池。通过清洗比对、标准化处理等,构建自己核心的数据元池,为行业数据的评估清洗标准化、事项梳理标准表单建设贡献力量。很多政府项目都在在做表单梳理,我们也参与了其中。做好数据元的统一有助于我们做好多表合一、供需对接等等,在提升事项梳理效率和标准化程度上非常有帮助。在此我们制定了几个标准化的检测,还有基于数据服务创建应用模型,主要了解各方的制定需求。当前我们结合了国脉的数据基因一起协作参与了很多城市事项的梳理,包括标准数据元池的建设,为政府和企业提供了很多的公共数据元池。
仓颉数源数据元公共服务平台就介绍到这里,下面跟大家聊一聊未来。应该说未来已来,组织与组织之间一定是数据之战,企业和企业之间必然会进行更多的数据融合和交换,一定会进行更多的跨行业的数据交流。在这里希望大家记住仓颉数源,用好这个平台,用好数据元,解码数据标准,解码数据世界的未来。