国内首个指导区域数据资源化的知识型产品“政务逻辑数据模型(GLDM)”
- 发布来源:华傲大数据
前言
随着信息技术与经济社会的交汇融合,引发了数据迅猛增长,数据已成为国家基础性战略资源。大数据正日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要影响。当前,运用大数据推动经济转型升级、完善社会治理、提升政府服务和管理能力已成为趋势。
2015年,国务院印发《促进大数据发展行动纲要》,文件精神要求,加强顶层设计和统筹协调,大力推动政府信息系统和公共数据互联开放共享,加快政府信息平台整合,消除信息孤岛,推进数据资源向社会开放。通过促进大数据发展,加快建设数据强国,释放技术红利、制度红利和创新红利,提升政府治理能力,推动经济转型升级。随后,各省市纷纷出台了相关促进大数据大数据发展的政策文件。其中,贵州省更是在2014年就前瞻性地发布了《贵州省大数据产业发展规划纲要(2014-2020年)》。这些发展计划的落地实施,宣告了一个全新的政府大数据时代的到来。
“十五”以来,我国战略布局建设国家基础信息资源体系。明确到2018年,跨部门共享校核的国家人口基础信息库、法人单位信息资源库、自然资源和空间地理基础信息库等国家基础信息资源体系基本建成,实现与各领域信息资源的汇聚整合和关联应用。在加快建设完善这些基础信息资源库的过程当中,由于缺乏科学统一的顶层设计与建设标准,各地普遍面临着数据汇聚交换不畅、开放共享不足、应用落地不易的问题。
基于此,我们亟需一套理念先进、落地实用、具有高可扩展性的数据模型(LDM),来指导城市数据资源库的建设。
在世界范围,虽然以天睿(TeraData)、IBM和Oracle为代表的跨国公司在数据仓库领域垄断了金融、电信等行业的数据模型(LDM),并由此在包括中国的国际市场上获取了超额利润,但是,在政府领域跨地域、跨部门、跨业务的融合数据资源模型研究成果方面,目前在国际上还是一个空白。当前国内的大规模数据共享、整合、集中、开放建设,为研究跨地域、跨部门、跨业务的数据资源模型提供了非常好的创新土壤和实践机会。
在贵州,率先遭遇了数据跨地域、跨部门、跨业务清洗融合的挑战,为应对挑战,贵州提出了“块数据”的创新概念与理念体系,过去一年多来,贵州省公共大数据重点实验室围绕块数据与区域治理,联合贵州大学、华傲数据管理研究团队、北京航空航天大学、复旦大学、中山大学、东北大学的学者,展开了深入研究,正在基于块数据的创新理念和已经建立好的概念模型,总结贵州块数据实践,逐步建立块数据与区域治理的理论体系。
借鉴国际上其他行业的LDM(逻辑数据模型)研发经验,基于块数据逐步建立起来的理论体系,由英国苏格兰皇家院士樊文飞教授、国家千人计划特聘专家贾西贝博士、曾获国际数据库领域顶级会议SIGMOD和VLDB最佳论文奖、从Facebook归国的于文渊博士、曾被牛津大学校刊报道的徐磊博士及国内金融、政府领域数据仓库资深专家组成的华傲数据管理研究团队,联合贵州省公共大数据重点实验室、提升政府治理能力大数据应用技术国家工程实验室,总结过去五年包括贵州在内的国内主要省市区数据资源共享整合与集中的实践经验,推出了知识型产品——跨层级、跨地域、跨系统、跨部门、跨业务的“政务逻辑数据模型(GLDM,Government Logical Data Model)”,用以指导与规范城市数据资源库(数据湖)的建设与数据应用的落地,促进数据经济发展、完善社会治理体系、提升政府服务能力。
克强总理在全国推进简政放权电视电话会议上提到,“我国信息数据资源80%以上掌握在各级政府部门手里,但‘深藏闺中’造成了极大浪费。” 2016年10月中共中央政治局第三十六次集体学习,习近平主席指出“以数据集中和共享为途径,建设全国一体化的国家大数据中心,推进技术融合、业务融合、数据融合,实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务。”
跨层级、跨地域、跨系统、跨部门、跨业务的政务逻辑数据模型(GLDM)是衔接块数据理论体系和目前各省市区大规模开展的数据采集、共享、整合、集中、开放等实践的工程指南,也是省市区数据资源库(数据湖)建设的方法论,涵盖以ER模型表达的逻辑数据模型(LDM)及相应的概念数据模型和物理数据模型的指导建议、数据资源库建设与数据元表达的标准与规范、数据建模、建库、整合、清洗的开发环境与工具集、数据资源库建设与管理的最佳实践。
这一模型与相应规范、工具集和方法论体系,将会应用于跨层级、跨地域、跨系统、跨部门、跨业务的数据共享、整合与集中,以数据融合引领业务融合,助力将掌握在各级政府部门手里的我们国家80%的碎片化数据资源整合成高质量、高价值的数据资产。
1.产品概述
1.1.关于本产品
LDM是逻辑数据模型Logic Data Model的简称。通过数据和关系反映业务的一个过程,是进行数据管理、分析和交流的重要手段,也是IT和业务人员沟通的桥梁。
在金融、保险和证券行业,天睿(TeraData)公司的数据模型FS-LDM(Financial Services Logical Data Model)已经成为了事实上的行业标准;在电信行业,IBM和天睿公司的数据模型也占据垄断市场地位。 基本上,在传统数据行业,数据模型和标准都是被国外公司所垄断的,国内大数据厂商在实施项目的过程中要么是直接套用国外模型来实施,要么模仿国外模型出一个本地化的定制版本,但在模型的可复制能力上严重不足。
然而,在政府领域,截至目前,并没有能满足跨层级、跨地域、跨系统、跨部门、跨业务的统一政务数据模型来指导城市数据基础资源库的构建和开发。而导致这一现状的原因,主要有以下三个:
1)国外政府还没有大规模跨层级、跨地域、跨系统、跨部门、跨业务数据整合与集中的实践。首先,国外政府受社会条件、法律法规、舆论环境的限制,还没有大规模建设实现多种跨度的的数据资源库。其次,国外政府掌握的数据量只占了全社会数据的一小部分,不像我国,通过各类业务系统的沉淀,已经采集并掌握了超过80%的信息资源。没有数据,就不可能谈大数据,没有大数据,就没有形成大数据中心库的客观条件,也就不可能生成政府行业的逻辑数据模型。
2)我国政府大数据还处于发展的初级阶段。自我国2013年进入大数据元年以来,国家相继发布了系列政策文件,促进我国大数据产业发展,个别地市也陆续走马上线城市大数据运营管理平台等项目,启动建设地方城市数据基础资源库,开启了政府大数据时代。但由于各地发展大数据的基础条件不一,重点推进应用落地的领域不一,各业务委办单位数据汇聚共享开放程度不一,数据目录标准不一等客观原因,还处于多头探索、摸着石头过河的阶段,并未形成一套经过验证的政务逻辑数据模型。
3)学界理论与应用研究缺乏。在此之前,关于多源数据融合、数据清洗、数据质量、块数据的研究还在进行时,阶段性出来的研究成果还没有来得及应用于实践。在这方面,我们国家第一个大数据方向的973项目,由哈工大、人民大学、东北大学、香港科大和华傲数据联合开展的海量数据可用性研究,从2012年开始,历时五年,在数据的量质融合管理(数量与质量融合管理)方面产生了一批成果,但这个973项目一直到去年才刚刚结题。这些成果应用到实践中来,需要一些时间,也需要解决很多工程实践的问题。在数据质量方面,苏格兰皇家院士樊文飞院士的研究成果曾于2008年获得“英国计算机最高奖罗杰尼达姆奖”(新华社报道),这些数据清洗的研究成果虽然已经逐渐介绍进入国内,但还没有完全应用于实践。贵州省公共大数据重点实验室的块数据研究正在进行时,在此之前,成果尚未和实践有效对接。提升政府治理能力大数据应用技术国家工程实验室刚刚成立,这方面的研究正在筹划与展开。
而今,联合发布单位利用块数据理论与区域治理的最新研究成果,结合5年以来国内大数据城市建设成果突出的深圳、沈阳、贵阳等12个省区市不同层级政府的政务数据模型的设计和实施经验,凝练形成了可以广泛应用于国内大数据城市建设的政务逻辑数据模型--GLDM(Government Logical Data Model)。
GLDM的诞生,意味着大数据城市数据资源库的建设有了统一的建设流程,统一的数据标准,统一的数据模型和统一的方法论。它将终结大数据城市数据资源库数据标准缺失与不统一、缺乏顶层设计、信息处处孤岛、数据无法驱动应用等局面。
1.2.产品目标
GLDM产品必须达成以下目标才算成功:
1)、数据覆盖全。大数据政务数据资源库不仅仅需要获取各政府部门,如安全、海关、信用、财政、金融、税收、农业、统计、进出口、资源环境、产品质量、企业登记监管等领域数据资源,还需要对这些数据资源进行加工、清洗、融合、汇总、标记等处理,产生新的数据。这些新的数据,也是整个数据资源池(“数据湖”)的一部分。
2)、应用支撑给力。除了源数据可以直接支撑应用外,最重要的是经过处理后的数据,可以支撑决策支持、市民服务、政务数据服务平台、块数据等。
3)、数据标准丰富。引用国际标准、国内标准、行业标准、地方标准,以及自定义的标准来对数据做统一性规范。
4)、具备高可扩展性。一个可扩展的、动态的模型能够经得住时间的考验,当业务改变时,能够将对数据模型的影响减至最小甚至完全不受影响;
5)、拥有较高可用性。没有完美的模型,但模型至少能够满足当前需求。
1.3.范围
本产品只是建设大数据城市数据资源库的方法论,它只是一个知识型产品,并不是一个软件产品。
本产品也并不是整个大数据城市数据资源库的全部,它不可能包含某个或某些特定应用场景的描述和约束,但它会从一些应用的共性中提炼一些主题库出来。
本产品包括产品白皮书、实体关系(ER)模型(包含Powerdesigner ER模型和Excel版本)、概要设计说明书、详细设计说明书、数据标准文档、实施指南、推荐开发环境、内置工具集、说明文档以及自述文件(Readme)。
2.产品特点
GLDM是响应智慧城市、大数据城市治理的需求而设计的数据模型。通过多年的大数据城市项目建设,积累经验、迭代优化形成的成熟的数据模型。既能满足传统的数据分析和数据服务需求,也能动态扩展,适应新的业务变化。
2.1.高度自由的扩展性
GLDM是一个具有高度扩展性的模型,在GLDM模型的原子层(也即针对源数据的接口层)和整合层,严格按照三范式设计,保证了数据的无冗余设计。
通过这种严格的范式设计,可以保证模型的高扩展性。一旦新增加一个实体,只要将其与其它实体通过关联关系关联起来,则可以在不修改原模型的状态下实现模型扩展。
2.2.丰富的数据标准引用
GLDM收集了丰富的各地域(含国家)、各行各业、各个职能部门的数据标准,总计超过12万项,其中国家标准3。9万余项,行业标准4。8万余项,地方标准1。9万余项,国际标准1。8万余项。作为数据一致性的重要参考。按照GLDM模型流程开发的数据, 各行业、各职能部门甚至社会大众都可以按照标准方便地解读、利用数据。
GLDM针对人口、法人、证照、安全、海关、信用、财政、金融、税收、农业、统计、进出口、资源环境、产品质量、企业登记监管等领域,收集、整理并制订了相关标准,累计670余项,以形成对各类数据元的约束。
2.3.完善的元数据机制
在GLDM产品中,所有的数据元标准、业务描述,以及数据抽取、清洗和转换规则,全部存放在元数据配置表中。
通过读取并翻译数据抽取、清洗和转换的规则,可以生成数据处理的程序,将这些程序按规则调度起来,就可以处理数据。
同时,开放数据元标准、业务描述,以及数据抽取、清洗和转换规则的访问接口,再通过解析这些配置规则,就可以支撑对元数据进行详情展示、血缘分析和影响分析等应用。
2.4.先进的分层设计理念
GLDM在传统的数据仓库架构基础上,进行了许多创新改进,通过兼容传统数据仓库与大数据技术平台,使得数据仓库具有较强的先进性;同时采用先进的数据仓库多层多域的设计理念,特别是其中的原子层,它是针对政务仓库的特点进行了重点优化设计,使得数据仓库具有非常好的灵活性,高扩展性,也易于维护。
缓冲层:缓冲区是数据仓库的数据入口,其数据表模型与源系统完全一致,数据不会做任何处理,但是会加一个时间戳字段,供贴源层抽取数据用,缓冲层只保留一定周期的数据,例如保留一周或者一个月的数据,具体周期根据实际情况决定。
缓冲区的主要作用是:
1)防止后端数据处理出错时,再次执行时反复重抽会给源系统带来不必要的冲击。
2) 防止二次抽取数据时,因为源系统的更新导致丢失当时数据的快照。
贴源层:贴源层的数据保存了源系统数据的所有信息,并且在此基础上对源头数据做了历史归档、标准化等处理,该层存储了较长周期的历史数据(一般为三年),以保证能做历史数据分析。
贴源层的主要作用是:
1)历史数据归档,保证数据能做历史数据分析。
2)标准化数据,保证整个数据仓库用的是一套完整的数据标准。
原子层: 原子层是数据仓库中的最具有设计元素的层,也是最核心的层。它以某种形式组织或归类分散在各个源表中的信息项,并结合了源数据、业务需求,从数据和业务需求两个方向的考虑来设计,是具有高度抽象性、原子性等特点的层。
原子层的主要作用是:
1)通过具体形式的组织和归类,有效的避免了数据冗余、数据缺失等情况带来的数据不一致问题。
2)由于数据具有高度原子性,整个库的可维护性大大提高,信息能非常方便地溯源,而且集市层就能够非常灵活的设计宽表。
整合层:整合层是将原子层的多源数据通过一定的规则进行合并,最终整合成唯一的信息。合并规则需要经过反复验证,只有在若干规则中准确性最高的规则,才会作为最优规则。合并的时候,会衍生出很多标签或统计信息。如针对某人的电话号码,就可以衍生出如下指标:最早登记时间,最近登记时间,被多少个来源登记过,曾经被哪些人作为登记联系方式,在所有人中被最早登记的时间等。
合并层的主要作用是:消除数据的多义性,保证数据具有唯一准确性。
集市层:集市层是应用基础层,关联拼接整合区的片段表,将这些信息拼在一起形成各类应用需要的基础宽表;同时生成一些公共的统计指标表,以减少应用层的重复计算。
集市层的主要作用是:拼接联合生成基础宽表信息,为各种应用提供数据支持。
应用层:应用层是面向各类个性化应用的数据服务层,向外提供服务的方式为数据接口,所有的应用,都不允许直接访问数据。敏感数据都要进行加密、脱敏处理,例如身份证号必须加密。应用接口背后访问的数据,可能是表,物化视图,普通视图,文件或HDFS文件等。同时,数据还可能来自数据库、文件系统或大数据平台,因此在封装数据接口的时候,兼容了不同的存储介质。
2.5.随意切取的块数据
以一个物理空间或行政区域形成的涉及人、事、物的各类数据的总和及组合,其中包括点数据、条数据和面数据,这就是所谓的块数据概念。
GLDM通过包含行政区域信息在内的标准化的地址,将人口、法人、事件、物品等相关库的实体全部与标准地址建立关联关系,这样,就可以将它们落到市、区(县)、街道(乡镇)、社区(村)、网格(村)、楼栋、房间等单元中,就形成了“块数据”。
这些数据块由于对应有市、区(县)、街道(乡镇)、社区(村)、网格(村)、楼栋、房间,这样就可以按各种这些物理地域的大小进行数据切取和分发。
2.6.全生命周期的历史数据
在存储历史数据时,GLDM的方案是将它们保存在Hadoop大数据库中,利用Hadoop无限扩展的计算能力和存储能力,保障历史数据始终处于“在线”状态。
针对流水数据,则按时间流水保存,一定周期(如3年内)的数据保存在传统数据库,同时,所有的历史数据均转存到大数据库中。均按历史形成拉链数据,并且所有历史数据转存到Hadoop大数据库中。
针对资料类数据,则形成拉链数据,将形成的变更历史轨迹数据全部保存到大数据库中,并且采用月全量日增量的数据保持同步,这样,数据可以回溯到前一天前的任何时间点。
这些历史数据的保存,一方面保证了数据的存储安全,另一方面,则可以针对历史数据做变化分析。
2.7.明确规范的命名规则
制订了完善的表、视图、模式、程序、索引、序列、字段等对象的命名规则。表和字段的规则,甚至细到每一数据层,比如在缓冲层和贴源层,要求以数据来源的拼音首字母缩写来作为表前缀,以直观地标识某个表来源于系统。而原子层和整合层,就可以按数据域作为前缀,以区分各个库,如人口库前缀为PPU_,法人库为LGL_。到集市层,则以DM_加上应用的主题为前缀。
2.8.多平台的数据库支持
GLDM产品的设计,即兼容传统数据库,如Oracle、PostgreSQL等;也兼容使用不共享(shared-nothing)的大规模并行处理(MPP)架构的数据库Greenplum,它处理的数据量可达100TB级。另外,还支持使用大数据平台Hadoop 的Hive或Impala。
2.9.高度集成化的内置工具包
严格意义上来说,内置工具包并不是GLDM的内容,但作为一个可落地的产品,必须要有一些内置的工具包来辅助产品高效方便地落地。
内置工具包目前包含如下工具:初始化脚本、标准包、公共程序包、映射规则、通用的解析程序、辅助小工具。
其中,初始化脚本是系统产品落地时的初始化包,它包含的初始化创建表、序列、索引,以及一些系统必要的编码信息。
标准包主要是一些初始标准化落地的脚本,它负责将相关标准插入相关元数据表中。
公共程序包主要包含一些公共的程序代码,如身份证检验转换程序,姓名清洗程序,电话号码检验清洗程序等。
映射规则是指从原子层到整合层,集市层(支撑部分预置应用部分)的映射规则,将它们插入相应的元数据表中。
通用的解析程序主要用于解析映射规则的,通过解析这些配置规则,可转换成一个个ETL转换程序,再将这些程序通过ETL工具调度起来,就可以做ETL转换了。
辅助小工具主要是指一些方便开发、实施的效率工具,如利用简单的的配置生成规则的EXCEL模板工具。
3.资源库模型
GLDM资源库模型通过大量的政务数据项目提炼出公共基础库,包含政务数据模型中最基本的数据模型,是模型中最基础的组成。基础数据库划分为以下几个主题域:
人口信息资源库
法人单位信息资源库
空间地理信息资源库
宏观经济信息资源库
文化信息资源库
基于公共基础数据库的挖掘和结合业务数据,扩展出更加丰富的数据模型。满足基础数据以上的数据需求,根据普遍的数据需求,扩展出以下主题库:
电子证照库
自然人信用库
企业信用库
社会关系库
3.1.公共基础库
公共基础库作为GLDM的基础,是政务数据建设的基础和起点。公共基础库经过大量的项目提炼,也经过很多地市的实际使用的验证,保证了公共基础库的可靠性。使用公共基础库,使得数据建设无须从零开始,利用现有的成熟设计就可以满足很多数据需求,大大缩短项目建设周期,减少数据库建设风险。
3.1.1.人口信息资源库
人口信息资源库(简称人口库)包括个人社会活动的方方面面,按照个人生命周期的各个阶段进行建模,保证了模型的全面性;不依赖具体的源数据,保证了模型的独立性。下表作为人口的一部分,展示了最常用的人口相关的数据:
3.1.2.法人单位信息资源库
法人单位信息资源库(简称法人库,后文将统一使用简称)对政府机关、事业单位、企业、社会组织、民办非企业等社会机构相关的信息进行建模。包括法人在各个部门的登记信息,日常经营活动相关的信息。
3.1.3.空间地理信息资源库
自然资源是人类赖以生存发展的基础,合理利用资源才是可持续发展之道。而了解这些资源才是利用的前提。借助现代化的遥感和测绘技术,目前对自然资源和空间地理的知识都实现了信息化,但是数据分散在各个部门,难以从整体上把握这些信息资源。GLDM的空间地理信息资源库的设计就是为“上天入地”的数据资源提供一个统一的平台。空间地理信息资源库按照空间概念分为三层:
天上的:大气,航天卫星
地上的:土地和林业
地下的:海洋和水资源
目前,GLDM对该资料库的设计主要体现在其子库房屋资料库(包含行政区划)上,后续版本将进一步完善,敬请期待。
3.1.4.宏观经济信息资源库
宏观经济是反映经济状态的主要数据,对指导经济政策、调节经济指标有着至关重要的作用。宏观经济从宏观上理解社会经济活动的总体情况,依赖于各统计部门的统计数据。 GLDM宏观经济库根据宏观经济关注的重点,设计了接口良好的数据模型,方便统计部门快速上报积极数据。GLDM宏观经济库设计如下经济相关的数据模型:
经济发展
社会就业
公共事业
科技创新
可持续发展
重大投资项目
目前,该资源库并不在GLDM 1.0的范围,它将在后续的版本中提供出来,敬请期待。
3.1.5.文化信息资源库
一个地区仅仅有繁荣的经济是不够的,还要有丰富多彩的文化生活。为了不让那些散落在民间艺人手里的“技艺”被人淡忘和失传,也为了让文化更好的流传甚至发扬光大。很有必要借助信息化的手段记录建立全面丰富的非物质文化遗产库,既是保存,又是传承。GLDM在文化信息资源库方面的未来规划,主要是使用信息技术手段保留关于非物质文化的图片、音频、文字、影像等资料,以及利用结构化相关非结构化数据的描述信息,来构建整个库。
目前,该资源库并不在GLDM 1。0的范围,它将在后续的版本中提供出来,敬请期待。
3.2.主题拓展库
主题拓展库是在公共基础库的基础上,挖掘拓展出的更加丰富的数据模型。扩展库强调数据应用,以及利用数据辅助和提升业务。例如为了减少群众在办事办证过程中在多个部门来回跑的现象,利用各部门共享的数据快速审批决断,因而有了电子证照库;为了建立居民和企业的信用档案,为社会大众提供信用查询的服务,信用库应运而生;有了个人和社会的关系网信息,对掌握各类事件的传播影响非常重要,社会关系库就是为社会活动对象的关系建立的数据模型。
3.2.1.电子证照库
电子证照库实现了证件、证明、公文等官方机构开具的证照的电子化,证照主体——持证人在办事过程中,无需通过其他部门的证明来说明证照的有效性,只需要通过电子证照库查询比对就可以快速作出审批。大大减少群众办事流程,真正做到“数据多跑路,群众少跑腿”,既提升办事效率,又方便群众。
证照库的实体包含证照公共目录信息、证照照面元信息、证照基本信息、持证自然人主体信息、持证法人主体信息。另外,还有各种证照的照面实体化信息,例如城市排水许可照面信息,民办非企业单位预先核准通知书照面信息等。
3.2.2.自然人信用库
“人无信不立”,信用是一个人最好的名片,在众多的政务数据中,有自然人活动的地方都可能产生一个人的信用记录。为了挖掘与人相关的信用信息,GLDM设计了自然人信用库,为个人信用以及信用相关的应用提供基础数据。而且自然人信用库还拆分考虑个人非政务系统意外的信用情况,例如检察系统、行业组织等。自然人信用库主要分为以下几个部分:
基本信息,在人口库的基础上建立的一类视图
证照信息,在电子证照库的基础上提取与人相关的一类视图
良好记录,综合政府相关部门和行业组织对个人颁发的荣誉类信息
不良记录,综合政府相关部门、检察机关、行业组织产生的关于个人的不良记录
3.2.3.企业信用库
信用之于人是“名片”,之于企业则是无形的“品牌价值”,好的门面会吸引更多的消费者,相反坏的门面只会让消费者远离。诚信经营的企业会吸引更多的消费者,违法欺诈寸步难行。如何企业的诚信经营传播更广,对企业的失信行为公之于众成为社会大众和法人组织的共同需求。GLDM企业信用库就是为企业的“信用招牌”而设计的数据模型,通过挖公共基础库的法人库,结合互联网信息形成企业信用库。
企业信用库主要分为以下几个部分:
基本信息,在法人库的基础上建立的企业登记注册类信息视图
经营信息,从法人库中挖掘的经营活动相关的信息
证照信息,在电子证照库的基础上提取与企业相关的一类视图
良好记录,综合政府相关部门和行业组织对企业颁发的荣誉类信息
不良记录,综合政府相关部门、检察机关、行业组织产生的关于企业的不良记录
3.2.4.社会关系库
社会关系对于信息传播十分重要,每个社会成员都不是孤岛,相互之间存在着各种各样的社会关系。不同的成员影响力不同,影响范围也不同,对信息传播的速度和覆盖范围都有差异。为了掌握社会成员之间关系,利用数据建立社会关系网数据库,设计形成了GLDM社会关系库。
GLDM社会关系库,挖掘共基础库的信息,形成了社会成员常见的关系图库。下图展示了基于个公共基础库的人口库、法人库和房屋数据之间的常见关系图:
3.3.块数据库
3.3.1.概述
严格意义上来说,块数据库并不是一个实体库,它只是将各个具有聚合实体的集成在一起的一种方法论。GLDM产品充分考虑了块数据的设计理念,在模型设计的时候,使用标准地址,以及建立标准地址与各实体的关联关系,只有达到这两个条件,才能对数据进行切块。
3.3.2.块数据库架构
块数据架构图
数据从各委办局,应用系统是将更新的数据同步到智慧城市大数据基础信息库,经过清洗、转换和加工,形成以地址库为纽带,包含人口库、法人库、事件库和物品库等库的库群。然后通过数据分发、数据访问权限控制方式,将数据准确地分发给数据使用者(通过应用访问)。
在中心库中,地址库作为最核心的库,它需要将地址数据标准化,即使地址表达再个性化,只有在标准化后,才能将不同表达的地址指向同一个标准地址,也只有在标准化后,才能将地址落到区、街道、社区、基础网格这些行政区域上,从而可以按行政区域对数据进行分发。
当地址数据标准化后,还需要将标准地址与人口、法人、事件、物品建立关联关系,这样才能将数据块化。
4.应用场景分析
随着信息技术与经济社会的交汇融合,虽然各政府部门中存储着海量的政务数据,但是各部门间的数据都互不共享,没有进行统一的管理。如何行之有效地将这些数据应用起来,成为了各政府部门的共同难题。
通过GLDM就能很好的解决数据应用的难题。GLDM结合了先进的大数据技术和传统的数据仓库技术,对广泛分布在各个政府部门触角的海量零碎的政务数据资源进行收集、整理、清洗、转换、融合、分析和挖掘,打破各部门间的数据壁垒,实现数据共享,将各类数据充分的应用起来。为政府管理解决了一些实际性的问题:
融合分析各部门数据,为领导决策提供数据支撑;
分析挖掘各部门数据,提供各类市民服务;
融合共享各部门数据,建立智慧政务数据服务平台;
按地域块化数据,实现数据的按需安全分发。
4.1. 政务:决策支持(城市数据大脑)
政府领导做出科学有效的决策时,必须要有大量、准确、各部门的数据作为依据,而这些数据通常都是散落在各个部门,因此融合挖掘各部门的各类数据就显得尤为重要。从2013年开始,某市政府就利用“织网工程”项目解决了数据融合的问题。该项目的核心就是通过GLDM建立一个大型的政务类数据仓库,在这个仓库的基础上可以分析挖掘各类政务信息。截止到2017年5月该项目梳理、清洗了29个局委办,476张表,约100亿条数据(包含了从2013年到2016年底所有数据,即所有当前数据、历史数据以及支持各应用系统的应用数据),为政府领导作出科学的施政决策提供了有力的数据支持。
如下是通过GLDM建立的数据仓库可提供的部分决策支持数据示意图:
4.2.民生:市民服务(莫让数据误民生)
相信很多普通民众在生活中都遇到过“办事排队长”、“办理流程到处问”、“资料准备来回跑”、“各种信息反复填”、“政府平台遍地找”、“各种奇葩证明”等问题。这些问题的出现,大多数都是因为各部门信息化程度不够高、信息资源共享缺失导致,很多情况下,各部门之间的信息都是互不共享,未形成统一的信息资源,信息共享存在很高的壁垒。
针对以上问题,某市政府就专门打造了一款城市惠民服务APP,这是一款集成该市居民各类生活信息的城市级公共服务移动应用软件。是由华傲数据技术有限公司打造的一款城市级惠民智能服务平台。以“智慧城市”建设为基础,以“信息惠民”为宗旨,以广大市民能够足不出户、随时随地的享受优质服务和便利生活为目标,让百姓真正体验互联网带来的便利,整合政府相关部门和公共事业单位的相关服务资源和权威信息,为该市市民精心打造的一款本地化生活服务手机软件,为市民个性提供本人密切相关信息,以及医疗、交通、旅游、便民、政务等方面的信息服务。
APP的核心是需要融合、共享各类政务数据,将这么多信息数据进行有效的整合,最终形成便民的信息,是非常困难复杂的一个处理过程。而这个过程就是利用了GLDM去进行梳理融合的,真正实现了各类数据的收集、交换、共享、应用。如下是城市惠民服务APP总体示意图:
4.2.1.信息查询
目前市民对于自身信息的实时掌握还是很迫切的,虽然很多政务平台可以实现,但是需要在不同的业务部门获取,例如社保信息需要到社保局去查看,公积金信息又要到住建局去了解,违章信息又要到公安局去查看,这样获取信息就相对繁琐。如果通过城市惠民服务APP,你就可以随时随地查看各类信息,而不需通过不同的业务部门去多次查询,因为GLDM已帮助城市惠民服务APP融合了各部门的数据了。如下是信息查询示意图:
4.2.2.主动服务(数据驱动业务)
通过GLDM融合了各类数据之后,再利用大数据技术进行分析挖掘,可以挖掘出许多有价值的主动服务。例如有些公益组织需要招募志愿者,如果没有一个统一的平台发布信息的话,是很难实现。而城市惠民服务APP通过GLDM就可以实现这样的主动服务功能。首先该社会组织可以在APP上主动发出匹配条件,有意愿并且能匹配上条件的市民就可以报名参与相关招募。除了这种志愿者招募之外,也可以推送“高龄津贴”领取服务、“敬老优待证”领取服务、“少儿医保”办理服务等等。如下是主动服务示意图:
4.2.3.预约免排队
很多市民在各个行政部门办事情的时候,排队是必须的,而且可能一个上午就耽误在排队上,这样不仅浪费时间,办事效率也相当低。很多这样的事情如果通过一定的技术,是完全可以解决这一难题的。目前我们通过GLDM融合了各类政务数据之后,实现了自动预约功能,为市民节省了宝贵的时间。如下是预约免排队示意图:
4.2.4.流程优化(数据支撑流程再造)
目前,许多业务的办理是存在许多可以优化的地方的,以“计划生育证明”为例,市民在办理计划生育证明过程中需要往社区工作站和街道两处跑(首先要到社区工作站提交材料,然后去街道验证原件并打印)。大部分群众对准备材料和办事路程不十分清楚,如果材料准备不足,就可能要往返跑路,费时费力,群众意见较大。而通过GLDM融合各类数据之后,各类资料都可以网上获取,不用再费时费力。如下是通过融合数据精简流程后的示意图:
4.2.5.自动填表(数据便民提效)
很多市民在不同的部门办理业务时,需要填写很多表格,但是很多表格填写的是相同的基本信息,如此反复填写相同的内容,就显得相当繁琐。为了避免这种资源与时间的浪费,我们可以融合各类政务信息,提炼出这些基本信息,然后统一获取这些基本信息,就有效地避免了重复填写。GLDM就很好地解决了这一难题,如下是自动填表示意图:
4.2.6.关系证明(不用证明我爸是我爸)
新闻上报导的各种奇葩证明屡见不鲜,例如要证明你爸是你爸,要证明你没结过婚,要证明你没有要过孩子,这样那样的证明,听起来莫名其妙,办起来更让人东奔西跑。如果有一个平台能给出各种关系的话,那么事情就迎刃而解了,再也不用为这种奇葩证明东奔西跑了。GLDM不仅融合了各类信息,也深入挖掘出了人的各种关系。如下是人口关系证明示意图:
4.3.产业:数据开放与增值服务
基于GLDM形成的数据资源库,其中的非隐私、可公开数据,比如交通数据、气象数据、商事主体数据、政府信息公开数据等,可以通过政府数据开放平台向全社会开放。通过开放数据支撑创新创业,数据的能量可以在开放过程中层层放大,全国各地的数据开发者往往可以开发出数据收集者和数据拥有者想象不到的应用。
下图是某市的一个数据开放平台,它是基于GLDM模型建立的大数据资源库之上的应用平台。该平台通过提供数据服务API接口的方式,向公众提供非敏感、可公开的政府掌握的数据资源。
其中的隐私数据可以通过引入授权加工商,以数据产品化的形式将数据资源研发成脱敏的数据产品,推出数据上的增值服务。数据资源库通过数据开放与增值服务这两类应用,可以促进数据产业,培育数据支撑的创新创业和引进数据企业形成区域大数据生态,本地培育与外地引进并重,发展数据经济。
4.4.政府内流通:数据共享服务平台
政府部门间的数据如何共享,这对于一个想建立“智慧城市”的城市来说,是首先要解决的难题。“智慧XX政务数据共享服务平台项目”就是该市辖区为解决该区各部门的数据共享而开发的。该项目是为了支撑智慧城市建设,加强政务信息资源的统筹和共享利用,增强信息资源的采集整合、集成分析、服务应用能力,构建跨部门、跨层级、跨平台的数据共享和应用格局,最终实现“智慧城市”,提高社会管理能力和公共服务水平。
在该项目中,GLDM得到了重要的应用,GLDM的强大的元数据管理功能,通过数据编目,为数据共享目录、数据资源编目提供完美支持,通过开放接口和应用,为各部门提供数据资源目录报送,进行数据跨部门共享。如下是数据共享服务平台的示意图:
4.5.数据块化:块数据应用
4.5.1.精细的块级决策分析
通过实现人口、法人、房屋、物件、事件等所有实体的块化,可以在不同大小的块上做决策分析,这样就可以大到一个市,小到一栋楼,都可以对块内的信息做出准确的数据统计和分析,以支撑更精细化的决策。
4.5.2.实时的块级事件分发和影响分析
有了数据块的基础,就可以找到每个事件相关的所有人口、法人、房屋、物件等,一方面找到每一个事件的处理责任人及相关上级处理责任人,从而实现实时准确的事件分发和监督,另一方面,根据事故蔓延趋势进行影响范围分析和区域划定,从数据库中提取各类有用信息,方便地进行准确分析。
4.5.3.块上地理标注(支撑属地管理)
通过将新产生的信息块化,并与已有块数据匹配,找到该信息对应块的地理标注,从而可以对新产生的信息进行地理标注,或者说对每一项数据打地理标签。
4.5.4.块引用:避免数据造假
通过数据块化,将每一个新产生的数据匹配到合法的“块”,无法匹配到合法“块”或者与“块”内数据有冲突的数据有可能是数据造假,比如,引用了不存在的楼栋,婚姻状态与已有数据的冲突等。可以实现从源头上发现并解决问题。
4.5.5.块服务:主动公共服务
通过数据块化,可以将服务对象的最新信息推送到相关服务职能人员手上,从而实现主动服务。如某市民刚刚生育一小孩,那么对应社康中心人员或对应网格员就了解到这一信息,从而做出相关的主动基本公共服务。
结束语
GLDM经历了五年的打磨验证,已经趋于成熟完善。在五年的实践中,GLDM经历住了各种复杂情况的考验,在完善产品的同时,也为客户解决很多实际性的问题,得到了客户的高度认可。
但是,GLDM现在还远远称不上是一个完美的模型产品。目前的GLDM产品既是一个产品的发布,也是一个产品生命周期的第一个里程碑,是持续产品研发迭代的第一个成果。目前的GLDM还处于1。0阶段,我们会结合国内各地的大数据实践,特别是八个国家大数据综合试验区的实践,推出GLDM2。0、3。0版本。
首先,由于各地各级政府关注的应用方向千差万别,通用模型产品往往不可能囊括所有的应用,即使通过扩展主题库已经包含了某个应用主题,但是由于本地的个性化需求也要有相应的调整,这个时候,就需要GLDM产品的扩展性来保障这些要求。可以将GLDM产品比作一个Unix内核,在这个内核基础上,则可以派生出各种Unix主机、各种Linux发行版、苹果的IOS系统和Google的Andriod等分支体系。当然,一些有一定共性的需求,如决策支持、证照信息、信用档案等,可以预置在模型产品内,应类似于操作系统中的FTP服务一样,即使各地有个性化的需求,也可以通过对现有模型的插拨式扩展来实现。
其次,罗马非一日之功。由于没有充分的项目验证,在第一版发布的GLDM产品中,针对“空间地理信息资源库”只对房屋部分展示设计,而“文化信息资源库” 和“宏观经济库”则还没有建立相应的数据模型。即使是已经建设好的“人口库”和“法人库”也会随着时间的推移进行相应的更新和调整。因此,随着后续版本的推出,现有的模型会随之有应用的更新,没有包含的模型也会陆续补充进来。
最后,城市管理者即政府主管部门应该有必要的数据思维,在机制体制创新的背景下,着力推进委办局之间数据的共享交换,打破本位主义,破除数据孤岛,才是政务逻辑数据模型能够真正发挥作用的重要保障。
GLDM1.0的发布,虽然存在一些不足的地方,但我们有信心在不断的迭代完善产品,打造一款具有中国特色的数据模型产品,填补国际空白,为中国的“大数据城市”建设贡献一份我们的力量,为世界的大数据实践贡献一份中国力量。