摘要:近年来信息技术飞速发展, 随着云计算、大数据等技术的出现, 人类社会进入大数据时代, 面对大数据在政府治理领域带来的变革潜力和创新空间, 本文研究以政务大数据治理融合平台建设, 提升社会服务效能, 推动智慧城市的发展。
1.引言
随着信息技术的飞速发展, 各领域的数据量都在爆发式增长, 尤其在云计算、物联网、移动互联网等IT技术得到广泛应用之后, 数据的增长实现了从量变到质变的转型, 大数据如浪潮般席卷而来, 人类社会进入大数据时代。大数据不仅仅只是一次颠覆性的技术革命, 更是一场思维方式、行为模式与治理理念的全方位变革, 尤其在政府治理领域, 大数据带来了巨大的变革潜力和创新空间。在“全面深化改革, 推进国家治理体系和治理能力现代化”的时代背景下, 应充分重视大数据在政府治理中的重要价值, 牢牢抓住大数据为政府治理提供的创新机遇, 切实提高各级政府部门的治理能力。
政务大数据治理融合平台
政务大数据治理融合平台是突破传统政务信息化项目建设思路, 打破独立单一系统应用壁垒, 重塑数据归集渠道和模式, 凝聚纷繁散落的碎片数据, 采用国际领先的大数据质量管理核心技术, 利用集约化建设策略, 结合互联网+、机器学习、人工智能、云计算和可视化技术进行建设。
图1 政务大数据治理融合平台架构图
制定数据标准规范体系
政府部门众多, 且存在跨部门、跨系统的数据交换, 各系统建设难免出现异构现象, 数据格式、类型不一致, 数据质量问题突出。统一数据标准是各局点之间互联互通、信息共享、业务协同的基础, 结合电子政务建设的实践体会, 运用先进适用的信息技术进行数据治理, 通过顶层设计和统筹规划, 建立针对当地政府的数据标准体系, 从根本上解决各部门各系统数据存在的不标准、不完整、重复、错误、不一致等数据质量问题, 使数据在整合、应用的过程中实现统一标准的管理, 达到提升整体数据质量、实现信息共享、信息交换、信息关联的目的。
标准规范是整个政务大数据融合治理平台项目建设的基础, 保证了项目建设推进的有效性和规范性。标准规范是项目系统建设的基本准则, 可确保各应用系统建设的互联互通的技术支撑, 贯穿于整个项目的规划设计、建设管理、运行维护等全过程。在结合实地调研情况下, 制定与当地政府相关的标准规范, 包括但不限于:
3.1 数据标准管理规范
对已有国家标准, 省、市等地方相关标准, 按照标准规定进行编码。对于目前无现行标准规定的数据, 根据本项目的建设需求, 制定相应的编码标准, 以保证未来数据在各层面的共享和交换。
3.2 数据安全管理规范
数据安全管理规范:从技术、管理、人员的不同角度, 编制数据安全管理规范, 包括数据等级分级保护、数据存储安全、数据传输安全、数据访问安全等规范。
3.3 数据质量规范
数据质量规范包括数据质量定义与数据质量管理范围、数据质量管理的组织与职责、数据质量问题发现、数据质量问题分析、数据质量提升、数据质量度量规则管理等方面。
3.4 数据管理技术规范
制定数据管理技术规范, 明确数据操作的程序、规则。数据管理技术规范应包括但不限于:数据转换标准、数据定义标准、数据存储标准、数据安全管理标准、数据质量检验标准。数据转换标准包括增量比对、数据筛选、数据格式检查与转换、数据标准化、数据拆分、数据关联等。数据定义标准包括表命名规范、索引命名规范、表空间命名规范、过程命名规范、视图命名规范等。数据存储标准包括设计数据实例划分、部署逻辑、空间分配, 制定数据集群、镜像和备份策略等。数据安全管理标准包括提出各类突发情况数据安全应急机制、处理方法和应急预案等。数据质量检验标准包括提出数据质量检验的依据, 编制数据质量验证评价的程序、规则和方法, 提出业务数据逻辑规则和数据完整性规则, 列出数据质量验证常见问题及其相应处理方法等。
3.5 数据服务技术规范
制定数据服务技术规范。制定提供数据服务时的程序, 数据更新制度, 更新操作规则。数据服务技术规范应包括但不限于服务接口目录、服务接口标准、服务定义标准和服务协议标准。服务接口目录包括接口的类型、方法、参数、数据格式, 及报文规范等。服务接口标准包括数据格式统一原则、服务定义惟一性原则、服务无状态原则、服务部署原则、服务组合原则、报文内容处理的原则、出入参设计原则、规则校验的原则、同步调用原则、统一入口原则、持久化原则。服务定义标准包括请求报文规范、响应报文规范、确认报文规范, 制定各部门数据交换的交换模式、资源形态、交换通道、数据格式和内容、交换频度与校核操作规范等, 并设计相关模板。服务协议标准包括服务编码规范、操作编码规范、异常编码规范、请求编码规范、版本编码规范、应用编码规范、服务管控规范等。
数据治理融合平台
4.1 数据集成管理
作为数据融合与数据治理体系的一个环节, 负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成, 最后加载到数据仓库或数据集市中, 成为联机分析处理、数据挖掘的基础。
基于集成开发工具, 实现对数据库连接、集成管理、节点管理、数据抽取、数据转换、数据加载及数据流管理等功能。在Unix、Linux、Windows等操作系统环境下, 实现多数据库、日志、XML、文本、HTML等多元的数据源进行集成操作。
4.2 数据标准管理
数据标准管理是基于数据标准管理系统来提供的。数据标准管理系统主要针对核心数据、系统间交互数据定义的共有约束, 数据标准管理方案设计应该包括数据标准、数据元、主题分类、制定组织、用途描述等信息。同时数据标准管理系统应支持对标准相关信息进行增、删、改、版本管理、审批、发布等服务功能, 确保标准及时满足业务需要及规范化管理。
数据标准管理系统是数据质量好坏的评价度量指示器, 它从元信息、数据标准、数据质量规则等角度形成数据模型、数据操作规范、数据质量要求以及数据改进提升的数据治理核心功能和业务应用, 可以自动生成数据质量稽查报告。数据标准管理系统内置面向客户自身业务特征相关的全方位数据标准集合, 支持数据标准的形式化、规范化定义, 支持数据标准的实时、定时和条件执行, 支持数据标准的全生命周期管理。系统提供六大规则即函数依赖规则、字典规则、值域分析、SQL规则、包含依赖规则、正则表达式和自定义标准包接口;可以扩展各种或各类型临时定义的或新增的标准, 从数据的一致性、合规性、关联性等多个方面进行全方位的标准化稽查和处理。
4.3 数据质量评估
数据质量评估包括数据概况统计、数据列分析、数据关联探索、质量评估等, 并支持超大数据集。数据概况统计包括Schema概况统计、表概况统计、敏感信息探查、主外键关联探索。数据列分析是对记录数量、空数据和重复/非重复数据的分布统计、最小值、最大值、中间值、极值、数据长度/数据方差分析等进行基本分析;对列的数据结构进行正则表达分析;同时对字段数值的出现频率和分布进行分析, 使得用户能在列数据的维度上得到全面的分析评估报告。数据关联探索是对数据间的函数依赖和字典规则进行智能探索, 发现潜在的数据规则, 而且也允许用户通过人工定义相关规则对数据进行探索;同时在正式探索数据之前, 本功能还能智能地对所有相关规则进行校验, 合并相容规则、剔除冲突规则, 形成质量评估的规则集, 用户还可以对这些规则集进行筛选, 选择合适维度的评估规则, 最后对数据质量进行评估并给出质量分析报告。质量评估是各个业务系统的数据进行质量评估, 产生评估报告, 并支持报告的导出。包括评估报告生成、评估报告下载。
4.4 多源数据比对
数据比对系统是根据预定义的数据比对和校验规则, 对数据进行差异分析和异常分析, 对于分析的结果, 反向推送给数据提供部门, 进一步提升数据质量。同时可以配置为一个自动化的流程, 定义比对的时间、比对的业务规则进行数据比对工作。数据比对是数据质量管控的一个核心内容, 重点就是实现数据的完整性和一致性检查, 提升数据质量。由于本身数据汇聚的问题或者由于数据源头管理不善等原因导致了大量的数据不一致性。
本系统提供数据比对配置, 管理和调度功能, 通过可视化配置比对任务, 并进行任务调度, 系统根据比对规则, 进行数据比对, 并找出数据差异, 提供差异数据的导出, 同时统计数据匹配情况。
系统功能涉及比对资源管理、比对规则管理、数据比对引擎、比对内容展示、数据比对报告。
4.5 数据质量工单
为了及时的发现问题数据, 包括残缺数据、错误数据、重复数据等, 同时, 能够及时来修复这些数据, 因此, 对于城市政务信息资源库的数据需要提供数据质量提升服务, 保障发现问题数据的及时性, 以及完善快速处理问题数据流程。
具体通过数据质量提升系统来实现数据质量提升服务。对数据质量进行实时监测, 结合数据稽查, 进一步建立全面的、完整的数据质量提升规则。
4.6 数据安全管理
数据安全管理系统涉及权限管理、安全监控、日志审计以及数据脱敏管理, 保障数据安全。权限管理是根据权限管理、用户管理、角色管理、权限控制等方式对数据进行安全管理。安全监控是对数据采集、数据抽取、数据清洗、数据融合以及数据服务支撑等过程进行监控管理。日志审计是应用日志记录, 需记录所有登陆系统、访问、修改、添加、删除数据的行为。通过对系统日志内容的分析、归纳, 使管理员了解系统目前的状态, 检查到安全漏洞、何时何人试图违反安全策略等情况。
数据脱敏管理:根据政务数据敏感程度、使用对象、数据用途不同等对数据进行数据脱敏, 确保政务数据安全。
4.7 数据质量监测
通过数据质量监测系统, 对数据质量进行实时监测, 结合数据稽查, 进一步建立全面的、完整的数据质量监测规则。监测规则管理是负责规则的编写、导入、规则维护、规则校验。处理流程可视化是从宏观查看总体的处理流程, 也能从微观了解到没一个数据表、每一个数据字段的加工过程。数据质量监测是通过数据质量评价模型, 对每一个清洗加工后的政务基础信息实体对象进行评级。如对每一个人口实体对象的数据质量通过其得分进行评价, 直观了解数据的质量情况。数据标签管理是对数据进行打标签, 如人口数据, 按照居住、工作、学习、办事、落户等方面进行打便签, 能够精确到每一类人群、每一个个体。质量监测报告是在建立起数据质量监测服务体系之后, 要求定期根据数据质量监测的成果, 形成相应的定期监测报告。
4.8 元数据管理
元数据管理系统, 对元数据的采集、存储、维护、更新、安全等进行管理。主要功能模块包括元数据模型管理、元数据采集管理、元数据维护管理、元数据分析、系统管理等功能。
4.9 数据治理融合服务
数据清洗融合服务是基于数据治理数据体系和相关的标准规范, 针对信息资源库数据中存在的问题, 进行数据的修复及质量清洗, 实现数据的去伪存真、纠错补全、统一规范、合理关联、持续优化。数据清洗融合服务的具体目标是修复数据中的以下问题:重复性问题:发现并清理重复记录。
关联性问题是找出数据间的关联关系。完整性问题:保证数据的完整性。合规性问题是按行业标准补充和修正数据。一致性问题是进行数据间一致性的相互验证。正确性问题是进行数据间正确性的比对分析。
数据清洗前, 需要对业务逻辑进行梳理, 在政务数据模型的指导下, 编制信息资源库的目录, 并设计清洗规则。根据数据问题的特性, 对于可通过技术方式修复的数据, 借助ETL工具进行清洗, 对于不可技术修复的数据, 借助工单系统进行人工清洗。清洗的结果是数据治理成果的体现, 要对客户进行反馈, 同时为了保障清洗规则的准确, 需要周期性检测清洗规则, 对有缺陷的规则进行调整优化。
5.结束语
政务大数据治理融合平台建设, 充分利大数据挖掘、云计算等先进技术, 有效整合各方信息资源, 实现“人、地、物、事、组织”的网格化管理, 从而带动社会管理源头治理体系、动态协调机制、应急管理体制建设, 实现社会管理“精确化”、社会服务“人性化”, 提升社会服务效能, 并为实现智慧城市奠定信息化基础。