完成数据治理体系的整体规划后,需要针对体系内的六大环节开始逐个突破。作为数据治理体系最前端的两个环节,数据标准管理体系和数据质量管理体系可谓整个数据治理工作中的“基础支撑”,今天就来介绍这两部分的工作应该如何进行。
数据标准管理体系
一、统一管理流程
目前全校范围内缺乏专业化的信息标准管理流程,部门间缺乏沟通的统一渠道,导致标准变更和发布缺乏制度化要求,容易形成难以清理的问题数据。在短期规划中,首要提升快速解决业务难题的能力,降低业务操作复杂度。
因此,采用简明实用的管理流程是标准化快速见效的重要手段。可以参考如图5的信息标准化管理流程。
1.管理流程:包含信息标准的新建、修改、注销和发布等相关流程。
2.应用流程:信息标准在需求编制时的应用、冲突协调解决流程。
图5 信息标准化管理流程
二、数据标准建设
1、现状分析
进行系统调研、建立数据字典以及数据接口的规划和架构
分析和诊断差距、不足、工作重点
2、定义初稿
定义标准体系
定义内容、主题分类、数据属性、代码
3、意见征询
意见征询、宣传讲解、意见收集
意见审议、意见分析、修订完善
4、现状分析
标准会签
标准发布
图6 数据标准视图
数据质量管理体系
一、全量数据质量监控系统DQAS——瑶光
随着DT时代的到来,各种数据管理、利用方法日新月异。然而数据预处理、数据质量管理技术的发展却相对有限,很多数据预处理和质量问题,需要人工手工完成。据统计,对数据进行利用之前的预处理工作占整个数据工作量的70%——80%,我们迫切需要对数据质量进行监控。
DQAS全量数据质量监控系统(全量数据产品线“北斗七星”中的一员,我们称作“玉衡”),这是康赛基于EDQAF教育数据质量评估框架(元规则库)自主研发的数据质量监控系统,可以更高效率地进行数据质量管理,为后续数据利用提供更好基础。
DQAS集数据快速评估(列剖析)、数据质量检测、数据质量量化监控、数据质量报告,脏数据库管理于一体,利用EDQAF元规则,有针对性地创建全面的数据质量业务规则库。其功能特性有:
· 无SQL代码,可视化业务检测规则设计
· 大数据可视化数据质量报告
· 业务部门数据质量独立报告
· “脏数据库”管理,数据质量治理的真凭实据
技术特性有:
· 首个EDQAF教育数据质量联机评估框架
· 规则描述语言RDL支持规则迁移
· 敏捷数据剖析
· 相似重复数据标记
· 数据质量Q值量化指标
· 基于内存数据库操作,大幅提高效率
· 基于数据可视化技术的质量报告管理
二、数据质量管理闭环
图6 数据质量管理系统技术架构
在数据源层,DQAS支持各种数据库,支持Oracle、Mysql、Sybase、 DB2等各种主流数据库。
在业务层, 利用EDQAF元规则,结合业务和数据质量监控点可以产生数据质量规则库,规则的执行由DQAS-Engine完成。
DQAS实现了测量规则运行环境与规则设计环境的分离,任务以服务的形式运行。通过网络连接,用户可以远程添加、删除数据剖析及监控任务,可以远程控制(启动、停止、定时、设置优先级等)任务的执行,远程查看任务执行状况。
核心组件EDQAF元规则、业务测量规则RDL,脏数据库管理DDM是实现数据质量监控的关键技术。EDQAF元规则最主要的功能是定义完善的数据质量体系基本规则。业务测量规则RDL是按照业务场景配置产生的数据质量检测规则,系统会生产RDL语言描述业务测量规则。脏数据管理是将数据质量测量中发现的数据进行标示、隔离存储,以便于后续的数据清洗和数据变更,同时脏数据库也可以用于错误数据模式挖掘,为将来的智能数据质量检测做好准备。