一 数据治理准则简介
在数据生命周期中,需要思考组织、元数据、隐私、数据质量、业务流程整合、主数据整合和信息生命周期管理等几个问题。
(1) 组织。组织需要考虑将大数据纳入其总体框架,包括章程、组织架构、角色和责任中。
(2) 元数据。大数据治理计划需要将大数据与企业的元数据库进行整合。涉及以下活动:
将大数据属于纳入业务词库。
从hadoop中将技术元数据引入元数据库。
确保数据血缘管理者能够将数据流从hadoop引入技术元数据库。
(3) 隐私。大数据治理需要识别敏感数据,并制定有关敏感数据的可接受使用的政策。政策需要考虑因大数据类别、产品和国家而异的规制。
(4) 数据质量。数据质量管理准则包括测量、提升和论证质量以及整合组织数据的方法。
(5) 业务流程整合。必须识别大数据的核心业务流程,因而必须识别支持大数据治理的关键政策。
(6) 主数据整合。需要制定有关将大数据整合到主数据管理环境的政策。
(7) 信息生命周期管理。规制和业务要求,决定何种数据应保留再运营和分析系统中,何种数据要予以归档、何种数据要予以删除。
二 数据治理准则的最佳实践
2.1 大数据治理的组织
大数据治理计划需要实施以下最佳实践,以提高组织的协作性:
(1) 绘制关键流程图并建立职责分配模型,以识别大数据治理中的利益攸关者。
(2) 确定新角色和既有角色的适当组织
(3) 酌情任命大数据主管。
(4) 酌情增加大数据责任。
(5) 建立承担包括大数据在内的混合式信息治理组织。
2.2 元数据
(1) 创建一个体现关键大数据术语的业务定义的词库。
(2) 理解对hadoop中元数据的持续支持。
(3) 对业务词库中的敏感大数据进行标记。
(4) 从相关的大数据存储中输入技术元数据。
(5) 将相关的数据源与业务词库中的术语进行链接。
(6) 使用运营元数据监测大数据的流动。
(7) 保留技术元数据,以支持数据血缘和影响分析。
(8) 从非结构化文件中采集元数据,支持企业搜索。
(9) 扩展既有的元数据角色,将大数据纳入其中。
2.3 大数据隐私
(1) 识别敏感的大数据。
(2) 对元数据库中的敏感大数据进行标记。
(3) 应对国家、州省层面的隐私立法和隐私限制。
(4) 管理个人数据跨国界流动的情况。
(5) 监控特权用户对敏感大数据的访问。
2.4 大数据质量
(1) 与商业上的利益攸关者协作,建立并测度大数据治理质量的置信区间
(2) 利用准结构化和非结构化数据,提高数量稀疏的结构化数据质量
(3) 使用流数据分析技术解决内存中的数据质量问题,无须将中间结果输入硬盘
(4) 任命对信息治理委员会负责的数据主管,由其负责提高测度的质量
2.5 业务流程整合
(1) 识别将会受到大数据治理影响的关键流程
(2) 建立关键活动的流程图
(3) 针对业务流程中的关键步骤,制定大数据治理政策
2.6 主数据整合
(1) 提高主数据的质量,以支持大数据分析
(2) 利用大数据提高主数据的质量
(3) 提高关键参考数据的质量和一致性,以支持大数据治理计划
(4) 审视社交媒体平台政策,以确定与主数据管理整合的程度
(5) 从非结构化文本中挖掘有用信息,以丰富主数据
2.7 管理大数据的生命周期
(1) 基于规制和业务要求,扩展保留时间表,将大数据包含其中
(2) 提供法律保留区,并支持电子证据展示
(3) 压缩大数据并将其存档,降低IT成本,提高应用绩效
(4) 管理实时流数据的生命周期
(5) 保留社交媒体记录,并符合规制要求,并支持电子证据展示
(6) 基于规制和业务要求,正当合理地处置不再需要的大数据