前言:
大数据是一个事关我国经济社会发展全局的战略性产业,大数据技术为社会经济活动提供决策依据,提高各个领域的运行效率,提升整个社会经济的集约化程度,对于我国经济发展转型具有重要的推动作用!2016年,由中国首席数据官联盟与网加时代网发起并承办,北京大学信息化与信息管理研究中心、中国新一代IT产业推进联盟、数邦客协办的"影响中国大数据产业进程100人"大型人物专访活动全面启动,被采访对象分别来自政府、产、学、研、企各个领域,他们将从不同角度,不同层面向大家阐述当前大数据产业热点、难点、疑点问题,为中国大数据产业健康、持续发展探索经验、保驾护航,敬请关注!
第四十四期专访人物:中国首席数据官联盟专家组成员,联盟公共事业专委会副秘书长,北京市燃气集团信息档案中心总工程师 王广清
王广清,首席数据官联盟专家组成员,联盟公共事业专委会副秘书长,北京市燃气集团信息档案中心总工程师,主管基础设施、信息安全、ERP系统、基础应用平台等的建设及运维工作。拥有19年IT从业经验、17年的项目管理经验、14年大型数据中心IT架构规划和设计经验,主要兴趣和研究方向:信息安全、虚拟化/云计算、容灾/备份、企业IT架构规划、数据资源管理、ERP建设和运维、移动应用管理、IT运维管理、项目管理等。曾获得北大CIO评选的"2015年度中国优秀CIO"。
本期特邀嘉宾中国首席数据官联盟发起人鲁四海,就传统企业数据治理及大数据应用与王广清先生进行深入探讨。
鲁四海:有观点认为,企业谈大数据前,应该先做好数据治理,您怎么看?
王广清:我同意这个观点。大部分企业已经完成了ERP、CRM、供应链、协同办公等企业信息化系统的建设,但这些业务系统在初期大都是一个一个的数据孤岛,并且底层数据库都是经过专业设计、复杂度较高,在数据使用上存在数据不标准、数据不一致、数据完整性差等问题。
企业为了实现数据资源在组织内部的对接和共享,为经营决策提供及时、可信的支撑,就需要避免将不标准的、不一致的、不完整的数据输入分析系统,影响分析结果。
为保证数据的准确性、完整性和一致性,就需要对各个系统的数据源以及输出的数据资产进行治理,为后续的大数据分析提供输入要求和输出标准,以保证数据质量。
鲁四海:数据治理的现状与挑战是什么?
王广清:企业的数据普遍存在着如下问题:
1. 数据分散在众多系统中,每个系统都在局部进行数据定义、数据分类、数据主题域划分、数据模型维护,缺乏统一的、全局的数据视图;
2. 缺乏统一的数据分布规划,数据的访问、变更、转换、清除等权限定义不清晰,无法保证数据在流转过程中的一致性;
3. 各单位、各应用系统间存在数据编码规则不一致的问题,以及存在重复编码的问题;
4. 数据加工处理与流转中存在相当多的手工过程,缺乏对数据加工、流转过程监控与管理的有效方法,导致数据在时效性、准确性、真实性上无法保证;
5. 上报的指标数据存在口径不一致的问题;
6. 对于敏感数据缺少统一的数据安全分级办法及授权机制等。
这些问题会对企业的业务经营决策及信息共享带来许多问题,这些问题的根源其实就是"企业没有进行统一的数据治理"。所以对于这些企业,迫切需要尽快建立数据治理体系,采用具体的数据管理方法,对数据进行统一管理。
企业在建设数据治理体系过程中不会一帆风顺,会遇到许多挑战,如:
1. 数据治理体系建设是一个漫长、艰苦的过程;
2. 公司领导需要重视数据治理体系建设并授权;
3. 数据治理工作需要加强参与人员的培训教育等。
针对这些挑战,我们思想上要做好准备,企业的数据治理是一项长久的工作。在漫长的过程中,业务部门、信息部门等部门需要在友好的氛围下通力合作,数据治理部门需要加强协调力度,数据治理部门需要具有业务管理经验和数据管理经验的人才参与工作。
鲁四海:数据治理这么重要,能做如此深度的分析,应该有很好的实践经验吧,可以给我们分享一下么?
王广清:好的,下面结合我们企业在数据架构规划、数据资源管理系统的建设、数据安全管理方面的经验,来说明数据治理体系如何进行构建。
我们数据架构是由数据模型、数据管控体系、数据平台支撑体系三个部分组成,未来整个企业的数据架构建设工作将主要围绕这三个部分展开。数据模型包含哪些内容?通过识别和定义数据主题域、数据主题、数据实体,形成企业级概念数据模型,建立全局数据视图。通过规划和建立数据管控组织、流程和评价考核体系,支撑对数据质量、数据标准、数据安全的有效管理。这是数据管控体系。数据平台支撑体系,是指通过建立企业数据仓库、数据资源管理系统、企业级应用集成平台,实现对数据模型、数据生命周期管理及数据管控体系的平台支撑。如果你的企业没有做过数据架构规划,建议你们尽快能做这样的工作,通过数据架构规划定义企业未来几年数据治理方面要做的事情,这是一个高效的工作方法。
下面介绍一下我们数据资源管理系统。首先解释一下,为什么叫数据资源管理系统?最开始我们是想做一个编码系统,但是我们在与厂商接触过程中,特别是与一些大型企业交流后就改变了我们的想法,从编码系统换成主数据系统,我们说要建主数据系统,把企业主数据管理起来。但是最后觉得主数据概念还是太窄,最终我们叫数据资源管理系统。数据是企业的资源,不仅是管控,更多的是把数据管理好,发挥其资源价值。所以数据资源管理系统是一个更合适的名称。
我们数据资源管理系统目前包含主数据管理、元数据管理、数据质量管理、数据标准管理和数据安全管理。主数据作为数据资源中最重要、最基础的一部分,是企业实现数据资源管理的切入点,是解决"数据孤岛"问题、实现系统集成和业务协同的抓手。通过数据资源管理系统主数据模块的建设,实现对主数据全生命周期的管理,包括建立数据地图、统一数据标准、明确数据认责、明确管理模式和流程、实现系统集成和数据同步更新。
最后再把数据安全管理介绍一下。我们制定了数据安全管理规定,对数据全生命周期进行管理和约束,包括数据的产生、存储、使用、传输、销毁等等。除了制度之外,在技术上还通过堡垒机控制和记录人员对系统及数据的访问。为什么要做这件事情?一是打消业务部门疑虑,二是满足审计的要求,最后为了保护内部IT人员。
以上将我们企业在数据治理方面做的一些主要工作做了简单介绍。数据治理不是一蹴而就的事,不是一个项目就能解决所有问题的事,作为企业信息化管理人员,是时时刻刻的事,应投入更多的时间和精力加强企业数据管理和数据治理工作。构建数据治理体系至关重要,持续治理管理数据更为重要! 特别是互联网+时代,企业由IT时代进入DT时代,数据管理和数据治理的工作尤为重要!
鲁四海:做好数据管理和数据治理的工作,打好基础,接下来就是探索企业大数据应用了,在您看来传统企业应用大数据有哪些切入点?
王广清:以公用事业为例,大数据可以应用在以下几个方面,比如说销量预测/负荷预测、供销差分析、设备事故风险评估、用户消费行为分析、防窃预警分析等。要做好这些大数据应用,除了我前面提到的要做好数据治理的基础工作之外,还要做好下面的三项工作:一是优化业务流程、规范数据标准;二是通过物联网技术实现与用户的有机结合;三是通过大数据技术实现智能分析强化辅助决策。
对于传统企业,建议先从简单的大数据应用做起,积累相关技术和经验,再逐步推广到复杂的大数据应用。我们搭建了一个大数据平台,采集企业所有安全相关的日志,以及核心节点的流量,然后进行关联分析,以对企业安全状况进行监控、报警,这是我们做的第一个大数据应用尝试。未来我们想基于这个平台做业务分析,比如用户消费行为分析等。
鲁四海:前面说到数据的管理和治理、数据应用的探索,根据您的经验,传统企业应用大数据最大的挑战是什么?
王广清:传统企业应用大数据的最大挑战是大数据系统落地难!主要体现在四个方面:
一是决策难,大数据技术变化快,可选技术多,究竟选择哪种技术哪个版本,决策比较难;
二是关联难,不仅有结构化数据,还有非结构化数据,这些数据如何关联,比较难;
三是融合难,大数据技术很多,但组件孤立,很多时候解决一个问题需要将多种组件整合在一起,这些孤立的组件融合比较难;
四是项目难,传统企业大数据人才匮乏,大数据技术对人员的要求又比较高,所以传统企业实施大数据项目由于缺专业人员造成项目推进很慢。
鲁四海:虽然有挑战,但是企业构建实用的高效的大数据能力还是必然趋势,在您看来,企业应该怎么做?
王广清:企业构建实用高效的大数据能力至少要做两件事:一是前面提到的构建数据治理体系,对企业数据持续治理和管理;二是构建一个融合SQL和NOSQL的企业级大数据平台,解决大数据系统在企业落地难的问题。通过这个大数据平台,企业可实现对实时、离线、文件等多源数据进行采集和统一存储;与数据资源管理系统相结合,实现对数据质量、数据安全的统一管理;为各专业应用场景提供大数据分析微应用,进行数据多维度分析,实现数据共享及使用处理。
中国首席数据官联盟(中国CDO精英俱乐部)是国内首个以CDO为核心的公益性联盟,发起人是刘冬冬、鲁四海、葛涵涛。联盟遵循自愿、平等、合作的原则,为推动中国大数据产业创新发展而努力,为实现中国大数据产业全球领先而奋斗。联盟努力打造跨行业、跨领域的大数据精英交流平台,目前已经汇集了数万名来自国内外知名企业、科研机构、高校的大数据精英,已经成为国内最大的以CDO为核心的大数据智库。希望通过我们的努力,推动中国大数据产业的进步与发展,提升CDO(首席数据官)在企业中的地位,促进各行业的大数据应用升级,帮助企业实现以数据为核心竞争力的转型。