高校数据治理战略:来自斯坦福的启示

2020-01-15 15:45 来源: 一读EDU
浏览量: 收藏:0 分享

  从经验治理到数据治理,是新时代下高校治理策略变化的应有之义。

  一、如何理解数据治理?

  近年来,随着大数据时代的来临,数据资产已成为高校的战略资产,高质量的数据也成为校内职能部门的关键成功因素。

  为了充分挖掘、有效治理数据资产的全部价值,高校需要前瞻性的数据治理计划。

  那么,如何理解数据治理?概括而言,数据治理(Data Governance)是对数据资产管控的活动总和,包括一组担任不同职能的人员角色、策略和支持技术。它将管理与技术有机结合,以共同确保组织从其数据资产中获得最大的净收益。

  数据治理的根本目的是提高业务流程的有效性和效率,控制数据资产风险,实现数据资产价值,因此,有其存在的合理价值。

  特别是当我们考虑到一些关键业务流程对数据质量非常敏感时,我们就会发现,开发、维护在整个组织中能够得到一致理解、执行的高质量数据,将显得至关重要。

  如果我们想实现数据治理,就需要不同数据涉众协作完成数据质量补救和主数据标准化等操作,以使数据治理程序符合组织的业务目标。

  二、高校为何需要数据治理?

  想象你是一位高校管理者,需要响应来自不同群体的需求:

  如学生们希望有一个更高质量、更个性化的学习体验;为学校提供资金来源的政府等有关机构要求学校证明自己值得被资助;教职员工则需要清晰高效的晋升和管理机制。

  此时,数据治理就可以帮助你更自信地面对这些挑战,比如,你可以依靠准确、可信的数据来提高学生和教职员工的学校体验,同时向国家及其他组织证明学校的表现。

  目前,高校数据治理就致力于解决包括以下问题在内的数据难题。

  术语定义模糊

  在做评议或决策时,我们往往会使用一些常见的术语,但却没有意识到这些术语是模糊不清的。

  例如,当我们谈到学生时,指的是全日制学生还是非全日制学生?类似这样的问题不胜枚举,即同一术语的多个定义会存在于学校数据中。

  而数据治理能够准确地定义所涉及术语的内涵和外延,让数据使用者可以轻易地理解自己使用的数据到底采用了哪种定义。

  数据分散

  很多高校其实并不缺乏大量存储和使用数据的系统和部门,但他们的数据往往是孤立的,分散在多个系统和部门中,无法被有效地结合起来,以提供更具预测力的多维度信息。

  数据治理就有助于打破“数据孤岛”,使全校范围内的数据可见,让数据使用者能够快速高效地找到他们需要的数据,并且参考相关的数据政策来规定数据权限、建立数据共享准则,通过识别数据问题将问题分配给最恰当的人来解决。而获得协调统一、被整合的多源数据能够更好地帮助学校成长。

  数据质量不理想

  目前高校业务系统中的数据质量不甚理想:因为存在数据更新不及时、数据治理参差不齐、数据融合存在壁垒等问题,导致数据不完备、不准确,管理混乱。

  这些缺乏质量保证的数据无疑会造成决策失误,给高校带来损失。

  而准确、完善的数据能够为管理者提供对学校情况的洞察力:学生目前最迫切的需求为何,哪些学生可能面临学业失败或辍学的风险,应该从何处着手谋划学科建设发展的方向,等等。

  三、案例分析

  斯坦福是怎么进行数据治理的?

  2011年,斯坦福大学(下称“斯坦福”)提出了数据治理计划,并于2012年成立了相应的数据治理中心,发展了相对较成熟的数据治理项目。

  它是如此描述自己的愿景的:“机构数据是可信的、可理解的、准确的,并以有意义的、安全的和一致的方式提供和使用。”

  这一愿景指出了对数据质量的3方面要求,即:数据来源可信赖、数据本身效度高、信息传递易理解。

  其数据治理目标如下:

  识别、映射、记录、提高机构数据资源和系统的可见性,并制定共享数据资源的政策和协议;

  制定政策和程序,以确保数据来源的一致性和在整个学校范围内的使用,从而确保数据质量和完整性;

  制定、实施、维护和帮助实施与机构数据资产相关的大学范围的数据管理政策、标准、指南和操作程序;

  定义管理机构数据的角色和职责;

  识别并记录数据度量和集合的正确推导逻辑;

  建立沟通计划,以便数据使用者了解数据治理标准和准确报告大学数据的可用资源;

  为机构数据资产的信息建立一个广泛的中央元数据存储库,让其可在整个大学的业务应用中获得系统使用;

  促进校内数据治理实践者之间的沟通和知识交流。

  简要而言,为了达成上述目标,斯坦福从人、政策和科技三个维度,建立了数据治理的三维模型。

  通过这套模型,斯坦福实际上回答了究竟由谁来负责数据治理(Who)、涉及哪些制度(What)和如何从技术上解决数据治理(How)等3个问题。

image.png

斯坦福数据治理三维模型(资料来源:斯坦福大学数据治理中心官网,一读EDU编辑部重新汉化制作)

  具体来看,数据治理的几个关键要素包括:组织架构、业务活动、技术平台与工具、制度与标准规范。接下来,我们将介绍斯坦福在这几个方面分别做出的努力。

  组织架构

  按照管理功能,斯坦福数据治理的组织架构分为三个层次:技术层面、政策层面和战略层面。

  其中,数据管理小组(SUDS)负责解决技术层面的问题。

  数据管理小组的使命是提供元数据基础设施,确保信息完整性,构建数据知识,以支持决策改进,并满足大学范围内的合规要求,使斯坦福的合作伙伴在教学、学习和研究方面表现出色。数据管理小组由主题专家(subject matter experts)组成。主题专家是指日常负责输入数据、对数据进行分析或以某种方式与数据交互的个人,他们的主要工作是定义报告术语和收集与其报告环境相关的元数据。

  数据治理委员会负责政策程序等问题。

  数据治理委员会是一个跨职能小组,由每个数据管理小组的首席管理人员和在大学数据治理计划中拥有既定利益的其他机构的代表组成。该委员会的职责是制定、设置和整合数据治理的政策、标准、程序以及角色和·职责。

image.png

斯坦福大学的数据治理组织架构(资料来源:斯坦福大学数据治理中心官网,一读EDU编辑部重新汉化制作)

  商业智能能力中心指导委员会(BICC-SC)则负责战略性的计划。

  这个委员会是一个高级领导团队,提供跨职能监督,旨在创造商业智能计划(Business Intelligence Program)的长期价值,并努力实现部门内业务流程和数据质量的高效变化,以获得商业智能业界同行的认可。委员会的成员均倡导在决策中使用数据治理,他们对数据治理计划进行战略监督,以确保该计划与大学数据目标保持一致。

  业务活动

  尽管数据治理很有必要,但实施后却可能无法让决策者有立即见效的感受。

  这是因为数据治理的许多好处只能在长期内实现,或者通过跨机构的跨职能项目来实现,即使是一些数据质量改进工作,也需要为收集元数据和编制文档投入大量的时间和资源,无法快速见效。

  这些项目的复杂性和广度通常是数据治理项目推广的主要障碍。为此,斯坦福通过执行两组活动来开发数据治理项目:

  1、项目活动(短期)

  斯坦福数据治理项目与现存的各种数据项目、尤其是那些能够提升斯坦福数据治理能力并扩展可用元数据的项目合作。

  合作项目确定后,在项目主管的批准下,项目总监会执行以下活动:分析选定的数据→推荐数据质量技术→生成项目级别的信息流→抓取并存储关于关键数据的元数据

  2、基础活动(长期)

  除项目活动外,数据治理还将持续积累信息,为未来数据治理的进一步优化提供基础。

  斯坦福数据中心负责持续积累大量信息,其中除了关于所选机构数据的业务和技术细节的信息之外,还负责制定和维护:数据治理的政策、程序和最佳实践;数据标准;机构数据字典;关键的数据级别、系统级别和机构级别的信息流。

  短期活动与长期活动相结合的双重方法使得斯坦福既能够通过与其他商业智能和报告项目合作,在短期内展示有形和量化的数据价值,又能够在学校组织的所有级别建立对学校数据的共同理解,达成数据自服务。

  技术工具

  斯坦福数据治理中心与一家数据管理解决方案初创公司合作,主要开发并应用了两大数据治理工具。

  1、信息流

  信息流图表能够描述在特定范围内,所选定的数据是如何在人员、文件、应用和数据存储中运动的。这一内容也能够应用到关系型数据库里。

  信息流的覆盖范围可能包括某一单一元素的生命周期、某一特定项目或整个机构。

  信息流图表包含的信息则有:移动的数据类型、传输方式、传输频率、数据存储名称和平台/运行环境、责任方。

  信息流图表有助于数据使用者理解数据之间的相关性和依赖性,提升数据质量,并确定数据涉及的利益相关者。

image.png

斯坦福组织层次结构的信息流示意(来源:斯坦福大学数据治理中心官网)

  2、数据字典

  数据字典负责存储机构的数据资源并支持其应用。

  字典中的信息包含数据元素的定义、关系、物理位置、数据格式以及有关如何使用数据的推荐,它能够保证机构内数据的一致性,保证全校范围内对数据的统一理解,缩短数据发展周期,并提升数据整合能力。

  通过数据字典和信息流功能,斯坦福数据管理小组(SUDS)和斯坦福的数据治理计划已经创建了一些信息图表,说明了在不同领域中人群的属性和关系,例如斯坦福内部种族和族群分组、教职员工分组等。

image.png

斯坦福大学的内部种族和族群分组(来源:斯坦福大学数据治理中心官网)

  制度与标准规范

  斯坦福仍在不断更新和发展数据治理的制度和标准。

  在BICC指导委员会的监管下,斯坦福数据治理中心发布了数据定义的最佳方法、数据字典的斯坦福定义管理、报告定义的指导原则、数据字典命名原则、BICC命名原则等技术层面的处理原则。

  除此之外,斯坦福在管理层面也有诸多政策和规范,包括数据管理小组的角色和责任的指导原则和最佳方法等。

  项目评估

  最后,斯坦福采用了数据治理成熟度模型(DG Maturity Model)来评估其数据治理项目的有效性。

  该模型由斯坦福大学数据治理中心于2011年基于其数据治理项目的结构开发而成,关注的是基础层面和项目层面的数据治理活动。

image.png

斯坦福数据治理成熟度模型(来源:斯坦福大学数据治理中心官网)

  基础层面侧重于衡量核心数据治理能力和关键计划资源的开发,具体测量的维度包括:意识、形式化程度、元数据建设。

  项目层面则侧重于衡量数据治理概念在受资助项目中的应用效果,具体测量维度包括:管理情况、数据质量、主数据。

  在两大层面、六个维度下,每一维度继续细分为人、政策和能力这三个方面来完成成熟度评估。各维度、各方面得分的平均值即是能够评估数据治理的成熟度。

  斯坦福在数据治理项目成立之初就开展了首次评估,随后每年又进行评估更新。通过这些活动,斯坦福希望逐步实现对全校范围内数据的掌握,以促进研究、学术、人力资源、资金来源、服务资源、学校进步等领域的管理和发展。

斯坦福数据治理成熟度模型具体维度(资料来源:斯坦福大学数据治理中心官网,一读EDU编辑部重新汉化制作)

  四、对国内高校有何启示?

  无论在技术上还是管理上,对国内高校而言,斯坦福的数据治理都是值得借鉴的。

  其中,技术上的难点在于数据采集、清洗、标准化和一致的定义,管理上的难点则在于权责分明、数据管理权限界定。若想解决这两个方面的困难,就需要相关制度和政策上的保障。

  值得指出的是,斯坦福将所有制定的政策和原则的草稿都公开在官网上,以供讨论和商议,并根据反馈,对草稿进行不断修订和更新。

  考虑到数据治理对于高校而言是崭新探索,像斯坦福这样提供透明、公开的公众讨论空间,无疑有助于数据治理的技术发展和制度完善,最终实现数据资源在各组织、机构、部门之间的共享,进而提高运营效率,支持更明智的决策分析。

标签:

责任编辑:bozhihua
在线客服