导读:
它山之石,可以攻玉。为了帮助各界人士学习国外先进经验,进一步了解大数据市场的定价、交易与保护,国脉战略研究院专家杨冰之、林渠,带来了《大数据市场调查:定价、交易与保护》的翻译文章,相信会给大家以思想的碰撞、灵感的启迪,促进大家思考,从而为我国推进数据要素市场化配置改革,贡献国脉战略研究院的智慧。
在本章节中,我们将介绍大数据的基本概念,包括定义、挑战和应用。
A. 大数据的定义
世界上的数据总量呈爆炸式增长,每天生成的数据量估计为25亿字节。事实上,全世界近90%的数据都是在过去两年内创建的。数据来源多种多样,尤其是物联网越来越多地参与到我们的日常生活中,支持许多智能世界系统。如此多样化的数据源导致了数据量的膨胀,同样创造了巨大的潜在商业价值。我们将这些数据称为大数据。
正如图1所示,尽管没有关于大数据的定义,但三个V是大数据最常用的定义:
(i) 体量(volume):大数据的第一个特征是巨大的数据量。数据集的大小可以从TB到ZB,甚至更大。例如,截至2012年,Facebook存储了大约100 PB的媒体(照片和视频),有8.45亿用户上传。
(ii) 速率(velocity):速率是数据流变化和生成的特征。多个数据源不断生成数据,使得大数据具有难以置信的高刷新率。它也只有很短的时间来处理数据。尽管Facebook的数据总量约为100 PB,但每天仍有11.3亿活跃用户上传9亿张照片
(iii) 品种(variety):品种数据可以有多种不同且互补的格式,例如来自各种设备和应用程序的日志数据、数据库文件和XML文件等。此外,数据可以具有非结构化数据类型(图像、视频和音频流等)。由于机器学习和数据挖掘等数据分析技术的发展,大数据是海量、连续和全面的,具有很高的潜在商业价值。
(图1. 三V大数据)
请注意,术语数据挖掘(data mining)和商业智能(Business Intelligence (BI))经常交替使用来描述大数据的处理。这些概念显然与数据分析有关。因此大数据的目标不仅是收集数据,而且是进行数据分析以提取业务价值。作为传统大数据定义的延伸,我们考虑了另一个V,即价值。特别是与数据交易相关的三个V与数据价值之间的关系,以及它们如何相互影响,是大数据研究的非常重要并具有挑战性的方面。
B. 大数据的益处和挑战
与传统数据源相比,大数据既有优势也有劣势。我们对它们的差异进行了分类:
全面性:大数据不仅可以捕获主要活动,还可以捕获相关数据,并提供详细信息以供将来分析。例如,随着智能手机的普及,社交网络在人们之间的联系以及图片和视频的分发也越来越普及。传统数据源可能只捕获联系人列表,而大数据可能涉及智能手机中的大量传感器和数据,记录尽可能多的信息(位置、面部信息、语音信息等)。这些附加信息可以提供全面的细节来描述此人,并帮助大数据应用程序进行分析并提供定制服务。
恒常性:大数据不断捕获信息。例如,大多数人每年或每半年进行一次身体健康检查。医院或医生记录每位患者的基本健康指数,包括血压、体温、身高、体重等。如今,像苹果手表和带有传感器的运动手镯这样的新系统能够随时随地连续记录这些指标。这种技术有可能获得大量人口的高频率数据,用于深入的大数据分析。
多样性:在大数据中,与结构化数据相比,半结构化和非结构化数据越来越多。大多数传统数据集被安排为结构化数据集,因为设计人员已经知道传统数据源的类型和结构,并且数据将被指定给传统数据库。例如,来自市场的收据、工资单和库存列表是具有传统结构化数据类型的典型业务应用程序,易于使用和管理。相比之下,非结构化数据源很难控制或管理。视频流、音频文件和文本数据就是这类数据的例子,它们的大小、编码和上下文都有很大差异。分析和管理非结构化数据很困难,因为数据位没有预定义。
C. 大数据应用
为了让大数据变得有用,大数据分析软件工具可以提取有用的信息。从大数据用户的角度来看,大数据应用程序可用于分析和挖掘大数据源的价值。
1) 大数据应用的目的
在过去几十年,世界上各个层次的经济实体都转向使用数据密集型技术,这种技术的广泛采用在一定程度上取决于经济发展和教育水平,这促进了数据增长。因此,Oracle、IBM、Microsoft、Dell和其他许多公司在大数据管理和分析应用程序开发方面投入了大量资金。此外,大数据应用行业每年以10%左右的速度增长,几乎是传统软件领域的两倍。因此,大数据管理和分析应用程序是创造数据价值的关键。
许多特定领域,如政府、制造业、医疗保健、教育、互联网、社交媒体和物联网驱动的智能世界系统,都需要大数据应用程序来确定自己收集的数据集的价值,以更好地支持应用程序。例如,基于数据密集型业务的Facebook、谷歌和腾讯等公司提取来自它们自己的用户平台生成的数据集。这一过程的主要目的是将这些有价值的数据集出售给潜在的广告商、其他第三方,或将其呈现给投资者,以产生进一步的价值。因此,必须建立有效的大数据管理和分析应用程序,从收集的数据中挖掘商业价值,这一点非常重要。大数据应用也成为数据定价的重要参考。
2) 大数据应用的挑战
大数据应用程序面临的挑战之一是没有直接简单的方法来量化数据集的价值。正如前面所讨论的,通过提高大数据应用程序的性能,增加结果数据集的商业价值。遵循这一规则,为了追求数据集的最大值,一种有效的方法是从数据集产生价值的过程中提高应用程序的性能。为了提高这种性能,显然需要提高计算能力和运行效率,并降低计算资源需求和数据存储成本。尽管如此,问题仍然是如何量化这些改进,需注意的是,难以保证通过实施这些简单的改进,数据集的商业价值就会增加。因此有必要设计一个综合绩效评价模型。通过对应用程序的性能进行建模,技术人员和管理人员能够做出明智的决策,实验结果可以作为参考来设计创造未来价值的改进。
延续上述讨论,大数据应用程序的下一个挑战是设计和开发适当的模型,用于评估价值生成过程。在这样一个过程中,有许多相互关联且复杂的场景和参数用于衡量大数据应用程序的性能。例如,每个计算任务可能涉及多个用于大数据应用的离散计算节点。此外,在某个计算任务期间,可以通过调度策略改变所涉及的计算节点。考虑到大数据结构和交互活动的复杂性,大数据应用程序的建模和性能评估需要专业知识。例如,多形式主义建模和测试异构形式主义和系统扩展的结构化基础设施(SIMTHESys)被定义为大数据建模的新框架。此外,SIMTHESys是一个建模框架,旨在适应快速和随机变化的系统模型。此外有学者还提出了其他建模框架,包括AToMe、OsMoSys和Mobius。
3) 大数据和其他技术的融合
大数据是人工智能(AI)和机器学习的基本来源/输入。在大数据时代,大量数据集为这些技术提供数据,以获得有意义的结果。尽管如此,对于设计有效的大数据应用程序而言,即时、灵活地随机访问大量数据的能力是一个具有挑战性的问题。此外,与过去在统计领域和数据分析科学中使用有限的数据样本集不同,大数据允许科学家访问和分析无限的数据集。由于大数据集的样本量大幅增加,以及数据源和传感器具有更多种类和细节,明显提升了分析结果。这就是许多组织从基于经验的分析战略转变为基于大数据的战略的原因。组织能够开发自己的应用程序以满足其独特的需求。此外,在分析处理期间,可以过滤掉冗余或不必要的数据。这将细化源数据,并整合数据集。不断运行优化循环,可以通过“分析沙盒”( analytical sandboxes)和大数据“卓越中心”( centers of excellence)分析数据集,还可以提高数据管理的灵活性。
机器学习技术,如深度学习,是利用大数据价值的可行方法。机器学习由大数据源驱动,适用于快速变化的大型复杂数据集,并可通过云和边缘计算基础设施的帮助进一步改进。与传统的分析技术不同,机器学习能够在不断增长的数据集上不断开展。通过这种方式,输入机器学习系统的数据越多,它可以学习得越多,从而得到更高质量的结果。因此,大数据和机器学习结合可以帮助组织改进从自身数据集中提取业务价值的工作,并扩展其大数据应用分析能力。
D. 大数据的价值
大数据是数据技术时代最重要的资源。为了交易或共享数据资源,如何评估这些数据集的商业价值是一个基本问题。此外,从数据集中捕获和挖掘价值可以进一步增加数据的价值。为了从大数据中确定商业价值,我们需要定义数据集的商业价值。高德纳(Gartner)提出了最常被引用的大数据定义:“大数据是高容量、高速度和多种多样的信息资产,需要成本效益,创新的信息处理形式,以增强洞察力和决策能力。”尽管这是大数据的一个有效特征,但这一定义还不够明确,无法明确区分高值和低值。使用此定义,我们无法测量数据集的值。因此,需要基于评估的定义来确定数据值。
显然,收集和存储大量数据并不是所有公司和组织的目标。然而它们都对分析数据以提取和创造实际商业价值感兴趣。达文波特(Davenport)列举了一些真实或轶事的例子,说明了组织如何使用收集的数据集的策略,并从这些数据集中挖掘价值。此外,一项综合研究表明,数据驱动的决策在生产率和盈利能力方面比其他决策方法具有更好的绩效。关于确定大数据分析如何创造商业价值,以及在何处可以从大数据中获得商业价值的问题,有许多研究。根据系统性研究,大数据有两个主要方面,从这两个方面可以为组织创造商业价值。第一个方面是大数据用于改进和优化当前业务流程、服务和实践的能力。第二是开发新的商业模式、产品和实践,这些都可以通过大数据分析进行开发和创新。因此从大数据中获取价值需要确定业务模型与所分析的大数据之间的关系。
数据挖掘是从数据集中获取价值的常用方法之一。尽管如此,在大数据的数据挖掘应用方面仍存在挑战。第一个挑战集中在数据访问和计算过程上。由于分布式存储系统和不断增长的数据量,计算平台必须具备处理分布式和大规模数据存储的能力。大多数数据挖掘算法都需要将所有必要的数据加载到主存中,这显然是大数据的一个技术挑战,因为从分布式存储系统中移动数据非常昂贵。第二个挑战是各种大数据应用。更具体地说,应用程序存在于不同的域中,在数据所有者和使用者之间具有不同的数据私有和数据共享方案。第三个挑战是设计有效的机器学习和数据挖掘算法。学习和挖掘算法必须解决大容量、分布式、复杂和动态的数据特征的困难。
敬请关注下期文章《大数据市场调查连载(三) | 大数据生命周期》
FAN LIANG
Department of Computer and Information Sciences,
Towson University, Towson, MD 21252, USA
WEI YU
Department of Computer and Information Sciences,
Towson University, Towson, MD 21252, USA
DOU AN
MOE Key Lab for Intelligent Network and Network Security,
Xi’an Jiaotong University, Xi’an 710049, China
QINGYU YANG
State Key Laboratory for Manufacturing System Engineering,
Xi’an Jiaotong University, Xi’an 710049, China
XINWEN FU
Department of Computer Science,
University of Central Florida, Orlando, FL 32816, USA
WEI ZHAO
American University of Sharjah, Sharjah 26666, United Arab Emirates
译者:林渠、杨冰之、朱娟英
单位:国脉战略研究院
来源:IEEE ACCESS
国脉业务体系
首席数据官系列专题
洞察 | 首席数据官——数据时代价值发掘者的使命和成长之道(之一)
洞察 | 首席数据官——数据时代价值发掘者的使命和成长之道(之二)
重磅 | 《广州市推行首席数据官制度试点实施方案》发布(全文+图解)
文件 | 《深圳市首席数据官制度试点实施方案》(全文)
政策丨珠海市人民政府办公室关于印发珠海市首席数据官制度试点实施方案的通知
图解 | 一图读懂《佛山市首席数据官制度试点工作实施方案》
图解 | 《肇庆市首席数据官制度试点实施方案》(全文+图解)
文件 | 江苏省企业首席数据官制度建设指南(试行)
重点推荐
系列培训认证研修班:
联系人:刘丹
电 话:13269683561(微信)
邮 箱:liudan@govmade.cn