我们生活在一个越来越依赖数据的社会,信息正变得和金钱一样。例如,许多消费者使用谷歌、Facebook、亚马逊、微软和苹果等互联网巨头提供的免费服务。作为服务的回报,这些公司可以追踪他们的在线行为,并进行商业化变现。
当前,这种交易的最大的问题之一就是开放性,人们的个人信息(有时是无意的)会泄露给为他们提供网络服务的企业。近期在大西洋两岸的投票都表明,有些数据管理机构能够利用大量的用户数据(包括人口统计数据、消费者行为和互联网中的活动),来对广告、新闻报道和服务进行微观定位,以完成特定的目的。
显然,数据闸门现在正在向各种规模和类型的企业开放。通过及时的分析,能够给企业带来很多的竞争优势。虽然说目前大部分企业都把目光偏向到客户行为上,但数据可以在产品或服务供应链的多个环节中获得,而且有多种形式——传统的(结构化的)、临时的(非结构化的)、实时的、物联网——或者是M2M(译者注:M2M全称Machine to Machine,是指数据从一台终端传送到另一台终端,也就是机器与机器的对话)生成的,等等。
成功利用大数据的公司可以节约成本,并提高运营效率,从数据驱动的创新中获得丰厚的回报。同时,大数据也可以帮助企业实现数字化转型,让它们能够在面对任何颠覆性的创业公司时保持竞争力。
然而,有用的商业见解不会自动从各种各样的信息中浮现出来。企业必须识别、组织和分析可操作的数据,并将数据分析的结果与业务相关部分结合起来。这需要规划、预算以及合适的工具和专业知识等支持。
数据量到底有多少?
人们会定期估算每年全球产生的数据量,以及以何种形式产生数据。早在2014年IDC和EMC发布的报告中,2013年的数据量有4.4 ZB,即4.4万亿GB,并预测2020年这一数字将增长至44 ZB,每两年翻一番。根据IDC和Seagate的数据,估计2025年的数据量为163 ZB,比2016年的16.1 ZB增加10倍。
IDC 和Seagate报告还预测,全球范围内的大部分数据来源将从消费者转向企业,后者产生的数据在2025年将占到整体的60%。根据这份报告,推动这种转变的趋势包括:数据从作为商业背景到决策关键的转变;嵌入式系统和物联网的发展;改变现状的认知/人工智能系统的发展;移动和实时数据的产生;以及安全正在逐渐成为一个关键的基础等等。
所有这些数据都需要一个“家”,要么是永久的,要么是暂时的,这就解释了Seagate这样的存储公司是怎么挣钱的。
在发布这份报告的声明中,Seagate首席执行官Steve Luczo表示:
虽然我们可以从研究报告中看出大数据时代已经到来,但数据的价值并不是‘已知的’,而是‘未知的’,我们严重低估了这一潜力。真正令人兴奋的是分析‘新业务、新思维和新生态系统,从机器人和机器到机器学习等行业’,以及它们带给我们社会和经济的影响。数据能够给今天和未来的企业家带来巨大的价值,我们的全球商业领袖将在未来几十年里探索这些机会。”
都有哪些数据?
当然,并不是所有数据都能够用于分析。例如,在2025年的数据时代报告中,IDC估计到2025年,全球数据中大约20%的数据对我们的日常生活至关重要,其中10%的数据将会是“超级关键”的。
该报告指出:“超级关键数据的出现,迫使企业必须开发和部署数据采集、分析和基础设施;保证数据存储的可靠性、可用性以及更安全的系统;并进行新的业务实践,甚至制定新的政策与规定,来减轻、转移和削弱潜在的负债风险。”
人工智能和机器学习将越来越多地参与到大数据分析中,这进一步限制了可用的数据量。在报告中,IDC估计,到2025年底,全球数据中被标记的只有15%,所以才适合人工智能/机器学习分析。
大数据趋势和预测
每年,各种技术领域的专家都会对当前的趋势进行总结,并对未来12个月做出预测。大数据也不例外,我们整理了多个专家在2017年做出的预测,并对这些预测进行了分类。以下是一些分析结果:
数据主要来自:Acodez,Big Data Made Simple,Datafloq,Datameer,Enterra解决方案,Gartner,惠普,IBM,Infogix,MapR,甲骨文,Ovum,Pentaho,Quantzig,RTInsights,Sysmech,Tableau软件
对于大数据行业观察者来说,2017年最有影响力的领域是人工智能、机器学习、自动化和认知系统。例如,分析公司Ovum认为,“机器学习是一个巨大的颠覆者”、“嵌入式机器学习的分析应用正成为常态”。
如果企业要避免被数据淹没,提高自动化水平几乎是不可避免的——或者,正如Enterra Systems所言:“随着数据量的增加,人工智能将变得越来越重要。”
另外一个重要的话题是“数据驱动的商业决策”的出现。甲骨文简洁地指出,“应用,而不仅仅是分析,推动了大数据的进程”,而Gartner预测“数据和分析将推动现代商业运营,而不仅仅是反映他们的业绩”。
此外,在2017年的预测中被广泛关注的还涉及信息、数据科学与数据工程、大数据扩散与治理以及基于云的分析与集成数据服务。
一些调查报告
自2012年以来,管理咨询公司NewVantage Partners(NVP)一直在调查财富1000强企业的大数据部署情况,并于2017年4月发布了第五份报告(调查对象是这些公司的管理者)。
NVP的大数据调查显示,80.7%的受访者认为他们的大数据投资是成功的,有48.4%的受访者表示“结果是可以测量的”。后者被细分为“极致成功”(颠覆性/创新/变革型,21%)和“非常成功”(进化型,27.4%)。
正在进行的各种大数据相关项目中,排名第一的是“通过运营来降低成本,提高效益”,占比72.6%。68.7%的受访者认为这是一个“为创新和颠覆创造新的途径”。
尽管有很多公司都启动了相关项目,并取得了不小的成果。但根据NewVantage Partners的报告。在《财富》1000强的企业中,似乎仍难以建立数据驱动的企业文化:69.4%的公司已经开始采取行动,但只有27.9%的公司表示有效果。
在为什么难以建立一个数据驱动的企业文化问题中,NVP的调查发现,“组织协调不足”的比例在42.6%左右,排在“缺乏中层管理人员接受和理解”(41%)和“商业阻力或缺乏理解”(41%)之前。
上面的图表显示,难以建立一个数据驱动的企业文化的阻碍是业务部门,而不是IT部门。因为数据整理、技术理解和数据分析方法等问题基本上没有多少应答者提及(小于30%)。
首席数据官(CDO),是企业具有数据驱动型的文化,或正在实现这一目标的关键指标。调查显示,财富1000强的企业近年来在这方面取得了进步。
虽然说,拥有CDO的公司的数量已经从2012年的12%提升到了2016年的60%。但是大多数(56%)受访者认为他们目前的角色是“防御性”的——主要是对监管和合规要求做出反应。
展望未来,受访者认为CDO应该变得更具“攻击性”——带头推动创新,打造数据文化,并将数据管理转变为企业资产。
这大概就是为什么大多数人(53.4%)认为,CDO应该向首席执行官(35.6%)或首席运营官(17.8%)汇报,而不是首席信息官(15.6%)。
NVP的调查还询问了受访者,除了大数据之外,还有什么会在未来10年里对自己的企业产生影响。人工智能和机器学习的排名靠前,这一点也不奇怪——无论是单选还是多选。
从欧洲的角度来看,我们研究了荷兰数据咨询公司GoDataDriven的大数据调查,调查对象来自2016年荷兰的大数据博览会参会人员。共有315人,包括168名高管和147名经理。
当被问及成功推进大数据为企业的主要驱动力有哪些因素时,71.4%的受访者表示是“清晰的愿景”,其次是“管理层的支持”(51.2%)和“系统支持和流程支持”(40.1%)。
与上面的NewVantage调查一样,当涉及到大数据战略推进的阻碍时,“业务”因素似乎比“IT”问题更突出。
当然,这并不是说IT问题不重要。当被问及建立大型数据基础设施的挑战时,排名靠前的两种回答涉及数据质量和数据可用性:
一旦有了足够多的高质量数据时,在企业以数据为驱动力的流程建立好之后,受访者将“大数据知识和数据科学的训练”列为最大的挑战,占比47.4%。
与NewVantage Partners一样,GoDataDriven也向受访者询问了人工智能的情况。尽管目前只有14.3%的人实际运用了深度学习和人工智能,但52%的人要么正在开发,要么计划在三年内运用深度学习和人工智能。
人工智能肯定是在公司的议程上,但显然是在早期阶段:在这一领域中,只有五分之一(21.5%)的受访者表示没有计划。
专家怎么看?
为了解大数据的运行状况,我们采访了Sumit Nijhawan。他是提供数据治理解决方案企业Infogix的首席执行官和总裁,他们对2017年数据趋势进行了前瞻性分析,以下是采访中的一些关键观点。
“几乎所有的客户都有一个大数据计划,许多项目都进行了大量的投资。但他们所取得的进步,他们从投资中获得的价值,往往无法达到预期效果。”Nijhawan一开始就这样说道。
他补充说:“我们正在与客户合作的一些事情,我们认为是可以带来变革的。主要是数据治理、数据准备、自助服务和更小的数据湖(译者注:数据湖泊是包含下面两个特征的信息系统:a.可以保存大数据的并行系统;b.能够在数据不移动的情况下进行计算的系统)部署的结合。”
问:所以你会说,从大数据中获取商业洞察的主要瓶颈是“发现公司所拥有的有价值数据,并使其可供分析”?
“是的,大部分的关注点都是提供存储环境——Hadoop,并让每个人都能将任何数据转储到其中。”这里要注意两件事情:首先,向Hadoop存储数据的目标是什么?其次,即使数据存在,但是无法管理,无法搜索,也无法挖掘,而且也没有办法使用数据去吸引消费者,来帮助企业获得价值。它非常依赖于技术,仍然需要技术人员来处理它。这并不是从这些投资中获取价值的最佳方式。”
问:这是否意味着“业务”与科技之间存在脱节——组织需要培养“数据文化”,让业务部门知道如何正确地分析数据,并产生商业洞察力?
“我们当然需要以数据驱动的企业文化。这并不是IT人员不想分享的东西。只是他们有这些工具,他们觉得自己做得很好,但他们并不知道分析数据最终的目标是什么。这就是为什么需要业务驱动了,否则很难实现任何有意义的事情。”
问:在许多组织中是否存在缺失的一环——首席数据官(CDO),谁能将业务部门连接到IT部门?
“这绝对是一个缺失的环节,但我不会说这只是一个人的问题。刚刚提到的“数据文化”指的是人、流程和技术,以及数据本身。这实际上是一个关于端到端的流程:这是如何从数据中获取所需数据的方式,也是如何处理数据的方式,更是如何交付数据的方式。这个端对端流程需要由业务负责人来发起,当然也可以是CDO。如今,首席数据官这个职位的问题在于,在许多企业中,它几乎都是一种官僚主义的立场:该CDO据称具有影响力,但最终却成为了供应商用来推销技术的人,而不是那些为了实现商业目标而在那里工作的人。”
问:当你与客户交谈时,目前哪些数据相关的技能最火?一些分析人士发现,企业对数据科学家的需求有所减弱。
“我认为需求正在减弱,但这并不是因为数据科学家的数量太多了。而是因为现有的数据科学家无法实现企业想要的价值。因此,问题就变成了:如果企业没有获得价值,那么招募更多的数据科学家有什么意义?为什么企业的运营人员、数据分析师不能更好的处理这些数据呢?
老实说,他们可以做到,因为数据科学家所解决的80%的问题都可以通过20%的算法来解决——而且这些算法都以易于使用的方式公开了,数据分析师和业务分析师可以将这些数据整合到运营和业务流程中。我认为这种情况正在发生,结果是对数据科学家的需求减少了。”
问:我们经常听到“自助式”分析,让更少的专家参与进来。你认为这个技术发展到什么程度了呢?
“我们对客户的做法是,我们首先会看到他们的数据湖项目在什么地方,然后告诉他们:也许你不需要花几个月和数百万美元来使用这些整合的开源技术。我们将为你提供一个完全自助服务的端到端设备,设备中所有东西都集成了,你所要做的就是使用这些数据来进行决策。你可以解雇你的业务人员,数据科学家,无论谁。这在市场上获得了很大的吸引力。
问:每个人都在谈论机器学习和人工智能,你认为它将会在大数据领域发挥作用吗?
“它已经存在了一段时间了,但是现在有很多关于它的新闻。就像我之前说过的那样,80%的问题可以通过20%的机器学习算法解决,比如切分、推荐、分类、回归和预测。我们关注的一个领域是大数据的质量,传统的数据质量一直都是关于精确匹配规则和重复规则等方面。现在数据量很高,人们向数据湖存储更多的数据,他们并不知道确切的规则是什么。相反,我们正在使用机器学习算法,比如切分和分类来寻找异常值。这就是机器学习已经增加了很多价值的地方——但同样的,你不需要非常成熟的数据科学家来做这件事。”
问:最后,你是否认为,随着自助工具的出现以及非专家、甚至“公民数据科学家”的参与,大数据领域正在进行民主化?
“我认为这是会发生的。这是对‘大数据’的投资能够持续、价值实现的唯一方式——没有其他选择。在IT和供应商领域,有足够多的人来推动这个问题,并找到能够实现这一目标的方法,可能还有三到五年的时间。在这期间,人们可能不会过多谈论“大数据”。相反,他们会谈论以自助服务方式交付的大数据的分析结果。”
前景
关于数据的各个方面还有很多,未来也会有更多的数据,但如果要经常把大数据转化为有价值的商业见解,企业还有很多工作要做。数据驱动型企业文化的建立以及数据科学家和工程师的增多(无论是从外部招募还是在内部培训),都将有助于推动这一过程,至少在短期内是如此。
正如天文学家Clifford Stoll所说:“数据不等于信息,信息不等于知识,知识不等于理解,理解不等于智慧。”
因此,数据科学家和工程师将需要从大量不同种类的数据中提取信息和知识,数据驱动的文化将确保提出正确的问题,从而让理解——甚至是智慧——到达企业的相关部门。
展望未来,自动化水平越来越高——尤其是在数据准备领域,以及自助服务分析工具的普及,将使专家之外的运营人员轻松获得从数据中得出的见解。