最近与几位互联网行业的CIO在探讨一些关于大数据的问题,互联网公司应该是国内最早研究并应用大数据成果的行业。但面对全国铺天盖地的大数据热炒,这几位CIO只是淡定地说:“没有应用价值或者不能帮助实现应用价值一切都是空谈。”什么是大数据?百度词条给过一些解释,但大家的解读各异,我们有必要做些正本清源的工作。
龚才春,中国大数据研究专家,中国互联网协会大数据工作委员会委员,在中科院研究所、百度、阿里、腾讯等互联网企业均做过大数据研究工作。龚才春直言不讳:“很多的大数据都是瞎扯,跟大数据一毛钱关系都没有。”
中国大数据研究专家龚才春
龚才春从大数据产生,大数据概念,大数据思维,以及可能的趋势和应用四个方面进行了分析和阐述。
大数据产生
随着信息存储、信息分析、信息传送能力的不断提升,使得目前无论有多强的处理能力,便能产生多少数据,有多大的存储空间,数据便能占据多大的存储空间,技术为数据的产生提供了前提。此外,互联网也为大数据提供了环境。
云计算则给大数据提供了一个契机,数据开始从PC上,从个人的移动硬盘上慢慢往云端存储,只有云端数据经过统一存储,统一分析,统一挖掘才有可能。因此,云计算推进了大数据的历程。
物联网加速了大数据的发展,包括人与人,人与物,物与物的链接,手上戴的手环,让人与物联接;车联网,让这辆汽车跟那辆汽车联接,实现物与物的联接。当任何物体都能产生数据的时候,数据量自然特别庞大。
摩尔定律同样适用于大数据领域,即最近两年产生的数据是过去人类历史上产生数据的总和,也就是18个月到两年的时间内,便会实现世界数据量的翻番。
社交网络的推动, Internet是一个真真事实客观存在的网络,一个客观存在的世界。距离的虚拟化只是物理距离的虚拟化,社会网络继承了人类特有的情绪特性,当社交网络让机器有了人类的情感,将变得非常可怕。
举个例子,如果想与已经去世的外婆吃个饭聊个天,在未来是否有可能实现?龚才春认为,这是有可能实现的:“如果把人的一生全部数字化,通过大数据分析、处理和挖掘,完全可以预测我在某种情况下我说了什么话,我的外婆会回答什么话,这时候人类的情绪喜怒悲乐,这些情绪也有可能传递给一台机器。”
麦肯锡给大数据的定义是大小超过常规数据库工具的数据,但什么叫常规数据库工具这是没有定义的。超过数据处理能力的数据就叫大数据吗?自然也不一定。因此,从大数据的属性上分析会更加合理。
大数据 满足4V+1C
大数据必须同时满足4V+1C这五个条件才能称之为大数据。
首先是Volume,一定要求体量特别大,比如前阶段有人将重庆马拉松做成了一个大数据研究,得出的结论一半是重庆人,一半是外地人,这不能称之为大数据,一共只有两万多人参加了重庆的马拉松,这个体量不够大。但林彪当年打辽沈战役的时候,用十万人攻打国民党的二十万人,并用这十万人包围了一个小村子,就把敌将最好的指挥官给抓住。就是基于林彪每次打完账之后,就会让人汇报缴获的机枪、步枪、冲锋枪、手枪等情况,那次小规模的战役之后,他发现当时缴获的手枪比例特别高,所以林彪才得出那个地方是敌对指挥所的结论。在那个年代,这就是典型的大数据应用,但20万数据到现在就不行了。也就是数据体量大小与时间有关。数据体量与当时的技术及应用场景有关系。
第二、Variety,要求数据类型多,重庆的马拉松比赛类型很简单,从这点分析也不是大数据。一个大数据任务,一定要有各种各样类型的数据在一块处理,包括文本的,格式化的,非格式化的,视频的、音频的等等。
第三、Velocity,今天的大数据在明天就不一定是大数据,同时,数据还应该是动态的,比如中国有14亿人口的大数据,如果这个数据不适时更新,今年处理不了14亿数据,明年就有可能处理。
第四、Value,即数据价值, Value应具有两个特性,一个是商业价值高,另外,价值密度低。大数据就是在金矿上去淘金,金矿上淘金就满足这两个条件,淘金一定有商业价值,因为黄金很贵重,此外,价值密度特别低。因为一个金矿,这个金矿也许有上万吨的金沙,但是里面也许只有几百公斤的黄金,所以,它的价值密度特别低。
第五、Complex,需要足够复杂才能称之为大数据,如果脑袋拍一拍就知道,也一定不是大数据。比如说武汉大学男生最浪漫,因为经常给女性买玫瑰,这个因果关系如此简单,自然也不是大数据。
所以大家在市场上见到的所谓大数据研究结论,其实都不是大数据,因为它不能同时满足这五个特点。
大数据思维
大数据思维包括以下几种:
第一、全体思维,或者全样思维。若想知道洞庭湖有多少鱼,先买一万条鱼对一万条鱼做一个标记,放到洞庭湖,然后一个月之后捞起来,得到一万条鱼,这就是在小数据年代的抽样,再例如人口普查,也都是利用了抽样统计的原理。但是现在因为技术足够强大,可以全过程实时的把所有数据都采集过来。
第二、容易错误思维,这个世界没有完美的事情,所有的数据都有错误,都有不完美,都有虚假。在这种情况下,小数据年代采用的是数据清洗,大数据时代,不必再清廷,因为不完美的数据,错误的数据,甚至虚假的数据更能够反映它本来的面貌,它就是一种客观存在。
第三、相关关系不再是因果关系。这世界上可能比较少存在绝对的因果关系,比如以前认为天鹅就是白色的,但是后来发现澳大利亚有黑天鹅,因果关系弱,相关关系才是这个世界上的普遍关系,因此,需要树立相关关系的思维方式。
不以预测为目的的大数据都是耍流氓
龚才春说:“不以预测为目的的大数据都是耍流氓”。研究表明,世界有94%的事情是可以完全预测的。奥斯卡有48个奖项,通过对电影上影期间大家对这个电影的评价预测系统,最后预测对了奥斯卡奖每个奖项的最后得主,这就是大数据的威力。
此外,算法也许比你自己更了解你。比如某个职位的匹配,大家都认为HR最专业,结果发现机器找首选人的准确率是HR寻找侯选率准确率的120%。一个HR一天只能发出一万个邀约,而邀约机器人则能够发出两万多个。
世界上第一个大数据成功的商业应用是机票价格的预测。而亚马逊在这方面的研究也有较大突破。比如在家忽然想吃新疆大枣,便在亚马逊上下单,五分钟后送货上门。这样的场景已有可能实现,因为下单的时候亚马逊快递已经到楼下了。这便是因为预测,因为对用户数据足够了解,对和田大枣每年的销售数据足够了解,对这个片区这个楼有多少人有多大的概率会吃和田大枣,都已经做好了预算,所以这就是大数据的魅力,不以预测为目的的大数据都是耍流氓!