如今,大数据在各个领域都是使用频率很高的时髦词,而大数据预测股市、奖项等应用也应运而生。4月24日,中国科学院院士梅宏在南京工业大学演讲时指出,大数据被炒得过热,其实很多领域只是穿上大数据的马甲而已。而关于大数据的各种预测,虽然有合理性,但也不能全信。
梅宏说,大数据正引发新一轮信息化建设热潮。通过大数据构建一个数据空间,从样本到全体、从精确到近似、从因果到关联度,这个空间里面有很多规律可循,可以无限逼近我们的现实世界。根据大数据分析,可以对未来有所预见,从而影响政府的决策。国外,包括机构做的估算,大数据这个产业本身对GDP的带动是2%-4%。一方面促进产业升级,促生新业态,同时也在不断改善民生服务。
不过,梅宏认为,大数据概念持续升温,已处于过热状态,有炒作之嫌。很多地方一窝蜂搞“大数据”,殊不知大数据不可能是解决一切问题的法宝,更不应该成为各行各业的马甲。真正的大数据应该体现在多源数据的融合,绝不仅仅是数据的“海量”。而事实上,不少地方、行业搞的大数据,只是单一数据的简单叠加,并不是真正的大数据。更何况,有的行业根本不需要大数据分析,也来凑热闹。由此带来的问题是,出现大量超前投资或重复投资,是对社会财富的浪费。
“大数据的价值已被广泛认知,并应用在不少地方。”梅宏说,谷歌研发的无人驾驶汽车,不仅有实时感知系统,而且还有基于大数据的认知网络。“比如小球滚到路口,根据大数据分析,可能后面还会跟着一个小孩,无人驾驶汽车就要注意避让。”梅宏还说到一个有趣的大数据应用:“这是发生在美国沃尔玛连锁超市的真实案例,尿布和啤酒赫然摆在一起出售,并且销量双双增加了。原来,美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布。而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒,因此啤酒和尿布在一起购买的机会还是很多的。而正是商家通过对超市一年多原始交易数字进行详细的分析,才发现了这对神奇的组合。”
对于当下很火的大数据预测,梅宏表示有一定准确度,但也不能全信。比如大数据预测奥斯卡奖,根据不同维度来进行数据分析,有一定合理性,今年准确率高达87%。但是用大数据预测股市却不能全信,因为这是一个开放的系统,股民看到大数据分析后有从众心理,会影响股市的走向。再如大数据预测流感,最早是很准的,但是后来随着一些假数据的掺入,就大大影响了准确率。