2012年12月,几位在美国工作生活的华裔专家到访中国国家统计局时表示,近代以来的历次技术革命,中国总是跟在别人后面、慢一步享受别人的研究成果;大数据来了,大家的起点都一样,中国能否创造一些经验并走在世界前列?
2016年5月,李克强总理在贵阳大数据产业峰会上指出,大数据等新一代互联网技术让各国站在科技革命的同一起跑线上。中国曾屡次与世界科技革命失之交臂,今天要把握这一历史机遇,抢占先机,赢得未来。
专家们的希望与总理的发言,表述大同小异,意思完全一致,只是时间列车又驶过了3年零5个月。其间,中国的大数据应用取得了一定的进展,但应用中面临的诸多障碍也依然存在,且不断出现一些对大数据的非议之声。这些非议有些有一定道理,有些则失之偏颇。
有一篇批判所谓“大数据崇拜”的文章认为,如果不进行社会学分析,大数据就是一堆“大垃圾”。其实,所谓“崇拜”,应该是发自内心的信仰和景仰、顶礼膜拜。而所谓“大数据崇拜”如同所谓“GDP”崇拜一样,都是被别人强加上的。前者只是强调了大数据的意义,后者只是因其成为考核指标而不择手段地追求GDP的数字而已。美国总统行政办公室2014年发布报告的题目之所以确定为《大数据:抓住机遇,保存价值》,就在于越来越多的大数据中蕴含着巨大价值。而其巨大价值对政府统计而言更加珍贵,更需要抓住和保存。不进行分析,流失的只能是价值而并非垃圾。
有一篇题为《我为什么反对大数据》的文章,认为常把大数据挂在嘴边的人,并不了解什么是大数据;即使是各项全国性普查,即使是一些典型网站,其数据量的规模依然有限,有多少企业有海量数据?其实,综合各种权威解释,大数据就是电子化产生的达到一定规模的数据集及处理技术。而以普查为代表的结构化数据,在大数据中仅是很小的一部分甚至算不上大数据,DNA日益增长的非结构化数据才是大数据的主体,且这些数据正在快速增长。
一篇题为《大数据的十大局限》的文章,对舍恩伯格在《大数据时代》中提出的“大数据是全样本”提出异议,认为“全样本是永远不可能的”。作者举例说,大数据依赖网络,而至今为止尚有一半人上不了网。其实,谁说只有“全国人民”才能成为一个总体?我们仅对网上购买某种商品的顾客做一个分析,这难道不是一个特定的总体?即使这个群体有几万人甚至更多,但全部的样本已经应有尽有,难道还要从中抽出几百个、几千个进行汇总分析?
与此有联系的另一篇文章,题目是《统计学研究的典型问题到底是个什么鬼?》。作者说了很多,就为了证明一点,即大数据可以说明总体的现在;但要证明总体的未来,大数据还不如小数据。但问题是,谁说研究和应用大数据一定是为了说明未来?不能把过去时的统计与将来时的预测混为一谈吧?大数据的统计应用,就是应用大数据说明过去的情况。大数据来了、无处不在了,统计工作视而不见、任其价值白白流失,统计数据就会失真。
还有一部更权威,出自美国专家之手的巨制《对“伪大数据”说不》。有同仁代其总结概括,称所谓“伪大数据”,一是有问题有瑕疵的数据;二是因分析方法有毛病因而不正确的数据;三是人为操纵甚至作假的数据。但显而易见,这些问题并非大数据独有,也不是大数据的特性。任何统计数据及数据分析,不管大还是不大,都可能存在以上问题。而对有问题的数据及数据分析方法说不,并不意味着对所有的数据弃之不用。大数据亦如是。
大数据是科学技术、社会生产力发展到特定阶段的必然。即使反对和讨厌,即使不用这个词汇,即使无数次地说不,大数据浪潮依然会势不可挡,还会不断改变我们的生活和工作方式;而我们每个人也必然因生活和工作方式的改变,使自己的行为与活动成为大数据浪潮中的一朵朵浪花。当然,大数据发展进程中也出现了且还正在出现着失密泄密、造假售假等严重问题,但这正说明必须正视大数据的扑面而来、不可逆转,并尽快制定各种应对措施,抓住机遇,保存价值,并有效防范和纠正失密、造假等各种问题。一要完善法律法规,既促进数据开放与共享,又切实保护个人隐私不受侵害;二要明确牵头单位,统筹各部门各地区及全社会的大数据规划发展及应用;三要规范标准,促进不同大数据的衔接、共享和应用研究。