某种程度上,大数据的概念定义依旧处在混沌的状态,很少有人能讲清楚大数据到底是一种新技术,还是一种多样化的全域数据形态?
从数据本身出发,还是数据处理出发,这是理解大数据的一个问题?大数据的话题铺天盖地,热闹非凡!但是各界人士对这一流行话题的表述与理解却不完全一致。曾经有段时间,很多企业以4V特征来定义大数据,即Volume(数量)、Velocity(速度)、Varity(种类)和Value(价值)。这样一来,互联网上客户交互的日志、社交媒体上的用户评论等数据仍然占据大数据的主流。还有一部分人在谈大数据时,实际上指的是以Hadoop为代表的新技术,尤其是其中的非结构数据技术。这是长期以来关于大数据最流行的两种说法。前一种从数据本身的特征出发,后一种从数据处理技术出发。
现在大数据话题更多集中在应用上。最近一段时间来,有大数据定义的争议已经不多了。我们经常会看到大数据行业应用或企业转型的报道,例如说大数据提升了农产品产量。但仔细分析,这种说法其实是在说这些行业更好地利用了数据来指导业务与运营,与我们此前谈的大数据概念与处理不同的另外一个话题。
其实比农业应用更热的是金融。无论是“互联网金融”还是“金融科技”核心讲的就是数据驱动的“金融”。这里的主要逻辑似乎是:互联网业务模式下产生的数据就应该是大数据,或者暗示互联网业务就必须采用大数据技术才行。但互联网业务到底是因为数据量大,还是因为非结构化,或是因为是新技术才与大数据发生关系?这需要找到两者间的必然联系。
显然,很多传统企业受到了互联网模式的冲击,企业的决策者需要做出响应来应对变革。面临的相同问题是:互联网业务模式与大数据到底是什么关系呢?以及随之而来的人工智能和区块链应用,在这样的形势下,迫切需要对大数据的概念做出更加准确、更加明晰的定义。
要回答这个问题,必须抛开Hadoop技术和数据形态,从分析现代信息社会的核心本质特征出发来寻找答案。现代信息社会的本质特征是更广泛、更深入的数据化(某种程度上是万物数据化,从IT到DT的演变),以及全社会范围内数据的互联互通。这样看来,现代信息社会确实进入了“大数据时代”。
仔细分析后,我们发现,“大数据时代”区别于之前的“小数据时代”的核心本质特征主要有两个:
一是数据化的范围越来广泛深入。这里所说的“数据化”并不等同于十年前我们所说的纸质文档“数字化”。如今的“数据化”更多地是指:人们或者企业已经习惯“以数据指导业务”的运营模式,而不像以前那样是由业务向数据提出需求。这便是通常所说的“数据驱动业务”“数据驱动生活”的相关习惯、策略与模式,它在大数据时代被越来越广泛地采纳。另一方面,如《大数据时代》一书所说,在大数据时代,人们更多地是依赖全量数据分析而不是依赖采样。这也逐渐成为一种趋势。
二是数据的互联互通。现代信息社会的另一个重要特征,就是数据在全社会范围内不再孤立。企业现在所面对的不仅仅是其内部数据互联互通的问题,也需要面对数据在全社会范围内的互联互通问题。从目前对区块链技术的理解看,区块链可能是解决数据流通和变现的关键技术,至少是一种思维。
人群画像便是数据驱动的一个例子:当某企业的网上客服第一次与某个准客户进行交流时,企业的内部数据中并没有关于该客户的任何数据,客服人员本来是没有办法对该客户提供个性化的、精准的服务的。但从全社会范围来讲,这个客户虽然是第一次访问该企业的网站,但却用同样的电脑访问过很多其他网站。在社会范围内会有一些组织搜集与分析这些互联互通的“大数据”,刻画出该客户的特征。于是,网上客服只需利用数据互联互通的特性,从外部直接申请获取现成的、关于该客户的相关信息,就可以对其做出准确的反应。
因此,在现阶段,我们将大数据定义为“更加广泛、更加深入的数字化,以及全社会范围内数据的互联互通。”对企业而言,大数据问题的本质不是技术创新,也不是数据形态的多样化,而是企业实现“数据驱动业务”的相关战略与战术。这一结论应该可以比较全面地概括了当今关于大数据的所有说法。
现在,我们再来回答互联网业务模式与大数据之间关系的问题。既然互联互通是大数据最重要的特征,而互联网正是实现数据互联互通最根本的途径与方式。那么,互联网金融等新的业务模式,与大数据本身就有了不可分割的关系,可以认为是同一事物的两个方面。现在看来,它们不过是对现代信息社会的核心本质特征透过不同视角的描述而已。企业可以将自己应对互联网业务的战略称作互联网战略,也可以称作是大数据战略。