一面政策积极利导,一面IT厂商加大鼓吹力度,新一轮大数据之风仍难掩“曲高和寡”的尴尬境地。那么,阻碍大数据应用快速落地的瓶颈到底在哪里呢?
未来是大数据的时代,大数据因此成为一项国家的长远发展战略。近两年的政策利好,使大数据市场再度迎来了新一轮的发展高潮。像“44ZB(泽字节)”这样的惊天数字(业界流传的截至2020年全球大数据规模)因此反复出现在各种大数据会场的电子屏上。
一股焦灼的情绪随之在全产业漫延,还没弄明白怎么搭上“互联网+”的快车呢,大数据又成了另一个新的困扰,一位行业用户曾感叹,“出去不说两句大数据都感觉自己落伍了。”而不少医院行业用户直接的反应就是,“小数据还做不好呢,怎么做大数据?”
大数据离企业用户到底有多远?
大数据该何以计量?
随着社会信息化发展迈入3。0,很多企业对IT的投入和选择已经跨过了过去“高大快上”的盲目决断做法,转而更为理性和审慎。比如谈大数据,企业决策者和IT负责人最先考虑的是企业自身的数据规模到底在一个什么量级。
从目前了解的情况看,很多企业,特别是传统行业企业一年的生产和业务合并数据量级多处于TB、GB的规模,比如以某一线城市为例,该市级财政部门的数据不到8、9个TB、某地铁运营公司在50多个TB、某高速公司集团公司在TB级、某银行城市分行数据也不过TB级、某三甲医院是GB级、某大型制造企业也才是GB级……
诚然,数据规模的现实情况距离产业预期相去甚远,一方面与企业所处行业有关,比如电商、运营商或新媒体这类面向公众2C的企业数据规模增长较为明显;再一个也与企业对数据存储成本的考量密切相关。比如上述行业企业除了应国家要求的数据存储年限外,一般企业数据留存也就三年左右,甚至更短。而且对近年数据和历史数据采取分开存储的办法,比如最新数据与近年数据在企业最新、最好的IT平台留存,三五年以后的历史数据被转至旧系统沉积。
清华大学数据科学院工业大数据中心总工程师王晨此前在北京工业大数据创新中心成立大会上从技术、业务和基础三个方面谈工业大数据的战略思考时特别提到数据的基础。他认为,“数据就像我们今天流过的河,流过去就再也没有了。很多企业想做分析,可它的数据平台大概只能存三个月的数据。这个不够!我们至少需要一年春夏秋冬,才能知道一个完整周期,可能有时一年都不够,需要两到三年的数据。”
如王晨所言,数据是企业开展大数据研究和应用的基础,应对大数据,我们所需要的数据基础可能不止两三年,甚至更长久的数据积累。再者,不同的行业企业,其业务特点使得需要研究的数据周期都存在很大差异。
那么,数据基础又该如何确定?
国家卫生计生委科学技术研究所副主任技师董敬认为,大数据如果仅仅比谁的数据量大,占的硬盘空间多,是没有意义的,“应该比的是它所承载的内容的多少。但这样做又不好计量,因为计量是需要有相当一部分专业知识的,结构化数据后面的定义很长,这个定义很专业,非专业人士很难理解。所以现在很多数据统计比较的是字节数。按字节数来统计则容易很多,容量也很轻松就上去了,而且还都是真实的。但它到底有多少信息量,这得另议。因此,关键是看这个大数据的概念到底要用在哪儿,怎么用。”
分析路径受限
面对产业的大数据热,很多企业用户,尤其是传统企业用户持观望态度的不在少数。在他们看来,是否要切入大数据,以及怎么做大数据,还得先要明确“怎么才算是大数据”。
当然,市场近两年也不乏很多大数据分析实践应用的案例。但那是否就是真正意义的大数据应用呢?中国泛海控股集团系统运维总监王正望表示,一些企业在其内部利用数据所做的一些统计分析工作,严格意义上不能称之为大数据,而是一些数据的聚合,“原因在于一个是样本不够;再一个谈大数据,首先是个人相关维度的东西都应该能抓取到,不能只从一个维度或顶多两个维度,就说自己是大数据,怎么也得跨两个维度。”在他看来,所谓大数据,要能够不断注入新的内容,“怎么能够源源不断地将数据汇总过来,满足人们随取随看。当然随时也不是无限制的。”
另外,先不说数据的意义如何,单从海量数据的堆积来看,想要做好大数据分析处理也并非一件容易的事情。
目前,我们对大数据所能采取的分析处理办法,不外乎两种方式:一种是数据转换,即先将异构数据转为结构化数据后,再利用结构化数据时代成熟的分析工具去处理;一种是无需转换,直接对异构数据进行分析处理,后者面临的最大问题是,已存的分析工具主要都是针对结构化数据的,对异构数据的分析工具也有,但尚不成熟。直白的说就是以现有技术水平还无法对大数据进行理想化、成熟地分析。
董敬认为,现在谈的大数据实际是拓展的异构数据。而异构数据和结构化数据是有本质区别的。“结构化数据是数学的、数字的,它是yes和no的关系,很明确。我们所有东西都是要进行数学描述的,不会将‘白砂糖’三个字打进去。而是先得定义1=白砂糖,2=红砂糖,然后把1和2输进去,才能进行计算。所以,结构化数据不只是占用硬盘空间数,它从分析方法到信息承载量,都很成熟。”
他认为,客观讲,异构数据的信息量没有结构化数据的多。比如“白砂糖”三个字,按字节算是六个字节。但在结构化数据里,比如它等于2,2只有一个字节,却代表了“白砂糖”这样六个字节承载的内容。物理上看节省了五个字节,所以它贮存的效益更高。另外,因为结构化数据直接可以带各种各样的线性模型,只要一上数据公式就能出结果。
“而现在的异构数据主要是一些音、视频和图形图象。这些内容除结构化数据能够承载的东西外,要对它们进行分析会相对复杂一些,需要人机辅助。而且异构数据所承载的信息量,如一段视频、一张图片或一张照片,都只是反应一件事,就是一个字节。要想形成大数据很容易,只要不做结构化数据,几天就能形成大数据,这几天的数据量比做结构化数据的人几十年做的数据量都多。但那只是字节数,它承载的信息量可能没什么。”
他指出,对异构数据进行标准化分析,需要用到线性分析模型,但前提必须将其转化成结构化数据。当然,对异构数据进行转换不是一个简单的编码那么容易。因为很多异构数据并非一个固化的状态,而是一个动态的。所以,先得制定一套评价它、固化它的尺度或者标准,然后在整个分析过程中用这个标准来衡量所有过程或行为。
首发集团副总工程师兼信息化办公室主任徐志斌认为,“像我们一年大概路上会有几亿笔交易,其中交易车辆信息包括了路上的视频信息。这些信息形成我们的样本优势。所以我们希望通过机器学习,看能否从现有一些图片里针对我们自身需求进行提取,来做一些特征分析。”但他表示,“采用传统算法想要做这样的事情效果不是太理想。”
目前国际上视频技术也有比较前沿的研究方向,即如何就视频数据去做浓缩。这样做的目的,一个是,比如晚上没车的数据有8个小时,通过浓缩,最终可能只留1个小时的数据,能够降低成本;第二个,相当于是从视频数据里进行一些目标、特征或事件行为的提取。此外,业内对视频数据分析也有不做结构化转换,直接以图定图模式去处理的,“这种应用更多的是做一些分析,比如在路上行驶的车辆,可以定位到这辆车在某个时间段里的行驶轨迹、路径等。”
徐志斌认为,现阶段先考虑将视频数据从非结构化转成结构化数据,将大量所需特征提取出来后再做留存,这种方式处理不光是缩减量很大,也只有到这个阶段可能才适合留存下来再去做数据的挖掘分析。
显然,在对异构数据分析处理尚未有特别有效的解决办法之前,我们大谈大数据分析应用时就不得不警惕产业泡沫的滋长。
一如中国工程院孙家广院士曾提醒的那样,谈大数据,有一个数据希望引人注意,“我们传统数据是字符数据,但现在的大数据99%都是新媒体,像视频、音频这样的数据,字符数据占用量不足0。1%。所以,在这个形势下必须要对大数据进行研究,过去传统数据里的字符数据已经过时了。”形势如此紧迫,相比过早的谈论大数据分析应用,我们是否该将更多的目光先转向解决异构数据的分析处理研究上来呢?