目前发达国家已开始了大数据的战略部署,但国内绝大多数的大数据没经过有效的价值挖掘,正处于起步阶段。相关分析显示,中国大数据市场规模将从2011年的7760万美元增长到2016年的6.17亿美元,未来5年的复合增长率达51.4%。专家表示,大数据的挖掘利用对提升政府管理职能和企业的决策能力、创新发展模式都将产生深远影响,企业应加快大数据的战略部署,抢占大数据应用的先机。
在近日召开的广东互联网大会上,中国工程院院士邬贺铨援用大量的科学数据与案例表明大数据就是生产资料,大数据引发的产业变革已经开始。
大数据就是新财富
赢周刊:现在各行各业都在谈大数据,我们应该怎样理解大数据?
邬贺铨:大数据是指无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据规模的标准是持续变化的,当前泛指单一数据集的大小在数据TB和数据PB之间。比如安全监控的数据量,现在视频监控摄像头广泛应用于国内多个城市的主要道路、热点地区、地铁和居民小区的安全监视,在北京差不多就有80万个,在北京只要一个人去了公共场所,一天至少被拍8次以上。
企业数据也不少,全世界企业存储数据总数达到2.2ZB,未来年增67%。10KB大约相当于一张填满了文本的单页纸,如果采用叠纸的方法,100的TB的堆积相当于帝国大厦的高度。淘宝在2010年就已有3.7亿会员、在线商品8.8亿件,每天交易超过数千万笔,其单日数据产生量超过50TB,存储量40PB;仅是(今年)11月11日就接受2.15亿用户购物,处理交易1.058亿笔,峰值时达9万笔/分钟。
赢周刊:大数据有哪些应用价值?
邬贺铨:大数据的应用非常广泛。IBM日本公司的经济指标预测系统,从互联网新闻中搜索影响制造业的480项经济数据,计算出采纳经理人指数(PMI)预测值。印第安纳大学者利用Google提供的心情分析工具,对270万用户在2008年3-12月所张贴的970万条留言,挖掘出用户的心情。
这是一个企业涉及到管理部门、开发部门、销售部门、支持部门、服务部门的应用,过去这些部门之间的关联是不够的,现在通过大数据分析,可以把一些部门关联起来,可以大改善企业管理效率40%-60%,传统企业有一个数据仓库已经很不错了,但仅仅有数据仓库是不够的,需要从中挖掘内容,提取服务。
大数据在农业应用也很重要,硅谷有一个气候公司,从美国气象局等的数据库中获得几十年的天气数据,将各地降雨、气温和土壤状况及历年农作物产量做成精密图标,从而预测任一农场的明年产量,向农户出售个性化保险,如果出现未能预测的恶劣天气损坏庄稼,气候公司将及时赔付。
什么顾客最会买东西?妇女。哪个顾客群是黄金(1663.80,0.10,0.01%)顾客?孕妇。有个公司找出一些特点,孕妇一般买一些没有刺激性的化妆品,还有补钙等的保健品,根据这些(能)判断一个妇女是不是怀孕了。他们把一些孕妇产品广告夹在普通的广告宣传单中送到顾客那里,向细分顾客群销售。
大数据的一个经典案例是,沃尔玛通过对消费者购物行为等非结构化数据分析,了解顾客购物习惯后发现,年轻爸爸一般买尿不湿的时候,通常要犒劳一下自己买一下啤酒,因此将这两个商品放在一起来卖效果很好。
华尔街(的)德温特资本市场公司分析全球3.4亿微博账户流言,判断民众情绪。人们高兴时会买股票,而焦虑时会抛售股票。(他们)依此决定公司股票的买入或卖出,该公司今年第一季度获得7%的收益率。最近,我国很多中小企业从银行贷不了款,因为他们没有担保,阿里公司根据淘宝网上的改易情况筛选出财务健康和诚信企业,从而不需要担保贷款,目前已放贷300多亿元,坏账率仅0.3%,可见淘宝的筛选是很准确的。
运营商拥有大量的手机数据,通过对手机数据的挖掘,不针对个人面是遮掩与群体行为,可以从中分析,实时动态的流动人口来源和分布情况,出行和实时交通流信息及拥塞情况,物品热销情况等等。
奥巴马刚刚竞选成功,他的团队通过社交网络和微博收集选民的爱好和关注,利用软件分析并建立选民档案。例如某个选民在Facebook或者Twitter上的大部分帖子都是关于环保和医疗成本的,就可以通过电子邮件发一条源自奥巴马专门谈论环境问题的信息让该选民有理由支持总统连任,同时还可以从选民那里得到新的反馈。
因此,世界经济论坛去年的报告说,大数据就是新财富,价值堪比石油。
赢周刊:海量数据在管理和分析处理上有哪些特殊要求?
邬贺铨:大数据在管理上,来自不同地方、不同标准,数据量大型、结构形式、实时性等要求不同,增加采集、便所与整合的困难。数据存储,传统的集中式数据库、数据仓库系统已不能有效地处理大数据的存储和分析,需要分布式处理。一般来讲,首先数据获取,要从移动互联网、物联网、互联网获取数据,然后送到存储系统,光存起来也不行,如果没有标签,将来也找不到,所以需要标签化、摘要,方便快速查询,最后进行有效统计分析。
我们现在都用低成本分布处理器,低成本怎么保证可靠性?往往是用云存储,把一个数据分几分,存到不同的地方。我们首先把不同类型的数据要分类,不同业务数据分类,不同颜色表示不同业务类型,分到不同的地方,只有这样才能进一步优化数据处理。现在的难题是分解数据,结构化的数据处理起来需要关联。
大数据引发产业变革
赢周刊:基于大数据分析的结论影响了许多个人和企业的行为,具体来说,大数据引发了哪些产业的变革?
邬贺铨:由大数据引发的产业变革已经开始了,比如推动智能化生产和无线网络革命。Gartner公司发布的2012-2016年的IT发展趋势表明,大数据、云存储、移动应用、社交网络、网络安全,这些将影响IT业若干年后的发展。现在社交网络是大数据的重要源头,Gartner指出大数据使社交网络的内容分析支出年增45%。智能终端作为大数据应用重要出入口,它可产生于消费者有密切关系的数据,全球数十亿用户足够使这一数据价值连城。基于智能终端的移动互联网成为大数据市场争夺的制高点之一,移动互联网和大数据推动了IT企业的转型。现在终端PC越做越薄,手机智能终端越做越大,两者差距越来越小。一个手拿得下是智能手机,两个手拿得下的是平板电脑。智能终端里通信的属性已经在下降,在边缘化,消费终端的属性逐步增加。
我们可以看一看传统做手机的企业,西门子、NEC现在纷纷退出手机市场,苹果、三星、谷歌从来没做过手机的公司居然进来了。(而)国内企业,阿里做手机、小米做手机,百度、盛大、人人网也打算发布手机,并不是说手机硬件可以赚钱,目的是让他的手机用户一上网就上他们的网站,后续通过流量从广告中变现。
苹果抓住移动互联网的机遇,将产品和服务结合,实现产业链整合,不仅技术创新,还有商业模式创新,苹果打造的Apple Store的平台,控制移动数据。诺基亚满足在功能手机上的业绩,向智能手机转型上反应迟钝,在2006年就提出了向移动互联网转型的口号,但缺乏行动。索爱公司错过与音乐平台、数据的结合,已经被市场抛弃,索尼把索爱的全部股份买了,爱立信退出手机市场。爱立信现在是全世界第五大软件公司,而不是最大的硬件公司,它的专业服务份额是38%。微软也高调进入通信和大数据领域,85亿收购Skype,进军社交、网络电话和视频会议,收购AOL的专利,布局移动搜索,发布平板电脑,进入硬件领域。
谷歌2011年以125亿美元收购摩托罗拉移动,进军移动通信领域,整合服务,将社交战略放到头等位置。谷歌也开发谷歌大数据,可以允许用户免费上传他们的数据,谷歌帮你分析的同时也掌握了你的数据。Facebook是社交网络最大的企业,担心社交网络的阵地被别人占领,所以收购了手机位置服务商,将推出自有品牌智能手机。被收购公司的两个老板很年轻,被收购公司是做图片社交的,总共才13人,成立一年半,卖给Facebook10多亿美元,平均每人卖8000多万美元。Facebook认为图片社交是未来社交中很重要的组成部分。
赢周刊:在这场产业变革中,价值链的关键环节是什么?
邬贺铨:大数据时代,其实卖硬件的最不赚钱,做服务的最赚钱,现在整个IT行业价值链向内容供应的,向数据提供商转型,整个产业链往这个方向转移。
说到底,在当下,数据就是生产资料。国际上非常关注大数据,移动互联网、下一代互联网、物联网、社交网络、云计算、大数据结合将掀起网络业务发展的新浪潮,大数据的价值的合理共享和利用会创造巨大的财富,将带动新的产业发展。