以“从大数据中挖掘大价值”为主题的“第二届中国大数据应用论坛”于2013年7月21日在北京大学英杰交流中心阳光大厅隆重举办。本次活动由北京大学信息化与信息管理研究中心和北京大学CIO班教务办公室主办,北达软协办,CIO时代网承办。各企事业单位信息化负责人、北大CIO班学员及有关媒体代表200多人荟萃于此,对大数据的众多议题进行了热烈讨论。
中国信息协会副会长胡小明先生围绕“大数据启发新思维”这一主题做了精彩的演讲。他在演讲中指出在大数据时代,发现规律,应用规律,不是靠因果关系,而是用基于数据的统计方法发现相关关系;大数据时代需要我们建立精确意识,从粗放管理到精确管理。他的精彩讲如下:
非常高兴能参加今天大数据论坛的研讨,我今天的题目稍微做点调整,改成“大数据启发新思维”,我主要想讨论这个问题,我们大家都在讨论大数据,到底大数据对我们的帮助在哪里,它有哪些观点发生变化而且今后需要怎么应对?我想从这三个角度谈谈我对这个问题的想法。我的想法可能和现在很多报上介绍的东西以及文章上介绍的东西不一致,希望不一致可以增加一些思考,我想对大家反而会有好处。
第一,对大数据现实再认识。这里我引用毛主席的一段话:“感觉到了的东西我们不能立刻理解它,只有理解了的东西才能更深刻的感觉它” 。为什么引用这句话?其实很多事情早已发生,但是如果你没有这种观念,你看它都是熟视无睹的,今天我们讨论了很多大数据的观念之后,再回过头看看有哪些数据、哪些问题,回过来我们再认识它的时候,就会发现和当初的认识不一样。实际上,每个人都感觉到数据在爆炸,这里头我也不多说了,从阅读量、视频、导航各个方面都是在影响着,另外今天的情况也与历史不同。我记得我开始做信息化工作的时候碰到的第一个问题就是资料都在档案库里,用什么办法把它放在计算机里去?当时一直为这个问题发愁,现在所有的资料都是先在计算机里,回来再往印刷品等其他地方去,这整个就反转了,这在当初是很难想象的。今天,我们每一个人都成为信息的发布者,无数的设备在那里增加社会的信息,每个人、每台机器都在推动信息的爆炸。这个现象之后必然会导致大数据的时代出现。
量变必然会引起质变。大家看到了,真正推动数据增长的东西,我认为最基本的规律实际上是摩尔定律。摩尔定律使计算机的能力,15个月翻一倍。换成年数,就是15年增长1000倍。今天上午邬院士说,通信领域比这个还要快、还要高,10年就增长1000倍。这种高速增长是必然的。就像家里似的,橱柜越大,放的东西越多。计算机容量越大,情不自禁的就把它塞满了,这就是发展的历史。所以说数据量的增加,我们老说多少T、多大的数据,这些个数据它们增长规律和摩尔定律规律基本差不多。量的增长就使社会发生了很大的变化,于是就出现了各式各样的新时代说法,包括互联网时代、大数据时代、云计算时代等等。当我们思考问题时,出现一种新的时代的时候,那么思考的层次就升级了,就变成从新的角度上来思考问题。比如造句,你能造句,但是造句和写篇文章不一样,写文章的构思和造句的构思不一样,你能造句但是未必可以写篇文章。也就是说我们可以做好每件事情,但是未必知道整体的结果是什么。因此需要我们要在更高层次上进行思考。
我们来看,新技术的出现其实它并不是平白无故的,一方面是技术在增长,另外一方面和需求配合在一起,新技术和新需求两个完全是捆绑前进的。我的认为是这样的。每一项应用,每一个东西一定要有效益,如果它没有效益,这个技术就不会发展。技术要发展的话,发展之后要推动应用,如果推动不了应用,技术就没有可持续性。他们就是这样互补前进、推动。这里有两个问题:一个是应用效益是什么?第二个是应用成本是什么?我们发现,效益问题是推动发展的一个最大原因。我们到底怎样看待服务的价值?我们可以将价值画一条曲线发现,随着企业规模增大、人均GDP增长、整体经济的发展,会发现业务规模是逐渐上升的,因此我们做一件事情,通常我们做事情为了节约时间、节约成本。马克思说“一切东西归根结底是时间”,时间成本是越来越高的,为什么呢?过去一小时能挣多少钱,现在人均5000美元了,那么一小时的价值是多少!所以节约时间的价值是在增长。我们的经济规模在扩大,上午华为讲到了他们的生产效益,2000多亿,这么大的经济规模,我们所有的企业、机构它的经济规模都在增长,因此同样的事情在今天来说价值是升高的。
那么成本呢?大家都知道,成本是按照摩尔定律下降。于是成本下降和价值升高,这样就会出现一片地方是有效益的,就出现一片效益区。这种新的效益区,每出现一个就代表时代的潮流,是一大堆机会。新机会来源就来自于这里。每一个机会都是特定环境下的产物,不能认为有这个东西就一定有机会,因为一个有效益的机会是很难的,它需要各方面的相配合,而我们让一个有效的东西失效太容易了,因为失效是大概率,任何人都可以破坏一个好事情,但是想把一个事情做成功不容易。我们看到的大数据的应用,之前讲了很多例子,包括移动通讯、导航服务、电子商务都是大数据应用,那么这里非常重要的一点,搜索也是大数据的现象。搜索,全球网络经常要建一个系统把它们都搜索一遍,这是多大规模的数据!而且这已经变成我们的习惯了,当你在搜索一个内容的时候,你从来不会想到这是大数据给我带来的恩惠,但是我们仔细想想,搜索开辟了一个新时代,恰恰建立在大数据基础之上。我们大家经常提,沃尔马,啤酒尿布的例子,这个例子我至少听了有七八年了,这个东西快十年了,讲的都重复了。我当时是批判的态度,就觉得数据挖掘没什么用,要是有用的话怎么不讲新例子,老讲老例子呢,因此证明它没有用。当然现在这种例子越来越多。还有亚马逊,它是云计算开拓者,也是大数据的先锋,所以在推销时完全是大数据的处理,包括医疗、心理科学等等一堆东西,他们都得益于大数据。
现在回过头看这个事情就会发觉它是很不一样的。比如,语言翻译。过去我们把语言翻译从人工智能角度来做,分析语法分析来分析去,但是人们会发觉这个东西的进展始终不大,因为我们以前也参与过这个事情,它的进步老是不大,老是70%、80%的准确率。而今天的翻译已经大大的进步了,它的进步改在哪里呢?不是进行原来语法的分析,而是从大数据角度来做,根本不讲道理,它讲的是什么呢?比如说你说这个词,前面是这个词,接着是这个词,下面翻译什么呢?它成概念计算了,看哪个词出现概率最高。它是通过这样的办法,把翻译水平极大的提高了。Google以前翻译小组是两部分人,其中一部分是语言学家。后来语言学家说搞概率不对,觉得没有道理。但是人家就是这么分析,结果就是质量好。于是有人就打趣了,每走一位语言学家,翻译水平就提高一部分。因为确实是用这个办法获得成功,以至于这些翻译小组,他们经常不懂其他国家语言,完全不懂语言,一点都不懂,也可以做出很好的翻译系统。这就说明大数据的力量,把翻译性能做了极大的提高。
既然是这样的话,我们来看大数据到底给我们有哪些观念上的冲击和改变呢?我自己感觉,我们现在从大数据的角度上,经常从什么角度上呢?数据量由P变到Z,从这个角度谈。但是我认为他们还有更新的理念,因为大数据量的多少完全不是一个绝对标准,它完全是一个相对标准,它不停的在变化。今年,我们认为这叫大数据,因为大数据有一个定义,是麦肯锡的定义,说什么是大数据?说现有技术处理不了的数据叫做大数据。但是现有技术处理不了,可是技术是发展的,而且技术发展是按照摩尔定律发展,每一年半就翻一倍,而且还有一个情况,15年就翻一千倍,因此今天见的大数据就不是大数据。那我们在研究什么呢!所以这个定义太有相对性了。
我们还得从另外一个角度来考虑,这个定义是符合技术严谨的。但是从应用角度来讲未必需要这个定义,而且会发现从应用角度上来讲,我们需要的是,它到底是什么机理使它有效。这是我们所关注的。所以我们应该怎么研究大数据?我认为从信息论角度来研究。我们今天所处理的问题首先要从信息论来看问题,我们面对的是一个不确定性的环境。维纳是控制论的创始人、也是信息论的创始人,他说“20世纪物理学第一次大革命归功于吉布斯,吉布斯的贡献超过了爱因斯坦。”吉布斯贡献怎么能超越爱因斯坦呢?咱们大家讲了牛顿之后第一大科学家就是爱因斯坦。而维纳认为,他说吉布斯做了件什么事情?他把统计学放到物理学当中。过去我们认为,一切都是有严格的规律,一定要找到这个规律然后才能解释,于是就有牛顿第一定律、第二定律、第三定律、万有引力定律。他觉得世界是要靠精确的规律来解释的。但是经过发展之后就会发现,用精确的规律解释自然界是人们的一种幻想,绝大多数规律无法精确,只能说大致怎么样。我们分析了之后,比如电子,电子位置和电子速度就搞不清楚了,位置准确速度就不对、速度对了位置就不准确,变成物理学的“测不准原理”。于是进一步发现,整个自然界根本就无法精确测量。那么怎么来描述呢?就用概率。
我们会发现,信息论是怎么定义的?信息论完全是用概率定义的,也就是说,信息论是研究不确定性环境下怎么样发现规律、应用规律这种科学。发展到今天就会发现,我们怎么认识这些问题呢?完全从因果关系、精密的道理来解释自然界的现象根本就是一个幻想。实际上来说,自然界规律不确定,是概率的,这是信息论的基础。
既然是这样的话,那么我们研究统计有什么大的贡献?统计的思想推动了物理革命产生量子力学。另外,我想讲另外一个事情,对我们工作的改进。统计进入质量管理,推动质量管理的革命。美国在二战时期和德国打,当时德国人看不起美国人,就说美国人要发展军事工业缺一大点,就是光学不行。就说光学这个东西要有长期的积累,所以望远镜、瞄准镜等等一系列光学设备美国人根本做不出来。但是美国人运用统计管理办法,把家庭妇女们经过三四个月训练,一下子可以生产这种高级产品。他是怎么做到的?统计管理。统计管理是什么呢?先控制这东西,使大家的生产各方面保持稳定,然后用统计数字发现问题来解决。这样的话就用数据来解决问题,通过数据来发现规律。这里其中有一条,过去改进一般是两种思路,碰到问题研究它是什么原理,从原理找问题。但是真正生产质量问题不是说所有的东西都能讲得清原理,而且即便可以讲得清原理也是有很多因素,这么多因素凑在一起就无从下手,于是用统计来发现相关关系,发现之后够应用它而未必追究道理,追究道理以后再说。这样就使质量有很大的提高。
面对不确定性的问题,我们要用信息论的思想来解决。信息论的思想就是用数据、大数据发现规律,解决问题,而未必去讲出科学道理。因为讲出科学道理这个事情是很长久的,并不容易。今天上午有嘉宾讲到医疗领域的事情,我对这个很感兴趣。过去都是先做假说,找数据验证假说。而现在从数据角度发现规律,发现之后确实稳定就应用了,这就大大的加快了各方面改进效率。
关于大数据本身,它要求我们转变一些观念,其中一本书叫做《大数据时代》,这本书我看到前言部分,都说这本书写得最好。但这本书里列的几个观点。比如:不是随机样本,而是全体数据。统计是用抽样的办法解决。为什么要用抽样的办法解决?因为我们的数据处理的能力不足。数据多了,它解决不了、跟不上,所以就抽样。第二个,不是精确性,而是复杂性。就是说用不着把每个数据都搞那么精确,关键是把量增加一万倍的数量,不用每个数据搞清楚,你把数量增加到一千倍、一万倍,那些杂质自然抵消掉。第三个,不是因果关系,而是相关关系。真正解决问题时,相关关系比因果关系更有效。因果关系有两大缺点,不是说所有问题它都能搞清楚,另外是多因素影响的,不是一个因素可以解决的。另外因果因素里面,原因找的很慢。只要相关关系运用的好就可以迅速改进。所以在大数据里面,相关关系比因果关系重要的多。
另外前言里对因果关系不重视,其实和传统思想有差距。但是我认为这点是非常关键的,而这些观点很多由科学本身规律决定的。比如小孩学话是个什么样的环境呢?这个环境基本是大数据思维的环境,没有任何人跟他讲话是严格按照语法来讲的,一个按照语法教小孩子讲话的,他反而学不会,他不会讲。你东一句、西一句,只要你跟他讲话的数据量达到一定程度,他就学会了。也就是说,小孩学说话,就是在混乱、量非常大的情况下,他就学会讲话了。我们为什么不能学习一下小孩的思想呢?所以大数据的思想就是学习小孩。就是大量的东西,只要有足够东西的积累就能创造最后的效益。
那么我们要思考一下,大数据到底有哪些威力?威力的三个来源:
一是数据量非常大。当数据量非常大的时候就可以分析小环境下的规律。比如说语言翻译,一个词很少用,如果从道理上解释就很困难,但是当你不是说一页文章,也不是说一千页文章,也不是说一万页文章,甚至不是说一百万页文章,而是一百亿页的文章,当这么大量的时候,你认为是小概率的东西,都可以找到足够的东西把它描述出来。所以说没有足够大量的数据,那些很少出现的场合它就总也凑不到数目,就无法分析规律。因此这个东西就变的非常重要。
大家知道,互联网里有“长尾经济学”,这是什么概念呢?“长尾经济学”是说,以前销售、市场都受到柜台的限制、宣传店面限制等等,因此小商品、小应用无法登上台面,因为没有那么大柜台,摆不上台面,这些东西永远销售不去就被埋没了。可是互联网搜索解决了这个问题,用极低的成本让你搜索到非常细小的东西,后来发现这也是一大片市场,因此出现了“长尾经济学”。大数据给我们的影响也是相似的,过去我们无法使用小概率环境下的各种规律,但是大数据可以帮助我们,因为它足够大量,小概率也能找到足够的样本分析出来。
比如说,女同志穿的鞋相对比男同志的要小,但是有些女同志脚也大,所以她的鞋不好买,工厂也不生产,觉得太少。怎么办呢?互联网解决了问题,因为互联网搜索可以把全球大脚的需求集中起来,也达到了规模生产的标准,于是这个市场开拓了,这也是属于“长尾经济学”的部分。同样,我们对于小概率事件的规律,靠这个来解决。
第二是跨领域的连接,很多相关关系是意想不到的,比如说啤酒和尿布,这两个离的很远,怎么就能联系到一起呢?因为数据处理能力提高了,我们能把它联上。过去看书是线性的,一条一条往下看。但是一本书和一本书的资料很难联系起来,因为搜索能力不行。而互联网搜索提高了搜索能力,这个时候给我们的带动是什么?我们发现可以把很多书看成一本书,自动一翻就出来了,这就是数据库时代,建立在搜索能力强的基础上。数据库还有一个不足,就是在一个领域之内。而互联网搜索是跨领域的,于是实现全球化搜索。那么大数据它是在分析领域里,有着同样的功能,我们把很多看似不相关的数据结合起来分析,于是就发现很多意想不到的东西。
第三是信息不对称的消除。任何人要做一件事情,特别是危害公众的事情,他要欺骗、诈骗,他的基本条件是信息不对称,我知道、你不知道;你不知道我要干什么;你不知道我有什么坏主意。但是大数据把你所有的信息行为都收集起来,因此大量的搜集行为使得你不得不暴露出来,一分析就分析出来。比如说波士顿爆炸案,就是通过电话和其他数据的分析,也就是说强大的通讯能力、数据能力就使这些信息不对称的问题大大消除,提高了社会的安全性。这种破坏性效果就大大的减少。
这三个,一个是小概率环境下的规律性发现,第二个是跨领域的链接,第三是消除不对称。比如医疗领域的诈骗案非常多,弄假的发表给报了,其实这些东西都是可以分析出来的。
大数据的应用还要依赖创意。现在老说“大数据是一个重要的资源”,认为里面含有一大堆好处,但是你是不是拥有了大数据就拥有了财富呢?我认为这并不是绝对的。比如海洋包含着无数多的矿物质,算一下比陆地的矿物质还多,但是这些能成为你的财富吗?不能。为什么?它是否成为财富是有着特定条件的。首先是对不同人就不一样。重要的是要有创意。抽象的谈大数据的资源是没有意义,只有我们创造出来用户需求,这种用户需求的创新才是最重要的。我们发现什么样的需求是最重要的,然后才能利用大数据。所以从数据资源的角度出发来认识这个问题,我觉得有点把资源固定化了,我认为这是不对的。我们真正的资源是从应用目的出发,然后看看有无技术、创意、数据,这样才能做到。
那么到底哪些力量把我们提高了?我们要从它的能力角度出发。你不能跟着煽风。像国外为什么对大数据不那么热?因为每个单位都要考虑到自己的核算。他不像我们,我们要算政治帐不算经济帐,这个问题就不一样了。当然要算经济帐的时候你会发觉每个单位有它自己的利益,所以不能这么处理。那么我们要做的事情是,了解大数据的力量到底在哪里?如何能利用它?这样的话就要研究机会,机会出现了你做才能成功。
中国,数据文化是一个缺口。因为从粗放管理到精确管理需要精确的意识,没有精确就没有现代科学、没有现代技术文明,我觉得这对于中国来说是重要的。要有精确的逻辑、可靠的数据才是知识积累的渠道,否则的话我们每个人想了之后,他的知识积累不下来。举个例子,希腊哲学,它的起源有个非常重要的,其中有一本书是《几何原理》,我们分析几何的思想,因为大家都学过几何,几何思想它把一个一个道理想透了,把一个一个逻辑、定理形成一套系统,这套系统给我们带来什么好处呢?每个人的研究成果变成一个定理,定理是他研究透彻的东西。第二个人可以不必重复思考,他可以在定理之上继续前进。于是每一个人成果都是一个可靠的台阶,知识就会累积起来发展。而我们中国历史上对于精确的意识没有,所以只能意会不能言传,这带来什么问题呢?大家都意会就没有一个积累的基础,科学发展需要积累,如果积累机制不好就无法前进。由于这个原因,所以中国逻辑思维不精确,我们对于数据的考虑也不精确。
还有一个说法,为什么化学不在中国发明呢?就说中国有一个缺点。中国用瓷器,瓷器不透明,而欧洲是玻璃器皿可以看得见里头的变化,认为这是可见性对科学的发展有影响。我还问过一个人,我说中国古代就有音乐,为什么中国没有良好的东西流传下来。他的解释是因为我们没有发明五线谱,古代音乐都是口传过来的,如果写五线谱,我们也会成为音乐创作大国。就是说不精确的东西无法积累就无法变成技术推广,这都是我们需要考量的。因此数据变的非常重要。数据精确是文化的变革。日本通过统计质量管理就完成了数据文化的补课,但是中国在这里面没有完成。所以说所有的单位都要补这一课。
第二,我们不要陷入制高点陷阱。现在我们的科学家、媒体总是在这里宣传“新技术制高点,云计算是制高点、物联网是制高点、大数据是制高点、移动通讯是制高点”,过去的制高点是操作系统、芯片等等。然后我们大家都要奔这里来。但是到目前为止,每个制高点差不多都没有站住。为什么没有站住制高点呢?你这么急切,投资也不少,为什么没有站住呢?我们发现制高点就像冰山一样,只露出一小块,冰山下面有很多,没有下面的支持,上面的东西是支持不住的。也就是说,新技术发展要有庞大用户群,这样才能支撑它,没有足够用户怎么做呢。比如说超算中心,一下子就可以赶超世界的高速计算机水平,但是我们做了之后就有一个问题,我们的超速计算机它的用途经常是不满的,用途不满会带来什么问题?问题不足。问题不足就没有改进方向,这样就永远不能达到制高点。制高点一定要有庞大的用户群需求、问题的支撑。这点很重要。所以我们要敢上制高点,想走捷径,不行。一定要从基础做起,创造好的环境逐步前进。既然慢了,不要着急,把事情做好了,比什么都好。
另外我们做事情要应用导向不要数据导向。大数据一定要从实际利益出发,我们占先其实没有什么意义,关键是把每个单位的事情做好,这是最重要的。我觉得发现高价值的应用是最重要的创意。另外需求也是问题,我们不能老说领导,因为领导还有重要的问题在考虑,每一个领导都有一堆难题,他们从前面里抽出几个难题都比你说的问题大,所以怎么能分散注意力呢!当他把难题解决好了,于是信息化的难题就提上议程。当然了,新观念也是很重要的,最重要的是对一个机构(单位)基本价值、基本利益要有清晰的判断。我们不要图虚名而忘记实际该做的事情。
从小数据开始的大数据战略才是正确的。我们要认真的把现有的数据做好。实际上区分大数据、小数据没有什么意义,大数据、小数据是谁提的?是对于开发者、技术人员提的,而从应用角度来讲,大数据、小数据都是一样的,用好了数据就是方向。而且首先要把可以找到的、容易生效的事情做好,逐渐向大数据发展。所以说跳过这些东西没有什么特大的意义,我们要把现有的事情做好是最重要的。对于政府来讲一定要开放政府数据,推动大数据发展,政府也想走捷径,我认为没有必要,关键是把数据开放,让社会来做。比如说企业信用问题,现在很多地方政府建企业信用数据库,做这个有什么用,首先你做不好,还不如开放了,让企业来做。你真正做的是保护公众隐私。现在政府不想保护公众隐私,老想保护他自己的隐私,这是不行的。因为从未来角度讲,政府应该是越来越开放。保护公众隐私比保护政府保密还要重要。