首届中国大数据应用大会7月14—15日在四川成都世纪城国际会议中心举行, 本届大会主题是“大数据与智能时代”。由塔塔数据承办、全景网独家媒体支持的经济数据论坛今天下午开幕,清华大学计算机工程硕士,美国德克萨斯理工大学教授林漳希在论坛上做了主题演讲——《新兴中的数据科学与工程》。
林漳希表示,大数据重构是大数据的价值核心,大数据最重要还是体现在价值上,如何把数据转化为信息,信息转化为知识,知识转化为见识,见识转化为决策,这非常重要。
林漳希还说,大数据问题要解决的核心是人才培养,我们需要数据战略家,需要数据科学家,还需要数据工程师。
清华大学计算机工程硕士,美国德克萨斯理工大学教授林漳希
以下为发言文字实录:
谢谢大家,谢谢塔塔数据给我这个机会在这里和大家一块交流我的体会。我今天讲四个方面,第一点重新认识大数据,我特别强调数据科学和数据工程,我更多从一些具体的案例分析来谈,最后就是重构大数据的价值。
从去年来看大数据的技术得到很大普及,大数据分析工具我们也知道,在数据空间范畴里,几个数据大佬也在进行不同的合作,比如去年京东和永辉超市的合作,阿里巴巴和苏宁易购的合作,很多地方都在跑马圈地,可以看到各种各样的组织、机构成立,他们号称这块是我要做的事情,但是怎么样在这块刨出地以后种出庄稼来是很大的挑战,从贵安大数据做大数据交易到现在,大家试图在数据方面能够走出一条新路。
到今年现在面临一个现实的大问题,我们开发了那么多技术,有那么多好算法,囤积了那么多数据,那么我们怎么获得数据资源?我曾经和蚂蚁金服的CTO聊过,我们如果能继续获取更多价值,那么数据的存储和囤积是有用的,你有数据不等于你有了一切,因为数据是在不断变化的,你如果不生成新数据老数据价值在慢慢减低,获取大数据价值核心是在中间五个部分,大数据探索,安全和风险预警,数据仓库能力增强,运维和运营分析,360度全方位客户分析。在这里面要强调数据科学和数据工程作用,数据科学实际上不算新鲜的东西,很多大学都有数据科学研究院,硅谷很多公司都成立了数据的科学部门。
怎么把数据转化为信息,信息转化为知识,知识转化为见识,见识转化为决策这非常重要,我讲一个例子,北京1039交通台样板数据,这数据非常小,通过这看看这个数据给了我们什么东西。北京市给一万个出租车司机一人发一个手机,上面有GPS信息,最主要的信息就是汽车所在地方和时间,这两个信息非常简单,但是可以看出非常多的东西出来。这是在某一时刻汽车位置图,在这个位置图上,如果在下一个时刻汽车移动多少,距离÷时间就是速度,由此可以看到车行速度,汽车分布和密集度,同时对车活动范畴也可以看得比较清楚。
由此在这个基础上可以作出很多导航的结果,还有如何优化公共交通,还有车辆异常行为也可以监控,另外对社会安全动态也可以进行动态监测,车辆保险等等,还有电子商务,广告等等都可以跟进。如果落实到每一个车,再细到谁在开车,再细到车辆的状况,把这些放到一块里面的价值非常大,所以交通大数据一直是国内关注的问题,但是问题是除了现在用的百度地图,高德地图之外,这些数据到底起什么作用呢?清华同方在成都有分公司,就是在做车联网和保险上的关联,上海通联数据也在做这方面的工作,但是情况不得而知。
IBM上海研究院几年前做了一个项目,肯尼亚M—Pesa是世界上最大的移动银行系统,当他们开始做这个项目的时候要求把这个数据做信用评估,因为肯尼亚人经常要贷款,一般贷款不超过一百美元,怎么评估他们的信用呢?当他们拿到这个数据遇到一个很大的问题,因为他们用的大量都是非智能手机,没有地理位置,只有和哪一个基站相连的信息,他们花了三年时间把这个问题破解了,搞出一个不错的模型,愿意在中国有关部门和单位进行提供。宜信在这方面做了大量工作,宜人贷去年上市背景和它们的大数据非常相关,其中一块是和手机地理位置信息相关。
现在我们讲的大数据和维克多在2012年那本书里面讲的大数据已经发生了潜移默化的变化,有的时候我们讲的是数据,有的时候是讲的整个技术体系,有的时候讲的是信息技术,只不过进了大数据的圈子。现在我们也在置疑大数据,置疑的观点是大数据时代不是因果关系而是相互关系,这个话本身就有问题,还有大数据不是随机样本而是全体数据,实际上在有限的时间里是不可能穷尽事物全部,不可能用所有的数据进行分析。
大数据时代不是精确性,而是混杂性,这句话也是有问题的,今天我们讲的是对的,明天我们会在这个基础上进行反思,升华。
数据科学可以做什么呢?可以做数据质量诊断和问题处理,数据资源整合和价值发现,数据建模和模型性能评估,数据降维,商业价值实现。
数据工程相对提得比较少,现在我们发现数据工程越来越重要,这是美国积累多年的数据框架和方法论,上面分了很多细节的问题,在底下的两层是和数据工程密切相关的。目前中国只有一个学校有数据科学工程硕士点,也就是清华大学,其他学校我还没有看到。
数据湖的概念,大学里有多少学校在讲数据湖呢?这个概念刚刚提出两三年时间,而现在已经很广泛的使用了。我们有业务数据库,通过ODS处理以后进入到加载数据仓库,完了以后各个部门有数据集市,这些部门还分外部数据,比如市场营销部,比如银行市场营销部除了银行的数据之外还会搜集其他的行业数据,这些数据不会在业务数据库里面,所以形成了本部门很混杂的数据群。在这个问题上我们面临的问题就是你要解决大数据的问题,你要有一个存储大数据的架构,你要先把数据体系设计好,设计完了以后才有可能把数据采集到存起来,才有可能在上面提炼到东西。
所以数据工程的内容挺多,对于业务工作了解和基本技能要求非常高,基本技能有数据逻辑思维,数据查错能力,计算机数据处理能力,统计分析和采样技术。在数据处理上我们都有共同体会,而这种体会是大学里从来没有学过的,现在大学还是没有教这个东西,我们说游泳要有水性,做数据要有数据性,在这方面人才怎么培养是一个问题。
接下来就是大数据价值体系重构问题,我们知道大数据非常有价值,价值是最重要的,我们搞了半天大数据最重要要体现到价值上。
这是各个行业数据科学家的比例,对数据科学家的需求在不断的上升,未来五年需要50名有素质的数据科学家,缺口高达19万,还需要150万名了解数据的高管和人员。作为一个企业,我们可以问问你们的企业能够胜任这些任务吗?就是说你们的大数据团队能够胜任这些任务吗?你的科学家和工程师,还有你的系统技术人员能支撑你的关键技术吗?对于一家公司来讲是否有能力制定数据发展战略和制定企业的数据治理方案,是不是有能力把数据整合以后,而且能把整合后的资源转化为你的生产力,使你的业务能力大大提高,这是一个很重要的问题,我现在问很多公司老总,不管在北京、上海、成都、福建都是一个共同的问题我们缺人,北京也缺人,包括阿里巴巴也缺人,腾讯也缺人,得到都缺人。所以在缺人的情况下我们必须要有人做资本家,知识的资本家,我们在教育方面一定要提升,这是非常重要的问题,最终大数据的问题要解决的核心地方我个人认为是在人才培养,我们需要数据战略家,需要数据科学家,还需要数据工程师。
人才分四个梯次,这四个梯次可以用类似创新工厂形式来实现,由高校提供基本人才,组织面向产业化的研究院,由创新实验室成功项目可以进入新创企业,在高地上指智库上的人,在沙滩上的人就是愿意下海,他们对产业东西很了解同时和智库有联系,给公司提供服务咨询的就是刚下水,跳下去游泳的就在产业化里面做。如果把这四个梯次都形成一个体系应该是非常好的,我们应该有这么一个体系结构,塔塔数据应该是大数据产业联盟的地方是塔塔数据的位置,核心部分我们要有数据科学工程研究机构,它们不是纯粹的研究机构,是面向产业化的研究机构,就有点像清华数据科学研究院这类性质的,直接和企业挂钩,同时背靠大学,同时要和其他资源对接起来。
这就是我要谈的东西,谢谢大家。