2016年9月6日,由上海大数据联盟、数据猿和上海BOT大数据应用大赛联合举办的“人工智能发展趋势论坛”在上海超算中心顺利举办。本次活动是2016上海BOT大数据应用大赛举办的一系列论坛之一,后续我们会在全国为大家奉上更多精彩的线下活动。论坛聚焦人工智能未来发展风口,力邀思必驰、蓝驰创投、亮风台、爱因互动等行业内知名企业以及投资人,共同探讨前沿科技最新进展以及人工智能领域的最新发展趋势。
五位嘉宾的主题演讲干货将分几次陆续为大家奉上,敬请期待。今天,小编为大家呈上的是机器之心首席技术顾问赵巍的主题演讲“机器学习技术的发展和机遇”。
赵巍,机器之心首席技术顾问。机器之心是国内人工智能、机器人行业最专业和最具影响力的媒体和产业服务平台,机器之心不仅提供了新的内容,还开创了一种新的组织方式,形成了一种新的媒体和产业相结合的业务模式。
以下是嘉宾的演讲实录:
机器学习技术的发展和机遇首先谢谢大家!我在来之前问了一下,这里边很多参与者都是创业公司跟投资人,所以我把讲演的内容稍微往产业那边调一下。主题还是带有比较强的技术倾向,“机器学习技术的发展和机遇”。人工智能的蜂巢很大的原因就是背后深度学习技术,尤其是计算机视觉方面叹为观止的成绩,才会带来这么多人谈论人工智能。
我觉得现在这么多的人炒作,深度学习也是一个错误,深度学习只是人工智能技术中比较有成绩的工作。但是实际上我觉得人工智能再继续向下走的话核心的驱动力应该是机器学习技术,绝对不仅仅限于深度学习。各位可以把你们的技术视野放得更宽广一点,大家都去做深度学习的话,不见得真正的会出现创新。
深度学习现在在很多领域都做广泛的应用,前一阵子放到USB上面,模型的本身也得到不断地优化和压缩。务实际上这方面的工作是非常活跃的。他们的工作都代表着一种趋势,机器学习无处不在。大家传统的印象机器学习放到非常大的GPU的集成里边我再做机器学习,实际上不是这样的,可能越来越便捷化。
机器学习除了从产业的角度,从不同的报告角度,从人工智能研究人员的角度来说他们考虑机器学习主要考虑通过技术来进行知识的获取。从人类人工史上怎么获取知识?有四种,第一种就是机器学习比较深的能力。另一种就是个人的体验,从小到大人生经历,慢慢学会怎么骑自行车,或者创业失败了怎么面对失败。另一种就是文化,中西方古今中外各种智能科学方面的成果,通过这个也获得了你对社会、知识、工作方面的理解和技能。从进化到经验,到文化,知识获取的效率和速率正在逐渐提升。进化、经验,文化方面效率越来越高,最快的效率,整个社会的发展应该是从计算机获得的,计算机也就是从人工智能角度。
著名的yann lecun说了一句话是“未来世界大书特书的知识都将是有机器或是并在机器中存续”。从学术界的角度来说最关心的是非常强的启动能力。
计算机如何发现新知识?不只是我们,我这里也关心在商业,在教育,在个料各个方面新技术的发现,分析、判断、预测事物的能力。怎么去发现的?普通的有五中模式,为对应着机器学习最主要的流派。比如说填补现有知识的空白、模拟大脑等等。
机器学习的五大学派。如果你仅从媒体的角度看几条报道和新闻你会觉得深度学习,所有的东西都是深度学习。如果你去问一个AI比较资深的研究者,他们都会告诉你一定要把自己的视野放得很远,很大。所有创业公司,做技术的人去关注一下。一个是符号学派,这个有点像科研。这里有一个非常好的案例,就是让一个生物学家发现发扬的生物。下一个就是连接主页,这个学派就是深度学习的学派,他认为是在模拟大脑神经原各种连接的状态,这个时代上是现在主流的,也是成绩最显著的生态。
还有一个进化学派,比如说刚才我说的在复杂的山里边怎么走路。你用得到的技术手段反而是进化学派。从数据上来讲没有一个完美的结合,这样的挑战可以用进化学派继续学习,可以做一部分的优化。实际上在商业应用中也非常有价值。贝叶斯学派,很多技术人员可以更熟悉。类比学派,甚至有一些极端的认知科学家认为所有人类的认知全部是一种类比的认知,包括我们的记忆,有的时候同一个时间,同一个空间发生的记忆,把各种连接起来,通过简单的概念链接到更加复杂的概念。
做类比学派打赌,我觉得五年之内就不会再听到神经网络这个词了,但是这个赌输掉了。有时候做技术创新这件事,即使最强世界顶级的过程也不会进行判断。
机器学习现有的应用。一般来说你会发现至少现在深度学习为主流的机器学习技术更适合取代白领工作,越简单的体力劳动越容易,一如说一个建筑工人如果让机器学习试着取代建筑工人是非常难的,因为这是几亿年进化产生的能力。白领这个东西是人类不擅长的,你做了一个财会,或者你做了医生、律师。机器学习在诊断上一般来说会比医生做得好,但是这个有可社会性的问题,不只是是技术的因素。
网络安全,今年国外做了一个统计,AI领域获得融资最大的一笔就是Cylance公司。简单来说过去做的太老道了,非常狡猾的,意图不轨的,会想改掉各种各样的东西。这种东西传统的方式就变得特别的笨重,特别的不灵活,只有机器学习在网络安全或者整个企业、数据安全方面做得真正有意义。这是非常大,非常有潜力的创业方向,在座的创业公司可以考虑探索一下。
很多的对冲基金是由机器学习背后驱动算法进行交易的,Vital算法入选VC董事会。广告、教育就不说了,广告非常常见。对用户倾向性的东西都会通过机器学习技术进行预测和判断。
教育是比较开放的,尤其在国内,国外有比较好的案例,通过机器学习做了比较好的结果,国内目前没有看到,这也是创业公司可以尝试和探索的非常大的努力和方向。
上面说的五种算法,五个学派都有自己的核心算法,深度学习是自己的核心算法。这些东西学习能力还是有限的,我们希望以后机器学习可以看懂X光片,扔给他汽车上的传感器的数据就可以自动驾驶,你扔给他这个论文,他可能知道在讲什么东西。现在五个算法都做不到那么强,实际上从学术界的角度来说希望最后能出现一个终极算法。这个东西如果出现的话,时间上没有办法判断,机器学习对整个人类文明的影响非常大,人类和机器智能相比的情况就比较好。学术界里边几乎所有的教授,所有的科学家一提到基点的概念都是嘲笑和鄙视的态度。
本身分析的方法论都有问题,现在根据计算能力或者认知计算能力发现的体现做几何技术,没有任何的技术发展到最后是几何技术的增长。技术到一定程度就开始平滑了,而且在这个基础上就为别的突破性的技术做了一个奠基。
如果从技术上有追求的公司,无论是前面五种非常重要的机器学习理论的应用,在终极算法要做突破的话一定要出现新的思想。这里边有一个学术界非常看好的方向,让大家关注一下小孩的成长心理学,孩子从小怎么学走路,他们有非常少的数据,没有标签就可以掌握新的技术。
机器学习技术的新热点,如果大家现在想用机器学习技术创业,从技术界的角度和产业的角度很看好。这次大家能聚到一起,基于自然语言处理的技术驱动的技术。无论是微软还是谷歌还是Face book,真正想做推动的东西在他们看来是深度报复。除了自然语言处理技术之外背后还有很多技术的技术,就是动态生成,实现电子商务的需求。这个技术是比较保密的,可以看它能做什么,国内的创业公司可以模拟、复制。
自然语言处理最主要的学术会议叫ACEL,所以深度学习也在渗透,而且带来了很多比较长足的进步。还有就是各个学派的结合,现在只做深度学习的话就没有多大意思,现在深度学习是什么样的状态?深度学习现在在外面有非常多的模块,你要做一个特定的事情的时候,你前面放了几千块的东西,你要在其中挑出两三块,组成你自己的感觉,技术人员,对研究人员、才华的技术比较浪费。非常有趣的是把其他的学派之间进行融合,你会发现有很多创新的否间。
比如说深度学习里边有一个技术是对数据的分布空间进行学习,但是传统的方式是这样的,深度学习这么做了。最近有一种方式,就是把BOT理论引入进来,做了非常好的结果。还有生态系统的搭建,从硬件,到软件,有点像驱动机器学习的操控,价值非常非常大。这个至少是一个非常好的,对整个生态的思考和探索。除了学术圈的人在关注之外,可能媒体也不太关注,因为媒体不是那么懂技术。我们国内的技术圈子也没有想得那么多。
计算效率的提升,传统计算梯度是一步一步慢慢来的,合成梯队方式是通过另一个神经网络预测你的梯度。有了这个结果之后你就可以大大的实现,以前用GPC才能做,你现在用CPU就能做。以前一个GPC现在分布到各个地方。拿到了这样的核心技术,做各种各样的研发和生态系统的搭建价值都是非常大的。有这种能力的公司或者研究机构未来会得到极大的发展。因为实际上人类在做判断,最后思考的时候,如果你的机器学习技术能够非常好。当然现在有一些技术都在尝试这些方向,但是这些东西都没有突破性的进展。美国电力学会做了一个预测,2040年的时候如果按照现在大数据发展趋势那个时候所有数据中心需求的电量会超过全世界所有发电量的总和,现在的方式根本没有办法以后商业社会的需求。人脑神经原的连接方式非常丰富,基于CPU或者GPU务的计算连接是非常糟糕的。
你从比较新的趋势,即使他们计算过,在能耗的优化上已经远远走在其他芯片了。即使这样IBM的研究要做标准人脑的仿真,要把纽约和旧金山两个城市的电力加在一起,来实现人脑的模拟。现在往往你做的东西是不被投资人看好的,神经网络最开始的时候国际学会会不到三十个人参加,类别学派的东西,一开始刚刚开始熟悉,二三十个人,后来把整个产业像风暴一样席卷过来。
往往你要敢于做一个别人看看好,但是你自己坚信是好的东西。即使现在很多公司很热,有很多投资,不见得能产生优秀的结果。现在大家都称赞的里肯(音),它是非常缓慢的增长到2008年的时候根据数据的积累才开始有一个增长性的发展。所以大数据公司不见得一开始最受重视,最热门的公司就一定是最好的公司。
机器学习生态工具框架的开发现在变得越来越拥挤。这个就给大家一个提示,除非你的产品非常非常有竞争力。这些框架都在走开源的道路,大家要去考虑如果在创业发展方向上的选择。
还有就是如何聚焦?这个不是我的观念,最近我在看硅谷的一些讲座和他们的文章看到的一些观点,他们觉得你做大数据也好,做人工智能也好,你要做这种垂直领域的工作,最好在垂直领域先有一个比较锐利的切入点。你来把商业客户的需求和底层的人工智能技术和工具和生态环境连结起来。在这个基础上,你的效益里边深深的扎根了,在这个基础上再扩展到医疗,扩展到保险,在他们看来是非常靠谱的。如果一开始你说你要做一个深度学习的框架、或者云平台,美国的VC觉得你很不靠谱。
投资的热点案例跟大家提几个,看他们得到了很多投资人的认可,包括技术人员的认可,还有行业吸引到了很多人才。这几家公司比较有代表性,Turi刚刚被苹果收购,他们做的是一个生态性的东西,,大家可以看看人家怎么做的。还有就是DataRobot,快速的模型比较,你有一百个机器学习的模型做预测。但是如果你没有这样的能力和判断,可以帮你非常快速的选型。你在它的平台上马上就可以看到各种不同的模型。
还有Vertical这个东西,前不久刚刚在斯坦福做了一个峰会,它是做图象理解的,它现在是做三维图象的理解。最近三维图象里边比较激烈的竞争是普林斯顿大学做的全世界范围内公开的大赛。论文实际上是公开的,至少有一部分论文是公开的。如果你有那么多的数据,那么大的计算量,如果能把你的能耗降下来的话,在整个生态圈里的价值是非常非常巨大的。
商业化和产品化,你的底层技术如果是80%,商业应用和场景都可以实现可接受的结果。一开始技术不见得是全世界最好的,但是一定是行业里边做得优秀的,做到可以接受的优秀。Pursue Scale,现在投资人最看重的是Scale,就是因为机器学习做的很多事情里边,假定各种能源公司有各种各样的探测器。一个传感器已经很高了,因为尺度如此大,什么时候你要预测哪个区域,哪个型号的传感器要进行更换。分布式的传感器应用价值非常大,现在航空公司都在用机器学习做飞机引擎保养和预测。
所以怎么样把LT这个概念,背后人工智能驱动的技术做得好。硅谷看的是每一个平均立方米能创造的价值,这个时候价值就变得特别重要。关注垂直领域你要非常理解,你要做教育,你要做医疗,你要对这个行业各种各样的数据,各种各样的国际关系非常了解。我觉得创业公司如果现在出来我是一家机器学习公司一点价值都没有,就跟一个人说我用Excel做什么是很有价值的。 很久以前大家在强调数据分析,还有一种现在比较热的技术。后面更强的技术是做Decisive,如果你要分析数据之间的因果性,是不是随机性。这个东西非常小,如果你可以做Decisive,价值是最高的。
AI务冬天吸取经验,如果听到一个人说深度学习或者人工智能语言本身是没什么,很多商业应用和数据可以非常好。现在计算机资源从某种意义上需要技术出来帮助大家。也许有时候就是一个强的团队说不定用一个服务器就可以做到比较笨的团队,一个集群才能做到的事情。
有些东西他们认为非常简单,后来发现非常非常难,有些东西认为非常难,后来发现很简单。现在也是这样的情况,包括机器学习技术你去看哪些商业是可以解决的。
深度学习一句话概括了,不需要因为深度学习热就做所有的东西,深度学习最擅长做的事情是处理复杂的多层抽象结构的数据。如果你做的不是这一类的数据深度学习绝对是一个非常抽象的事情。欧洲现在有一个规定,所有的算法都是有规定的。现在机器学习用到社会各个角落里边,有些案件也是用机器学习在做的,这些东西如果有公开性和透明性大家比较放心。有些东西并不适合人类,人脑不擅长建立复杂的模型,但是机器非常擅长。
有一个统计美国人因为英语的多音节结构,中文记数字是7—8倍。很多现实社会中,无论是金融领域还是教育领域,可以做这个东西,可以给你非常高的精度,从理念上来说不需要理解,可能人脑的结构也不能理解这样复杂的模型,你要能够坦然的接受。这是一个社会认知的问题。欧盟现在很多行业的人都觉得欧盟的法律规定非常非常傻。
以后中心会不会出现同样的问题,在立法上或者监督管理上有同样的问题。做一定的事情要看所在的区域司法或者其他的环境对你有没有影响。
技术公司和投资。在美国50万家公司,只有5万家公司能够拿到天使投资,一千家公司可以拿到For。这里的风险还是很大的。去年Q2到今年的Q2。其中有几家公司是非常大的,大家可以回头找一找他们的商业模式,他们的技术思路。投资趋势美国还是引领世界,亚洲在奋起直追。亚洲在很多地方都已经超越欧洲了。
还有投资回报这件事情,这是美国的一家VC的数据,32家公司一点都没有,有22家是1—5倍的回报,14家是5—25倍的投放。最后一家VC大的收益主要来自于这一家公司。VC做事也是非常辛苦的,他们冒很大的风险。这里边真正能成功的非常少,大家一定要做好面对失败或者怎么调整公司创业战略的问题。谢谢大家!