如今,人工智能风口已经来临。2017人工智能产业创业创新峰会也将于4月13日在北京四季酒店召开。而就在今天的洪泰基金CEO春分大会上,搜狗CEO王小川为听众带来了题为《人工智能技术的思考与应用》的主题演讲。
王小川认为,在去年AlphaGo之后,人工智能开始正式进入风口期。人工智能分为三个应用层次,即:1.将传统规则教给机器;2.将答案教给机器记忆学习;3.将目标给机器自我学习。目前我们的人工智能正处在第二阶段的高级阶段。
另外他指出,现在的人工智能还是有很多的局限性,例如机器需要在学习和判断时有一个前提条件(或训练场景)。对To C而言,图像和语音的深度学习非常重要。语音识别并非人工智能的核心,但是人工智能的未来发展基础。
需要特别注意的是,王小川直言,让人工智能进行判断和决策,这其中蕴含着巨大的商业价值。
以下是王小川的演讲实录:
人工智能是往三个阶段走。我们还处在第二阶段的高级阶段。
人工智能这个话题不是新课题,在上个世纪60年代、80年代就在做人工智能。那时候做人工智能的教授其实很不幸,因为当时的人工智能水平是远远不够的。
当时人们把对自己世界的认知变成了规则,转成了机器人,就是把这个规则告诉机器。这是那个时代的工作。那是60年代到80年代,人们对规则的表达是偏离这个目标的。
80年代之后,基于统计方法来做的人工智能,不是尝试把人对于世界的认知告诉机器,而是让机器学,让你看答案是什么。一方面是把原始的问题,看到问题之后把答案给他,这是走上了让机器人学习的道路,这搞了几年。
这个答案很清楚,很经典案例就是人脸识别。怎么描述呢?胖一点的、瘦一点的等等。我知道这个人是谁,但是没有办法描述。
到2000年之后的突破点,我们发现用更粗暴的方法,我们不要尝试在这个问题上找特征,把特征告诉机器,把原始的问题原始的数据交给机器。我给他两千多张照片,让他自己去找特征,最后得出答案。
2000年之后的爆发是跟这个相关的,阿尔法狗就是这么出来的,他不是靠原来的方法做的。
今天部分人工智能开始走到第三个阶段了。AlphaGo属于是第二阶段加上一点点第三阶段,给它一些答案,给它每一个局面下,人是怎么走的,让机器学。这样可以发现机器很难追上顶尖的人。到最后我告诉机器说,你走对,你赢了,或者是输了。
目前我们主要在第二个阶段,这个阶段一定要用到大数据。好处是我们不需要工程师对原有的行业有特别深度的理解,我举个例子,医生他是懂得怎么看心脏病的心电图,但是他很难把这个规则明晰的描述给工程师。
从去年开始,工程师得到很重要的体验,我不需要医生去学习他细节的技术经验,只要医生告诉我这个代表什么。工程师数据量大,就可以建立这样的模型,这跟选择人工智能的行业之间有天然的沟通鸿沟就消失掉了。这个很快就可以在人工智能里面得到突破的应用。未来的两三年里已经有成功工作经验得到了巨大的升级,今年在智能领域里面有一个很大的发现。
现在的人工智能还是有很多的局限性。核心问题是有一个前提的条件。例如在一个有背景音乐的环境里,两三个人同时说话,人很清楚可以辨别出什么声音是人说的,但机器做不到。因为人工智能是对见过声音的处理,如果两个人一起说话就不行了。
例如要很安静的环境里,如果这个环境里还有背景音乐,同时两三个人一块说话,人是很清楚能分辨出来的,但是机器做不到,这个对机器而言,如果是声音里混了声音,人工智能是对见过声音的处理,如果两个人一起说话就不行了。
如何处理呢?一种做法是用麦克风做。比如我们在汽车里面,汽车里有胎噪和风噪,把这个录下来,然后在混到这个训练里面去,不是在识别里面做,而是它见过这样的声音。还有就是去噪音。
另外比较难的是自然语言的处理。别看机器翻译现在有很大的发展,能把中文翻译成英文,英文翻译成中文,这个能翻译的很流畅。因为现在的机器人学习,不是基于理论方法。人如果流畅,机器也就可以流畅。
比如我去年6月份去了一个剑桥顶尖语言的实验室,他们在演示一个人机对话的系统,演示的非常清楚,我想吃辣的,我想吃什么样的,机器就帮你找。当我找到餐馆的时候机器问我,你需要停车位吗?我说我没有车,它就不会回复了。因为它不知道车和停车位是什么关系。所以自然语言处理这块还是非常不够的。
如果从产品上分类,我把人工智能分成这么三类:识别、判断决策和创造生成。今天做的第一个事情就是把物理世界的东西建模,比如语音识别、图像识别等,都叫识别。这是一类。还有是创造生成,比如语音的合成和图象合成,这就是第一类和第三类的结合,比如应用在安防领域。
我个人认为,第二类,也就是让机器做判断和决策,这其中蕴含着巨大的商业价值。因为它把人的劳动取代,让机器产生更高级的工作。判断和决策其实是商业的核心部分。
前面讲了一个人工智能的判断,我给大家分享一点搜狗在这个里面的思考。
首先人工智能现在的基本做法是要学习。其实对于搜索引擎公司,不管是百度还是搜狗,大部分还是在学习。
现在有了深度学习以后,我们可以想像的更多,比如在网页搜索里面,靠我们的工程师怎么是高品质的让这个机器去学,或者是图象识别这个里面如何更好的发现人脸,发现这个特征。深度学习之后需要更大的数据量才能做提升。
第二,对于To C而言,很重要的是图像和语音,应该叫做深度学习,让我们有了很大的进步。我想表达的是,搜狗从2011年开始做,80%有语音的收入,每天会产生20万条的语音数据。我们对了一下,比其他家做的语音识别的识别价值还要大,这个有清晰的应用场景。
TO B和TO C的公司是有区别,这个要有数据场景。如果没有场景,就要依靠其他家的数据场景,这是一种合作的方式。我们是用这样的技术首先为自己服务,因为我们有足够大的数据场景做支撑。
第三就是,语音识别是不是人工智能的核心,或者是人工智能未来很重要的一部分?我并不这么认为。因为语音搜索只是一个皮毛。比如用语音搜索“王老师”,和用文字去搜索,本质上区别不大。它只是把我的新闻、百度、微博推给你。
语言变语音这个事情我们也在做,但是我们考虑的是以个人为核心做周边的发展。包括两个语音的转化翻译,最后是语音的理解。这是我们To C公司里面思考的,叫自然交互和知识计算,自然交互是以语音为中心,还有是怎么建立对语音的分析和理解。
行业中会有共识,未来很重要的事情,语音在于是对话、翻译、问答,这几个都是最前沿的工作。我们为什么考虑呢?今天是词的搜索,未来是给机器提问题,让他有一个精准的答案。我们在这个工作里面也做了很多的积累,我们认为在1年以内会有突破,不代表是机器理解了,而是在很多问题里面可以直接的回答。以前是靠拼音,敲汉字进去,未来我们是希望别人问,这时机器就可以帮助人们直接回答。