1.历史了解越详细,未来就看得越透彻
全世界都在为即将到来的人工智能革命感到振奋。这种情绪就仿佛二十多年前我在硅谷亲历互联网大潮初起时所感受到的。
2012年,我注意到深度学习在学术界和应用方面都有了突破。比如,用深度学习的方法来识别图像,突然就比以前的任何算法都有明显提升。这个时候我马上意识到,新的时代来临了,搜索将被革新。过去我们用文字搜索,现在可以用语音和图像进行搜索。比如我看到一株不认识的植物,拍一张照片上传搜索,就可以立刻识别出来它叫福禄桐。过去用文字搜索是没法描述这样的植物的。不仅是搜索,很多过去不可能的事情现在都可能了。
语音识别能力、图像识别能力、自然语言理解能力,包括为用户画像的能力,这些都是人的最本质的智慧能力。当计算机拥有了人的这些能力时,一场新的革命就会到来。以后速记员和同声传译人员可能会被机器代替,计算机可以做得更好。以后也许不需要司机了,车自己就可以开起来,更安全,更有效率。在企业里面,金牌客服可能人人都可以做了,因为有了智能客服助手。人工智能对人的这种赋能,超过了以往任何一个时代。工业革命解放了人的体力,过去一些像搬石头之类的粗活需要人类自己来干,现在机器可以替你把更巨大的石头搬起来。智能革命到来之后,原本很多需要费脑子的事情,机器也可以帮你做。未来20~50年,我们会不断看到各种各样的变化,收获各种各样的惊喜。
让我们把时光推至工业革命以前。
在当时的英国,由于纺织机械带来低成本产品,传统的手工纺织业被挤垮,遭到工业主和工人的反对,掀起所谓的「卢德运动」。珍妮机发明者哈格里夫斯多次遭到同行和邻居的驱逐。但珍妮机最终还是推广开来,助力英国统治全球纺纱业。而蒸汽火车一开始甚至速度还不如马车,从而被马车夫嘲笑。
到了电气革命时代,历史再次重复,比如马可尼在1895年研制出最早的无线电装置,并且利用这一装置成功进行了远距离摩斯电码通信实验。他成立无线电报与信号公司,推动无线电商用。但由于与海底电缆公司的利益相冲突,他想在纽芬兰设立无线电报局的事遭到反对。不过当时美国的现代市场体系和技术偏好已经初步建立,所以无线电还是很快发展起来。
电气革命与今天的智能革命有一些「基础质料」意义上的类似。与蒸汽动力无法远距离传输和统一布局不同,电力是一种无限流动的普适能源,正如今天的互联网是一种流动的,让用户可以随时接入的基础资源。「电+产业」正如今天的「互联网+产业」,颠覆了无数的传统产业。
当然,电流和智能流只是在比喻意义上可以类比,前者是电子的流动,后者是比特编码的流动,不是同类事物,但这种类比有助于我们感受问题的关键所在。我们不妨对比一下两个时代的企业升级。
当电气流向千万企业,很多企业主动寻求升级,虽不是像蒸汽时代那样抗拒,但同样困难重重。一百多年前的电力系统十分复杂。需要在直流电、交流电,不同的电压、不同水平的可靠性、不同的电力接口以及价格之间做出合理的选择。直到今天,各国的电压和接口规格(插座口)也都没有统一。和不同电力公司打交道也是个技术活,否则很可能吃亏,正如今天企业找互联网技术外包公司时,如果不专业,就会落入陷阱,从编程语言到系统架构,都有各种令人眼花缭乱的选择。
如今,尤其是这两年,人工智能再度呈现技惊世人的技术,这是机器学习技术的升华版——基于多层计算机芯片神经网络的「深度学习」方法。通过多层芯片联结,模仿人脑大量神经元的网状联结方式,辅以精妙的奖惩算法设计和大数据,可以训练计算机自己从数据中高效地寻找模型和规律,从而开启了一个机器智能的新时代。
科学家们觉得人工智能经过这么多年的发展,到了「终于可以用了」的阶段,而它的实力在我看来,才刚刚开始施展拳脚。
2.在人工智能时代下,你我都需要做出改变
我无意过分夸大人工智能的作用。
从纵向发展来说,业界通常把人工智能分为三个阶段:第一阶段,弱人工智能;第二阶段,强人工智能;第三阶段,超人工智能。实际上,目前所有的人工智能技术,不管多先进,都属于弱人工智能,只能在某一个领域做得跟人差不多,而不能超越人类。
对此,我可能比大多数人都更保守一些。在我看来,人工智能永远不会到那一步,很可能连强人工智能都到不了。未来,机器可以无限接近人的能力,但是永远无法超越人的能力。
当然,仅仅是无限接近人的能力,就已经可以产生足够大的颠覆性。因为计算机在有些方面实在比人强太多了。比如它的记忆能力,百度搜索可以记忆上千亿的网页,其中的每一个字它都记得住,没有一个人能够做得到。再比如它的运算能力,哪怕是写诗——打个小广告,把你的名字输入手机百度的「为你写诗」,敲回车键,没等你反应过来,诗就出来了。再厉害的七步神童,也很难达到这种速度。但是,在情感、创造性等很多领域,机器是无法超越人类的。
跟我不一样,技术界还是很乐观的。
智能领域的权威人士都认为,在不久的未来,智能流会像今天的电流一样平静地环绕、支持着我们,在一切环节提供养料,彻底改变人类经济、政治、社会、生活的形态。陆奇称智能时代的核心本质是「knowledge in every system, intelligence in every interaction」(知识无处不在,任何交互都是智能的)。未来世界的人们将像穿衣吃饭一样享用着人工智能而无所察觉。
有人为人工智能的到来感到焦虑,其实我觉得大可不必。
在20世纪初,美国有50%的农业人口,但随着农业机械化,现在的农业人口降到4%,而城市化吸收了多余的农民。但眼前发生的事情是不同的,当人工智能大规模进入社会后,人类能做的工作它们大部分都可以做,城市不会再有更多的就业岗位留给人类。通行的美好说法是,人们在常规工作中被人工智能取代后,可以去从事创造性的工作。问题是创造性的工作不是人人都可以从事的,也不需要那么多的人,如果社会分配制度不改变,一个全部由科学家和艺术家构成的人类世界几乎是一场噩梦,这上百亿科学家和艺术家中的绝大部分注定一生碌碌无为,对社会和自己都毫无用处,且沦入「创造性」的穷困潦倒中。
但这种思维方式总有些不对的地方。人类自古以来为生存而劳作,实在是迫不得已,工作着是美丽的,但谁都知道,不需要工作的生活更美丽。现在终于能够制造出把自己从工作重负中解放出来的机器,这是人类文明最伟大的成就,无论如何不应该被看作一场灾难,相反,这可能是人类所面对的前所未有的伟大机遇,只是,我们需要改变。
3.跳棋、国际象棋、围棋后,AI还将进击
AlphaGO和深蓝的逻辑并不一样,同样是下棋,但背后的人工智能已经实现再次飞跃。
蒙特卡洛方法就体现了概率学的精妙。假设,在某个棋局局面下,深度学习网络给出了三个候选落子办法A、B、C,以这三个点为根节点,分别往下走子,可以想象成三棵树,每棵树还有无数分支。蒙特卡洛搜索不去穷尽所有分支(穷尽所有是深蓝的做法),而是派出300万只蚂蚁分别从A、B、C出发,每个点100万只,飞速向树梢爬(也就是往下黑白棋交替走子直到决出胜负,基本上走200步就会分出胜负),总有部分蚂蚁走到最高点(也就是决出胜负,假设蚂蚁走到终点的情况代表黑子胜,没走到终点的情况代表白子胜)。
假设从A点出发的100万只蚂蚁有30万只到达终点,从B点出发的有50万只到达终点,从C点出发的有40万只到达终点,系统就认为黑子走B点胜率更高,就会选择B点。这就是概率学的取样算法,相比逐项穷举法,极大地缩减了计算量。
为什么派100万只蚂蚁而不是10万只或者1000万只?这是根据计算机的计算能力和对竞争对手的大致估计来确定的。如果派10万只蚂蚁就可以得到较高胜率,那么派10万只也可以。在相同时间内派出越多蚂蚁,对计算能力要求越高。
除了下棋,人工智能还进击了金融、翻译、资讯分发领域。
金融信息可能是最复杂、最枯燥的信息,一份股转书有两百多页,还有大量的年报、半年报、研究报告、公告、反馈意见、尽职调查结果……我们不知道,有多少行业分析师是完全看完这些信息,再做出决策的。也许,不是他们不够勤勉,而是读完这些信息已经非人力所及。
20世纪90年代,一个基金经理要把市场当天产生的研报、舆情、新闻、交易数据等看完,大概需要10个小时,也就是两天的工作量。2010年,移动数据爆发之后,这个基金经理要把每天市场上产生的信息吸收掉,大概需要10个月的时间。2016年,还是这个基金经理,假如把当天市场上所有的信息看完,大概需要20年的时间,相当于整个职业生涯。所以基金经理迫切需要利用先进的智能技术,比如百度的自然语言处理技术。
机器可以瞬间完成上市公司的公告、财务报表、官方发布、社交平台、证券行情、实时新闻、行业分析报告等海量异构数据的阅读,对于文本中的图片和表格需要OCR(光学字符识别)等技术解析。紧接着,进行关键实体信息的提取,发现埋藏在实体信息之间,如行业上下游关系、供应链关系、股权变更历史、定增与重大资产重组的关系、多张财务报表之间的数据交叉验证等数据关系,形成并呈现这些复杂关系的「知识图谱」。
再说翻译。在机器翻译的模式中,人类要做的不是亲自寻找浩繁的语言规则,而是设定数学方法,调试参数,帮助计算机网络自己寻找规则。人类只要输入一种语言,就会输出另一种语言,不用考虑中间经过了怎样的处理,这就叫作端到端的翻译。这种方法听起来挺神奇,其实概率论里的贝叶斯方法、隐马尔科夫模型等都可以用来解决这个问题。
技术是神奇的。以资讯分发当中的贝叶斯方法为例,可以构建一个用概率来描述的人格特征模型。比如男性读者模型的特征之一是在阅读新闻时点击军事新闻的概率是40%,而女性读者模型是4%。一旦一个读者点击了军事新闻,根据贝叶斯公式就可以逆推这个读者的性别概率,加上这个读者的其他行为数据,综合计算,就能比较准确地判断读者的性别以及其他特征。这就是数学的「神奇」。当然,计算机神经网络使用的数学方法远不止这些。
人类的行为一旦被互联网以数据的形式记录下来,就成为滋养人工智能在各行各业齐头并进,进而帮助人类自己的无穷无尽的燃料。机器翻译、语音识别、图像识别都是基于互联网提供的大量数据,用户点击行为也是如此。为什么百度搜索引擎的准确性是国内其他搜索引擎难以比拟的?因为数据量最大、算法最先进、积累最雄厚。用户的每一次点击其实都在训练搜索引擎背后的百度大脑,告诉它哪一条资讯才是用户最想要的。
实际上,脸书也拥有自己的人工智能实验室以及类似谷歌大脑的团队——应用机器学习事业群。这些机构的使命是在各种脸书产品中推广人工智能技术。用该公司首席技术官麦克·斯克洛普夫(Mike Schroepfer)的话说:「脸书约有1/5的工程师现在都在使用机器学习技术。」
AlphaGo的主人谷歌当然也不会只满足于下棋,其人工智能投入多年来不断膨胀。2012年,谷歌只有两个深度学习项目,2016年底这个数字突破了1000。目前谷歌从搜索、安卓系统、Gmail(免费网络邮件服务)、翻译、地图、YouTube(视频网站)甚至到无人车,都有深度学习的影子。
4.人工智能进步背后的原理
中国拥有庞大的业务应用场景、用户和数据以及基数最庞大的人才群体,进步很快。除了BAT(百度、阿里巴巴、腾讯三大互联网公司首字母缩写)、华为等巨头大力开发人工智能,还有很多垂直领域的人工智能公司涌现。在去年的各种互联网论坛上,不论是电商、社交媒体,还是搜索引擎,各家互联网企业的掌门人都在将话题引向人工智能,汇报着或大或小的成绩。
决定现代数字计算系统主要结构的是资源的组织形式。而人工智能计算的本质,简单来说,非常不同于冯·诺依曼的控制流结构,后者采用线性的记忆体和布尔函数作为基线计算操作。而新的范式是神经网络计算,其特征在于分布式的表示和激活模式。在这里,变量由叠加在共享物理资源(如神经元)上的向量表示,并且通过神经元的激活来进行计算。网络的拓扑架构和激活模式提供了巨大的计算空间,可以有效并且自然地捕获丰富的知识(通过拓扑的超参数、权重、激活函数)。相对于冯·诺依曼架构中的本地化表示(其中变量由诸如寄存器的专用或局部化物理资源表示)和符号计算,神经网络计算在学习和表示物理世界以及社会的丰富的语义知识方面更加自然和强大。
通过神经网络计算的力量,下一波的人工智能技术可以在以下两个维度提升目前的计算系统:
一是自动分层特征/表示学习。这是机器学习容量的实质性提升,因为当今机器学习工作的很大一部分关键在于特征工程。如百度大脑已经拥有万亿级的参数、千亿级的样本和千亿级的特征训练。
二是高级认知,特别是感知能力。这是下一代设备(如无人驾驶汽车)和下一代平台(如自然语言会话)产生的巨大催化剂。
人工智能计算的强大能力将有助于产生许多新品种的智能系统,如机器律师、机器分析师、医疗机器人、智能客服人员等。
人工智能计算的另一个发展方向是组织各种服务于特定物理架构和物理要素的系统,如家、办公室、工厂等的智能系统。其基本模式是通过使用物联网传感器的各种原始信号,人工智能的「感知系统」会对物理架构进行识别和感知;而「认知系统」需要组织信息和学习更多关于物理架构的知识,并去预测、判断和决策,以使各类物理系统更加智能。
目前,在科研领域,人工智能计算可以提供更先进的建模能力,成为多领域和新一波科研浪潮的催化剂。
在商业方面,人工智能可以提供额外的机会,为企业组织创建集成的业务计算系统(Business Computing System,BCS)平台。如记录业务对象(如系统设计模型、交易记录)和业务流程(如ERP(企业资源计划)、CRM(客户关系管理);或者系统设计并模仿人类工作活动,如沟通、协作、阅读、写作、寻求信息等。
目前来说,人工智能的「感知系统」有更广泛、更新的商业机会:一方面,可以构建和部署更多的「传感系统」的子系统,针对的是物理环境或物理系统,如装配线、工厂等。这使得未来人力密集的制造业、商业服务业等,可以采用更先进的信息工具和更强的自动化。另一方面,自然语言处理技术的迅速进步使得我们可以扫描和分析文本文档和信息,并从中提取各种高价值的业务知识,而构建和部署专用的「文本理解子系统」可以得到很多高价值的知识和商业回报。
人工智能「认知系统」的成熟代表了智能时代更长远的未来,所有的行业、职业、社会系统、生活方式都将被重塑。如果数字化社会可以概括为「信息就在指尖」,那么,人工智能时代的本质可以概括为「知识无处不在,任何交互都是智能的。」
这个浪潮对大多数人来说无疑是巨大的机遇。
传统的制造业基本上以器械、电器和电力为主,其生产流水线基本上要用很大规模的投资来建立,后续很难调整。比如一家汽车制造厂,要重新建立一条生产流水线,成本很高,花的时间很多。当数据智能、自动化、精准预测对制造业的改造完成之后,后者的面貌将焕然一新。未来的制造业生产流程将是模块式的,全部是数字控制。当一家汽车制造厂要调整生产,制造另外一种样式的汽车,它不再需要重建生产线,而只需要把新产品模块的接口(API)调过来就可以了。这将彻底改变制造业基础,制造业效率也将会极大地提升。
这个改变的核心是数据和知识,即制造的流程、制造的工艺、制造的设计,制造的每一步都会用数字来控制。
再比如制药行业。以前一款新药的诞生要经历长期的研发过程,去发现某种方式对某种病症有效。未来借助人工智能计算技术,将庞大的基因数据与海量的健康信息结合起来分析,人类可以很快发现规律,找到个性化的基因药物。
5.大数据之「大」,让不可能成为可能
既然人类运用数据已久,而且自工业革命以来,数据经历过一次又一次的爆发,何以近年来才出现「大数据」的概念?仅仅是它所能记录和计算的数据量更多而已吗?自然数可以无限数下去,1、2、3、4,以至于无穷,但「多」是不够的,还必须具有几大特征:
第一,大数据的「大」。毋庸置疑,这个「大」相对于人类传统数据的储存方式,不是一个量级上的大小之分,而是几何量级的差距。想想百度地图上每日720亿次的定位请求,再想想互联网上每天有多少次点击、社交媒体上每天有多少文字和图片发出……各种大数据平台一天之内收集到的数据量就可以超越人类几千年来文字、图像的总和。
第二,大数据的另一个重要特点是多维度。多维度代表着大数据可以对一个事物进行多方位的描述,从而更准确。
在电影《谍影重重》里出现过一个大数据公司,能够根据互联网数据、交通数据、历史档案等各种维度的数据帮助美国中央情报局(CIA)迅速追踪和定位疑犯。现实中美国的Plantir数据公司便是如此帮助美国政府追踪本·拉登,提供反恐信息和社会危机预警。它们更常见的业务是识破金融诈骗。
以金融征信应用为例,传统金融机构在进行征信时,一般采集20个维度左右的数据,主要包括年龄、收入、学历、职业、房产车产、借贷情况等。然后综合评分来识别客户的还款能力和还款意愿,决定信贷额度。
互联网公司采用大数据方法,所获得的维度可以让传统银行吓一跳。BAT都开设了自己的金融服务,因为拥有全面且巨大的用户数据,可以查询客户的各种线上记录,比如是否有批量申请贷款等异常行为;还可以将客户信息与互联网全局信息比对,通过欺诈行为模式的比对分析其可信度;更进一步,还可以分析客户的消费行为和习惯,结合填报收入分析还款能力如何。当然,作为用户的隐私,这些数据都不会被公开,用户所能感受到的便利是征信排队时间极大地缩短了,因为大数据可以在几秒钟内就对申请者超过1万条的原始信息进行调取和审核,迅速核对数万个指标维度。
对一个陌生人进行征信就好比「盲人摸象」,传统方法是通过20个「盲人」去评估一个客户的信用「大象」,注定是有缺陷的。而大数据的多维度就如同几万人同时「摸象」,再把这几万人的反馈汇总到一起。维度越多,结论就越准确。
第三,处理非结构化数据的能力。结构化数据中最基本的数字、符号等,可以用固定的字段、长短和逻辑结构保存在数据库中,并用数据表的形式向人类展现(想一下常见的Excel表格),处理非常方便。但是互联网时代产生了大量非结构化数据,对于图片、视频、音频等内容,它们的数据量巨大却没有清晰的结构。对于图像的数据,我们只能理解为一个二维矩阵上的无数像素点。非结构化数据增长量很快,据推测将占未来10年新生数据总量的90%。而大数据技术可以通过图像识别、语音识别、自然语言分析等技术计算、分析大量非结构化数据,大大提升了数据维度。
非结构化数据的数量远超结构化数据,蕴含巨大能量,应用前景广阔。例如,在机场等公共场合的个人身份检查,过去只能根据旅客提供的身份信息这一个主要维度去判断其身份。而人脸识别、语音识别等技术应用成熟后,大数据可以直接通过摄像快速比对审核,增加对个人身份判断的维度,进行既精确又高效的安全检查。
第四,大数据是生生不息的「流」,具有时间性。它过去就不再回来,就像人无法两次踏入同一条河流。这一方面是因为数据量太巨大,无法全部存储;另一方面是大数据和人类生生不息的行动相关,瞬息万变。百度大数据实验室因此提出一个概念叫作「时空大数据」。
地图就是时空大数据之母。百度地图有一个路段拥堵预警功能。如果前方路段畅通会显示为绿色;如果拥堵则会显示成红色,提醒用户选择其他路线。这是我们与数据互动的一个简明例子。如果我们有A和B两条路线可以选择,此时A路线拥堵而B路线畅通,那么我们都会选择B路线;当越来越多的车主选择B路线,那么B路线将会变成拥堵而A路线又会畅通。
此消彼长,变化万千。依靠智能手机的定位功能,百度地图可以实时更改当前的路况监测结果,精确地告诉每一个位置用户当前自己所面对的路面情况。通过数据可视化技术和各种评估手段,可以描绘一座城市的日常脉搏,比如上下班的人流数据变化,仿佛城市在吞吐呼吸。除了被记录下来的,更多数据只在当时有效。把数据全部存储下来是不可能的,那样需要的硬盘可能整座城市的地皮都堆不下,只能即时应用,用过就消失。
最后一点,也是最重要的,大数据的「大」表现为无尽的重复。对于语音识别来说,正因为人们重复讲述同样的语句,机器通过反复识别这些人类语音的细微差别,才能全面掌握人类语音。也正因为人们周而复始的运动,才让系统能捕捉城市运动的规律。「重复」的数学意义是「穷举」。以往人类无法通过穷举法来把握一个事情的规律,只能采用「取样」来估计,或者通过观察用简单明了的函数来代表事物规律,但大数据让穷举法这种「笨办法」变得可能了。
6.中国在人工智能领域存在强烈的内在驱动
显然,在多元化的网络世界里,没有任何一个国家、机构能「独当一面」。只有不同文化、经济、政治背景的基因进行竞争,才能对网民的需求做出全面恰当的回应。
从国情来看,中国发展人工智能较欧美国家有着更强烈的内在驱动,这种驱动来自民间。百度搜索统计显示,有关「服务」的搜索请求数量始终在迅速增长:2014年比2013年增长了133%。2016年在基数更大的情况下,仍有153%的增长。
在移动互联网领域的应用上,中国比美国更普及。中国网民早已习惯于诉诸互联网寻求服务。如今中国每100张电影票中就有55张是通过网络下单预订的。与之对应的是,互联网服务在美国电影行业的渗透率只有20%,也就是说100张电影票中只有20张是网上订票。比如,中国餐饮行业的互联网渗透率是2%时,美国只有1%。
中国之大,之特殊,要高效实现中国网民的服务需求,人工智能创新就是一条必由之路。
驱动的另一个源头则是产业焦虑。中国制造业成本上升很快。放眼全球,工业越来越自动化和智能化,高端制造业可能会回到欧美,而低端制造业已开始流向越南等国。如果不在短时间内完成产业转型,中国制造业将面临「空心化」的困境:高端制造业、低端制造业都将流出中国——这个转型,能不依赖人工智能这一环吗?
尽管局势紧迫,但中国的实力值得看好。中国企业的执行力、中国政府的支持力度都是新兴产业的强力后援。
如果说网民的需求是「天时」,企业与政府的合作是「人和」,数据则是中国大脑发展必不可少的「地利」。在这一领域,中国更是得天独厚。
庞大的人口规模、复杂的社会环境和面向不同应用场景的互联网企业,汇合收集这个数据全集意义非凡。可以预见,不久的未来除了个人数据,依托于公共环境或者政府背景而产生和积累的数据,如汽车注册信息、学籍学历、犯罪记录等,将以加密的方式形成个人基础电子档案。企业与市场通过服务输出获取的数据,如信用卡账单、消费记录、网站浏览偏好、惯用手机品牌等,则将以用户授权的方式再次转化为服务回馈给使用者。
这里的「使用者」,不是会编码、能建模的「码农」博士,而是普通的公众群体。让更多的人也能便捷地使用智能设备才是真正意义上的科技福利。