这次A.I.浪潮看着眼花缭乱但实际上只有四个可能的落地方向:
一是语音、语义的突破导致语音交互最终真的成为可能;
二是计算机视觉的突破导致AR这样的混合了现实空间和虚拟空间的显示方式;
三是计算机视觉的突破让自动化得以升级,出现自动驾驶汽车、机器人这样的高度自动化产品;
四是机器学习提供了新的数据处理方式。
前三种的创业模式又可以分为:产品系,从软到硬以及从硬到软。这篇文章探讨这三种模式的优劣。
产品系
我们耳熟能详的人工智能创业公司基本上是产品系,比如国内的出门问问、Rokid机器人,国外的Jibo、Savioke、Knightscope、Meta等。这类创业公司的根本特征是尝试借用人工智能上的技术突破,打造具有新奇体验的新产品(带语音交互或者AR等),并跑出漂亮的销售曲线。
那什么是漂亮的销售曲线?它大概会像下面这样:
漂亮的销售曲线意味着新产品的市场一旦启动,那在之后的三年里,销售曲线是倍增(可能高于2倍)的,而不是每年增加百分之十这类缓慢递增。
反过来讲这意味着这些创业公司的决胜期实际上只有三年。不管你之前做了多少,一旦你错过这三年,那所有努力工作可能就变得没有价值。
那多久市场才会从早期市场变得真的启动呢?这没人知道,趋势是可以用逻辑推演判断的,但具体的启动时间点其实都是瞎猜。可能是1年,也可能是2年,甚至5年,10年。
这样一来所有产品系的ai创业者们要把握的关键点就只有两个:
1.在一个不可清晰预测长度的预热期做好充足的准备,包括产品、销售渠道、生产制造能力等。
2.一旦市场启动,那跑出上面那种销售曲线。
如果第一点没做好,那就是老罗和他的锤子科技,如果第二点没做好那其实会像某些大企业,比如摩托罗拉,什么都不缺但就是干不成事。如果两点都做好了那就必是新的独角兽企业。
这里必须强调的是达成上述两个目标时真正重要的是产品体验而不是技术的先进性,也就是说这种模式更需要乔布斯这样能用好技术的人而不是谢尔盖布林这样能创造技术的人。
哪怕所有技术都是别人的,但只要不影响用户体验,那其实关联不大,但实际上由于这一代AI的创业者都非常聪明和野心勃勃,他们都不想纯粹的变成组装型企业,所以这类创业公司通常会在初期就尝试卡住技术上的某几个关键点,比如ASR等。这里面比较极致的是出门问问,根据各种信息来看,出门问问全线打造了自己的ASR、NLU甚至搜索。
这就导致产品系创业很像爬珠穆朗玛峰的北坡,成了必是一番大事业,但成功非常艰难。高风险来自于这样两个方面:
1.预热期的时长高度不可预测。抛开AI不论,到现在为止这个模式下里国内比较成功的一家企业是大疆。大疆的销售开始起飞大约是2013年(暂时没有官方数据,只有Dronelife的猜测数据)。
那大疆哪一年成立的呢?2006年,也就是说大疆等待产品起飞等待了差不多7年。
2.成本因想卡住关键技术点而大幅增加。前面提到过,新一批创业者们通常并不想自己成为单纯的组装和销售公司,所以会在早期就把握住几个关键的技术点。这对产品起量后企业发展有利,没有这些点上的控制权即使成了也可能变成现在的某类PC和手机企业。
这未必不对,毕竟亚马逊为了做Echo也收购了三家公司完整搭建自己的技术体系,但无疑,这对创业公司而言会显著增加成本和风险,会导致企业长期处在收入没着落但支出比较高的状态。
从硬到软
不管从硬到软还是从软到硬,说的都是公司本身不做产品、而是为做产品的公司提供服务。从硬到软说的是公司认为公司优势必须从前端(比如麦克风阵列)开始,延伸到后端(云端)。
从软到硬则是说公司认为云是智能的核心,前端优先级较低。当然我们可以讲最好两端都强,但创业公司由于资源、创始人背景限制通常只能先强调某一部分。这两种模式又可以分别落在语音交互与计算机视觉上,但由于很难杂在一起说的清楚,所以下面会拿语音交互这个方向做例子先把这两种模式说清楚,最后再总的分析下这两种模式。
国内语音交互人工智能创业公司里走从硬到软赛道的公司还比较稀少,最典型的应该是声智科技(这公司是我Portfolio公司,所以比较了解),声智科技是从最底层的声学阵列开始,先做噪声抑制、混响消除、回声抵消等,反过来再考虑上面的ASR等,与云知声等的道路正相反。
这种模式的好处是可以站到产业链的最前端,容易落地,是数据的必经之路。而数据本身是未来ASR甚至NLU的核心驱动力,所以后劲比较足。
坏处是短期需要用硬件获取客户,并且需要组织硬件的生产,需要较多的启动资金。
可以讲产品系创业公司的成功事实上有两个外部要求:一是趋势要来,其次是产品要经得起市场检验。从硬到软的公司也有两个外部要求,一是趋势要来,二是要技术过硬,有价格优势。2B的公司所面临的客户通常非常理性,很多花哨营销反倒是作用不大。
从软到硬
语音交互上从软到硬比较典型的创业企业则是云知声,这种模式选择和公司定位甚至从名字上就可以看得出来。
从软到硬的好处是更容易覆盖已有的成熟计算平台,比如所有的 App 都需要一个自己的Siri,那云知声这样的企业只要做好技术壁垒,等着携程、今日头条上门就行了。这个方向上主要的挑战在于要和大公司(比如百度和讯飞)直接竞争。我们这篇文章主要关注的是新硬件产品上落地,所以这点不再展开。
坏处则是在新硬件产品(Echo、汽车、机器人、AR等)上很难落地,因为为了在新硬件产品上落地,中间必须加入阵列那一层,否则效果会很差。而一旦无法落地,其技术优势就很容易被突破。
语音识别的精度骨子里是数据驱动的,但显然不做阵列等硬件,你没法落地,没法落地就没有数据,也就很难获得数据、技术、精度、场景上的正反馈,也就不容易解决真实环境的语音识别精度问题。
云知声等显然认识到了这一点,所以也在积极往这一方向扩展。这时候通常会碰到软件企业跨界做硬件的一般性问题,比如供应链侃价搞不定会导致同样的产品成本会高个百分之几十等。
路线差异起源于对计算架构的认知
上面拿语音语义的企业做了个例子,但事实上在计算机视觉上同样成立,只不过细节会有差异,比如Movidus的芯片可能在端上就把图像识别处理完了,而不需要像麦克风阵列那样自己处理后再把结果传到云端。这种模式选择背后隐含的共通的东西是对计算架构认知和假设。
到现在为止这种假设和认知一共有三种:
一种是为保证体验(速度等)端始终要扮演重要的角色,云用来辅助端完成计算。所有我们用的硬件产品:手机、Pad等基本都是这种模式;
一种是计算应该大部分发生在云上。Google主推的ChromeBook是这种模式,以前银行里的终端也是这种模式;
一种是正在兴起的传感器+Fog computing+云架构。这种可以看成是第一种架构的扩展,比如智能家居里所有的设备都直接连云上计算成本太高,那就不如家里有一个中枢先把能处理的处理了(比如天冷开空调,下雨关窗户就不传到云端了),实在不行的再连云。
前两种架构在现实里经常会发生PK,并且导致很严重的后果,下面说两个例子:
一次PK发生在PC上,那时候Oracle等尝试做的Network Computer骨子里的含义就是把各种计算转移到后端,让前端就变成输入输出设备。这种尝试显然失败的惨不忍睹,但有意思的是20几年后当PC这个品类足够成熟后仍然走这条路线的Chromebook却看到了些成功的曙光。
一次发生在Native APP和HTML5上,当时Facebook是很希望主推HTML5,那时候扎克伯格想用Web App来打破iOS和Anroid的垄断,但实际上Facebook差点死在在这个选择上,因为这选择几乎让它错过移动互联网,后续的Instagram与WhatsApp大额收购很可能与这种错误路线的选择有关。
我个人对此的基本认知是:对于新品类硬件产品刚出现的时候,首先是端要足够强大,把体验做到极致,随着应用、带宽等的逐步发展,那端上的计算量可能会转移到云上,因为那会有成本优势,但这需要一个漫长的过程,PC走了20几年刚看到这可能性。
如果这是对的,那意味着在新硬件产品上,首先成立的会是从硬到软的模式,而不是从软到硬。
AR、自动驾驶等都和前面说的语音交互一样要先解决终端上的问题,让产品能够快速准确的进行实时响应,确保用户体验,之后再谈其它。也可以换个角度来考虑这问题,在新产品上更可能是先有iPhone才有Android手机,而不是掉过来,因为iPhone给用户的冲击更强,更容易树立起一个新的品类,但iPhone不可能用HTML做出来的。
但确实从硬到软的模式对创始人提出更复杂的要求,比如声智科技的陈孝良首先是声学专家,同时也是语音识别专家所以才会选择这种从前端开始,结合后端的路线。而云知声的CTO是计算机科学家,更擅长的是算法,深度学习,所以先天上就会倾向于用数据、神经网络算法和大幅增长的计算能力(从云计算到HPC)来解决问题。转到重视端的这条路上来同时需要跨越思维和技术壁垒,也许不太容易。
小结
下面这两件事情是高度确定的:
1.AI的浪潮来了。
2.一定会有新的硬件产品出现。
所以一定会有新的独角兽从产品系中诞生。
如果你认为新硬件产品必须端的强大做支持,确保体验,而新品类的基本出现次序也是先有 iPhone,才有 Android,那很可能你会同意有独角兽会先从从硬到软的模式里出现。(我曾经和很多人讲过这些观点,但很巧的是直到最近才碰到一个做投资的美女和我认知非常一致,不会说我是抄袭她观点吧......)
必须强调的是这篇文章里主要探讨的是新的硬件产品下的可能状态,数据分析类不在这篇文章覆盖范围内(数据分析是纯粹的云端计算),主要面向现有平台(手机、Pad等)的产品或服务也不在这文章覆盖的范围内。