人工智能与数据的完美结合:大数据应用商店

2016-08-28 19:08 来源:ERP5定制开源ERP
浏览量: 收藏:0 分享

人工智能,大数据,应用商店

  一家大数据应用商店可以解决这样的问题:大型企业往往拥有大量的数据但却没有足够的数据科学家,而初创公司可能拥有优秀的数据科学家,却没有足够的数据量用于分析(“数据使用鸿沟”)。可能是因为法律限制或涉及到企业战略的发展,大型企业往往会拒绝让初创公司使用他们的大数据。 因此导致许多与大数据相关的好点子和潜在商机都无法市场化。

  因为存在数据使用鸿沟,谷歌或阿里巴巴这样掌握大量数据并拥有优秀数据科学家的的企业就占有了全部市场。意识到这一现状的年轻数据科学家纷纷选择为 GAFA (谷歌,苹果,脸书,亚马逊) 或 BAT (百度, 阿里巴巴, 腾讯) 这样的企业工作, 而不会选择那些既没有数据也没有优秀引导者的初创公司。

  而我们这里介绍的大数据应用商店将通过协助初创公司在大型企业的数据湖上运行他们的数据分析算法来改变这一现状。初创公司可以通过一个由大型企业严格控制的 API 来访问数据并分析计算结果,从而消除了数据泄漏的风险。使用 API 所获得的收益可以由拥有数据分析算法源代码的初创公司和拥有数据的大型企业共同分享。

  用这种方法,一个大数据应用商店就可以消除初创公司和行业之间的数据使用鸿沟。那么现实中会是怎样一种情况呢?现在让我们来设想两个可能出现的情景。

情景一: 健康大数据应用商店

  一些医院想通过机器学习算法来分析他们1,000 TB 的 PET 扫描影像,从而达到预测肺癌的效果。但是这些医院一般都没有内部的数据科学家。聘用一批世界级的专家来做这个工作的成本将是聘用医生成本的两倍,依照医院的规定是不可接受的。如果聘用该领域的年轻毕业生,则可能需要至少2年来得到想要的结果。有一天,一家由国外知名数学家创建的初创公司建议研发一个算法来解决这个问题,但是需要一份数据来创建算法(1,000 TB的数据将很快可以容纳到8个SSD硬盘中)。但是医院方是拒绝的,因为按照国家法律规定,他们是不允许复制并提供这些数据的。

  取而代之,医院提供了另一个解决方案:与其提供一份数据复制, 不如由初创公司提供算法的源代码复制,并签署一份收益共享协议。数学家接受了这个条件,因为他无法在短时间内找到更合适的数据了。同时,他知道谷歌正暗地里开发一项类似的产品。所以,比起失去这个绝佳机会,分享一部分收益是他最好的选择。

  于是医院给数学家提供一个叫做 “Wendelin” 的开源大数据开发环境及一小部分经过病人同意分享的数据样品 。数学家通过编写一套基于scikit-learn 和 scikit-image 库的 Python 脚本来调整他的算法。一旦全部通过测试,他就将该脚本提交给由医院方建立的大数据应用商店审核。

  由医院的开发人员来审核这个脚本,确保里面没有任何恶意软件或尝试偷取数据。一旦审核通过,脚本就被允许发布在大数据应用商店中,允许算法在完整的数据上运行。在经过一周的计算后,就可以建立出第一个机器学习的模型了。每当有新的 PET 扫描影像被添加到数据湖中时,算法就可以即刻检测出肺癌。经过几年的运行后,算法甚至可以将肺癌的精确预测提前至3年。

  现如今,世界上许多的医院都通过调用大数据应用商店的 API 使用该算法。与此同时,源代码和数据都得到了保密。每次预测售价在1欧元,而所产生的收益则由数学家和医院共享。拥有平均每年超过一千万的 API 调用量,该医院现在正在创建其他医疗健康领域的大数据应用。

情景二:  汽车行业大数据应用商店

  一家汽车制造公司担心谷歌地图,开源汽车(OSV)和人工智能的结合会将行业附加值全部转移到数据经济之中, 从而产生一种新型行业: 汽车制造将由小型作坊和 GAFA 或 BAT 提供的算法来完成。

  这家汽车制造公司已经两次尝试组建他们自己的数据科学家开发组, 但是经过对优质开源解决方案(OpenStack, HADOOP, Cloudera, Spark, Docker 等)三年的尝试,项目还是毫无进展,于是他们将大数据提供给一家大型的 IT 公司。但是这家 IT 公司的最优秀的数据科学家都被 GAFA 或 BAT 聘用走了。这家汽车制造公司于是变成了该 IT 公司销售团队的游戏场地和一个收取昂贵许可费用的专有软件的展示厅。所有的车载咨讯系统服务实际上都外包掉了:该汽车制造公司不再完全拥有大部分数据,而这些数据以互不兼容的格式存在着。

  该汽车制造公司的一个工程师发现一个创建新算法的方法,可以预测汽车故障并同时增加销量。他尝试用大型 IT 公司提供的大数据系统来实施但最后却失败了:因为架构差和高昂的许可费用,操作成本比这个算法带来的利润还要高出许多。

  于是他建立了一个初创公司,用几周的时间使用一个基于 Scikit-learn 机器学习库的 Python 脚本进行了第一次的实施,原始数据是用在阿里巴巴上购买的一个便宜的车载咨讯系统来收集的。在与汽车厂商的法务部门沟通之后,位于印度的一个工程团队用更短的时间内就破解了车辆中的私有数据。

  即使现在这个算法已经存在,但却无法访问到大量的汽车数据。工程师被谷歌和特斯拉看中,但他想要最后尝试一次说服汽车制造公司,与新上任的首席数字官(CDO)展开讨论。但由于欧洲和日本严格的隐私法,他们无权将汽车数据的复制提供给初创公司,尽管这里不存在任何的信任问题, 双方都在寻找规避这个法律条款的解决方法。

  最终,这个初创公司的工程师建议设立一个 “大数据应用商店” 并使用 embulk 将所有数据都复制到里面。为了有效的运行这个算法,需要将数据储存在一个叫做 ndarray 的数据结构里,但是目前该IT企业提供的大数据湖并不能原生支持这个数据结构。为了更高效的运行 scikit-learn, 他需要使用本地服务器上安装的 Python 语言。这样该算法的代码就可以被上传到 “大数据应用商店”,他们不需要从汽车制造公司提取出任何的数据。

  这个 “大数据应用商店” 是在3个月之内用8个使用 16TB SSD 硬盘的服务器建立起来的。Python 代码在汽车制造公司的数据上运行,并最终带来1%的销售业绩增长以及更高的客户满意度。产生的收益则由初创公司和汽车制造公司共享。

大数据应用商店解析

  使用 Wendelin 技术,用不超过五万欧的成本在三个月内就可以实施一个大数据应用商店.

  一个大数据应用商店需要符合以下条件:

  可靠的数据收集和集成 (吸收数据到数据湖中)

  高性能可扩展的存储(使用数据分析库处理数据)

  数据分析库(包括机器学习)

  并行处理 (快速处理海量数据)

  核外处理 (处理大型的机器学习模块)

  基于规则的数据访问限制 (隔离应用)

  应用提交工作流(提交应用)

  API 注册机制(使应用发布API)

  统计(统计 CPU 使用,数据使用,API 调用次数等信息)

  计费(向各利益相关方收费)

  使用 Wendelin,所有的组件都是基于同样的技术和语言:Python.Wendelin 拥有最大的数据科学社区:PyData。所有的数据都采用 ndarrays 的格式处理,不需要任何的格式转换。使用 Wendelin.core, 不会有任何数据格式的限制负担。

  如果有人想要使用异构技术(如 Java, Python, Spark, HDFS 等)建立一个这样的应用商店,系统的复杂性将导致交付时间的延长,更高的维护费用,经常更换 API 会导致系统不稳定, 同时系统开销会降低性能。例如现在很常见的 Python 和 Spark 的结合导致许多不必要的系统开销和不理想的存储空间管理,从而引起很多严重的系统问题。

  更重要的是,在 Wendelin 中,将 “基于规则的数据访问限制” 嵌入到 python 编程语言中还是一个非常独特的功能,缺少这个功能,就无法运行应用商店。“Restricted Python” 技术保证了大数据应用商店中所有应用的代码都在授权后才能访问数据。所以,尽管他们共享一个环境和数据库,但应用之间不会互相窃取机密。

总结

  只需不到3个月的时间,任何大型企业都可以建立一个 “大数据应用商店” 并邀请许多初创公司使用数据并采用人工智能或机器学习创建新应用。从中获得的收益可以在数据拥有者和数据分析算法创建者之间共享。通过消除初创公司和行业的数据使用鸿沟,“大数据应用商店”给行业和初创公司都提供了绝佳的机会,让其有机会与 GAFA (谷歌,苹果,脸书,亚马逊)或 BAT(百度, 阿里巴巴,腾讯)有效竞争。

标签:

责任编辑:admin
在线客服