Ben Butler 介绍了AWS云计算服务大数据生命周期端到端的组合:收集,流媒体,存储,数据库,数据仓库,NoSQL和分析。他表示AWS提供易于使用的大数据管理服务,帮助客户管理大数据通过降低成本,迅速扩展,提高创新速度。同时通过案例分析,描述了用户如何通过AWS的技术服务解决企业的大数据问题。
以下为演讲实录:
大家早上好,我叫Ben Butler,今天非常高兴来到这里来参加大数据会议,给大家介绍一下亚马逊在云计算和大数据方面所做的相关工作,给大家来介绍一下AWS提供的具体服务是什么,以及在不同产业,比如说在生命科学、医药行业以及在金融业、数字的营销这块提供的一些相关服务技术。
我们经历了不同的数据处理阶段,数据生成收集、存储、分析、分享等,需要了解云计算怎么样才能够在不同的阶段发力,促进不同阶段进步的发展。
首先我们来看一下数据的收集。对我们来讲,数据的生成,我们通过社交媒体、网站,另外还有一些比如说DNA的排序、金融记录、市场分析等等,通过不同的领域生成很多的数据,把这些数据整合在一起生成一个曲线图。
从这个曲线里面也能够进一步看到,实际上95%的数据非结构化数据,有70%的相关数据都是由用户生成的数据,从曲线来看非结构话数据的增长非常迅速,年增长速度达到了62%。
这是另外一组数据生成的图,如一个小孩子出生,有很多的人都会拍照或者是录像等等,用这种数字化的工具记录,生成了很多数据,我们认为在孩子出生第一天所产生的数据实际上超过了美国国会图书馆信息,甚至是后者信息量的70倍。
我们大数据它的成本比较低,而且它的吞吐量、流量也都比较高,因此对于数据的收集以及我们存储也是非常重要的,所以我们应该利用这种数据的收集以及存储。生成数据和分析数据之间有着一个非常巨大的差距,在这里我想说,我们能够有一个解决方案来解决这个问题,缩小两者之间的差距,我们可以使用云计算,云计算能够让我们共同加速数据它的生命周期利用情况。
现在来看一下,对于云计算它是有非常多的优势,比如说它具有弹性,而且进行扩张是没有任何前期资本花费,你不需要花几百万美元建立一个数据库、买服务器等等。
另外,对于亚马逊我们给大家提供一个服务,你只是对你所使用的数据付费就可以了,我们很多的数据都是按需来给你提供的,所以你可以使用SDK一些客户端、图书馆或者你使用合作伙伴的工具,很快获得一些相关数据,这样你就能够更好的来处理大数据生命周期各个不同的阶段等等。
我们看一下云计算,云计算可以和大数据之间进行融合。在这里我们可以看到,因为我们有非常多的数据,所以数据量非常大,我们使用新型工具,使用云计算,因为云计算进行大规模虚拟化扩展能力是无限的,所以我们可以用云计算处理大数据。
对于大数据来讲,它的数据操作以及分析可以使用云计算,因为我们有了这个云计算之后,就可以实现基础设施的部署以及更好来利用大数据。对于大数据,有一些工况不是非常稳定,经常出现不稳定的工况或者峰波或者峰谷,有了计算机可以有效的方式来处理不同的工况。对于大数据来讲,另外一点非常重要的就是说获得科研的时间,时间会更短,如果有了大数据,我们是可以同时进行不同计算项目,能够让不同的工作小组更快计算出来结果。我们想过不能用一种工具覆盖刚才所讲的问题,我们可以建立一个统一平台,里面不仅仅有我们的服务器还有其它东西,我们希望在这个平台上,我们客户能够建立起他自己的一些相关的内容,在这里我不是说所有的内容都给大家来讲,但是在这里简单给大家介绍一下。我们有不同的产品有不同的工具可以给大家进行更好来帮助大家。
在这里介绍一下有哪些相关工具可以帮助到大家。
第一个工具,就是亚马逊S3,这个工具帮助你们存储不同海量的相关的数据。而且我们存储内容或者说我们工具它是可以扩张的而且它的持续性大约是设计在99.9999等等,所以说你可以自己来实现任何内容存储以及相关扩张,这是非常重要的一种技术,你可以把你所有的文件都放在这里面作为你的资源库来使用。
这个是数据增长相关的一个图。我们看到用亚马逊S3,年均增长率达到了137%,你的输入和输出不同的文件都可以存储在亚马逊S3里面,另外的产品是亚马逊Kinesis,它是实时处理工具也是实时分析工具。你可以对于成千上万个结果进行实时相关分析。
另外一个工具叫亚马逊DynamoDB,是一个数据库。亚马逊Redshift,它是一个工具仓库,它可以使用很多智能工具,因为它开源的能够给你节省大量的资金了。还有就是亚马逊 Elastic Mapreduce,我们跟云计算整合成立了一个集合,里面有很多生态工具,还有你可以把blog放在群里面等等,使用起来非常简单,而且管理也非常简单,它也是按需来进行使用。所以我们是可以给大家提供不同的工具,你可以选择合适你的工具,然后要考虑到它的成本,它的大小以及它的规模等等,而且还有在什么时候,你可以使用什么样的工具等等,所以我们会提供不同的内容满足你们的要求。
现在我给大家介绍一下高层的架构,来看不同的工具怎么样进行整合的使用。比如说你有一个弹性的Elastic Mapreduce,用亚马逊S3,把相关进行存储,把结果存在里面,你也可以存很多其它的你写的东西,另外我们还有亚马逊DynamoDB,你有一些客户端的数据等等在这里面。这个数据可以有不同的来源,不同的来源通过亚马逊Kinesis进去,你可以任何时间做没有任何失灵也没有延时几秒钟就可以做了,比如金融数据都可以来利用。比如说数据处理加快,必须采用新技术,他们也用了亚马逊的新技术。
默克这家医药公司,他们是跨国医药公司,研究包括了疫苗、新的药物等等,希望可以提高对于药物的信息处理,所以在这块他们就可以进行时间、温度等等这些数据的计量,能更好去了解制药系统的工艺是否可以优化,也可以对他们整个工业的流程进行优化,而且他们也更好了解到怎样更快更好性价比更高进行药品的生产。而且我还跟另外一家公司一起工作过,当时我还担任着架构师,主要是一个期货交易平台,它是联邦政府的金融市场监管机构,他会专门监管在这个平台当中是否会有一些高频率的交易,如果太高频段的交易就要停止,就会有欺诈,而且他们要监管上千起的市场交易活动。
下面我想花点时间介绍一种客户,叫做DataXu,我们和麻省理工大学一起合作开发的项目,这其实是一个数字市场营销的平台,也是一个广告技术平台,而且它可以在全球来探寻不同的机会,专门针对特定的用户来进行推广,所以如果你是一个公司,你希望要选择最合适的最切合的平台来发布广告,而DataXu帮助你实现这一点,帮你找到最合适的地方发布广告,而且他们每一秒大概在全球做500次的搜寻和搭配。
另外还有我们的实时的竞拍,无论是在台式电脑还是智能手机上面,如果看到有一个嵌入式的广告,无论在社交媒体还是在游戏当中的广告,他们就会要看一下,因为这个广告转瞬即逝的,我们要想想它是在游戏过程当中闪现出来的广告,我们要进行广告的匹配,DataXu能完成这一点,完成语言匹配,用户看的哪一类的广告,看一下视频当中的缓存等等信息。一个用户打开了一个网页,比如说登录的是运动网站,他就会在点入网站之后有一些广告选择,DataXu帮我们做到精准的广告推送。
如果大家想要开始使用AWS,在这里有两个网站的链接在上面找到不同的用户事例,我们还有一些日志,可以在上面看到相应的点评,而且我们还会给你们提供免费的资源,你不需要进行任何付费就可以开始。