大数据尚未与云计算有机结合

2016-05-03 08:05 来源:中云网
浏览量: 收藏:0 分享

分工是推动人类社会进步的原动力

  随着人类进步的速度不断加快,分工不断细化;细化以后的分工导致了更加专业的技术出现,更加专业的技术反过来又促进了分工的进一步细化,由此人类社会的发展变成了非线性的指数级增长模式。

  当每个家庭不再自己磨麦子、做面包,而是从面包师手中购买以后,分工更细了,所有人的工作效率得以提升,从而整个社会的效率得以提升,人类也从农业社会逐步过渡到工业社会,从工业社会到信息社会更是如此。

  我们要做大数据PaaS的原因也是如此。我们认为,不久的将来,一切皆服务,一切IT也皆服务。

IT世界的分工

  最开始做IT是在二战之后的50年代,那个时代基本没有什么分工,连软件都是编码在硬件之中。到了60年代,基本上操作系统的概念已经非常明确了,软件正式被从硬件中分离了出来,之后一类一类的专业软件被分化出来:工具软件、数据库、中间件。

  软件专业化之后出现了部署方式的分工,标志性事件就是云计算概念的提出。其实这个概念非常早就出现了,但直到网络带宽可以比拟计算机内部带宽的时代才有了实用价值。

  最初是IaaS,aws的一系列服务极大改变了IT的业态,创业公司不再租用主机设备、机房和网络,而是按需购买。IaaS的分工有效解决了系统搭建和运维的问题,降低了创业公司的门槛,但这一仍还不够。

  接着aws推出了一些称之为iPaaS的服务,比如 RDS和Elastic Cache。在解放了(或者说解雇了)系统管理员的基础上,aws进一步解放了(或者说解雇了)平台管理员,人们不再需要DBA之类的角色,因为aws把所有事情都统一做了,而且因为其规模效应而收费便宜。

  这一切仍然不够,人们(通常先是创业公司,然后是大型企业)希望能更简单、更快速,怎么办呢?Google给出了另一个选择--GAE服务,大体的意思是用户提供代码,GAE进行运行(Show me the code)。而Heroku推出的服务更是可以跟开发人员日常使用的版本管理工具git紧密结合起来,就像保存代码到版本服务器上一样,发布应用就完成了。这简直是一个神奇的魔法。于是Devops、十二因子开发方法等逐渐形成。这种形态的服务可以称之为aPaaS,因为其服务于application。

  当然在往上还有一个最终的形态就是SaaS,所有的码农都被解放了(或者解雇了),软件通过服务的形式直接提供给最终用户。不过软件往往有很多个性化的东西,具备长尾现象,这是SaaS模式难以全部覆盖的。

亚信数据总经理何鸿凌:大数据尚未与云计算有机结合-图片1

大数据的世界是如何的?

  很有幸,2001年本人毕业就进入了BI/DW(数据仓库与商业智能)这个领域,与数据打交道的时间超过了15年。从一个人写统计分析程序,到带领团队建设系统,再到运营商总部负责全网BI和集中化BI的规划,可以说从不同的角度体验了数据分析和平台的方方面面。

  毫无疑问,在不久之前,这个领域的技术含量实在是少得可怜。有限的数据和有限的分析方法加上有限的需求使得建BI就是为了出报表,各个公司的BI系统都需要努力证明自己是有价值的。但是世界改变得很快,随着技术的进步,大量的数据被累积下来,Hadoop等大规模并行处理的平台被发明出来,各种使用数据的场景被一一探明。“大数据”这个替代BI 的概念被正式提出。

  很快,大数据领域的技术复杂度飞快地上去了,一开始大家都在搭建各种各样的传统数据库、然后是各种各样的MPP数据库、接着是Hadoop中的各个组件、现在又都在搭建加入了实时流处理技术的lambda架构。

  因此,大数据的软件专业化相比传统IT的软件专业化来得更早,时间更短。但是大数据平台部署的专业化,只能说处于非常早期的萌芽状态。各地方、各公司,甚至是公司中的各个部门都在重复的搭建大数据基础平台。

  参考网上的资料和文档自己搭建一个大数据平台来进行测试和开发固然难度不大,但是要真正投入生产、进行性能调优、保证数据安全就不是那么简单的事情了,需要丰富的经验才有可能做好。如果大数据的平台无法形成规模效益,而又想要享受所有大数据红利的话,相当于每一个公司都在做与BAT一样的事情,一定会忙于搭建各种硬件、大数据软件平台,而没有时间精于自己的业务逻辑和分析算法,这样想要取得成功基本是不可能的。

大数据尚未与云计算有机结合

  早前在运营商负责全网BI系统规划时,会频繁遇到一个问题,各个省公司、各个部门都希望自己搭建大数据平台,到处都缺少人才,甚至都在争抢集成商的支持。随着大数据技术的蓬勃发展,这个问题变得非常严重,关键在于没有规模效益。公司能培养一百名大数据专家已经非常不容易了,但是如果分散在三十一个省,又分散在其中的3个IT部门(业务支撑、网管支撑和管理信息支撑系统),那么每个部门只能分到一个人。

  所以当时我们就开始规划“能否实现平台和应用分离?”“可否统一搭建一个大数据平台,然后各个省公司、专业公司在平台上做分析模式、搭建自己的应用?”这种集中化经分的规划,可能是业界第一次提出大数据能力开放平台(PaaS)的概念。希望数据能够集中,能力能够集中,而应用可以分散。这样的话既能充分发挥大数据的价值、又能达到大数据平台的规模效益。当前这个系统还在建设的过程中。

  后来我来到了亚信数据,因为我认为同样的情况可能更广泛的存在。如果能把大数据和云计算结合起来,将大数据能力通过云计算的模式来提供,是否可以避免各个企业、各个部门重复去搭建大数据基础设施?如果可以按需享受到比拟BAT的顶级大数据平台的服务,只用使用而不用维护,他们会不会Happy?这就是大数据PaaS平台正在做的事情。这些杂七杂八专业的事情,通过分工的形式由专业的公司来进行保障,使用者只需使用即可。

数据本身,其实也是一种服务

  大数据PaaS最重要的就是数据资源的管理,把它与大数据能力一样看待,通通抽象成服务,即一切皆服务。谁能用这些数据,谁不能用这些数据,反应到PaaS中就是谁能订购这些服务,而谁不能。这样简单的抽象简化了系统的实现。

忙忙碌碌在干什么

  如同开篇所说的一样,我们认为分工是推动人类社会进步的原动力。而现在可以看到大数据平台的领域中,分工并没有达到最优,还能看到很多简单的重复劳动。这些劳动由于没有达到规模效应而效率很差,造成拥有成本很高。这种高的成本导致的现象,就使很多企业的大数据价值无法充分发挥出来,无论是对内大数据变现还是对外大数据变现。由于无法达成交易,整个社会的福利也因此受到了影响。

  我们希望改变这一切,根据多年的经验,将大数据的PaaS平台定位成框架、应用和服务3个方面。

  ·重型的,带有持久化的部分作为“服务”被集成到大数据PaaS平台中,比如MPP数据库、Hadoop之类的就属于此,还包括更加流行的流处理、机器学习等能力。各项能力通过一个标准的能力管理接口接入框架之中,提供了对大数据能力的透明性。采用的标准是Cloud Foundry中的service broker协议,目前版本为2.8。

  ·轻型的,不带持久化的部分作为“应用”被集成到大数据PaaS平台中,比如各种可视化、数据探索、推荐引擎、监控告警等。采用的技术标准是Docker,并通过Kubernetes容器管理系统进行封装。也就是说任何能跑在Docker中的应用,无论是单机的,还是集群的,均可以放心的托管到系统上,可扩展性和高可用性都由平台去搞定。

  ·管理上述两块就是框架。它将“服务”和“应用”有机地结合在一起。并负责认证、权限、计费、审计、日志、监控等管理。

  毫无疑问我们采用的是一个开放的体系,因为我们认为大数据的世界如此的丰富多彩,任何一个厂家都无法提供所有的服务,开发所有的应用,开放合作可以实现共赢。

亚信数据总经理何鸿凌:大数据尚未与云计算有机结合-图片2

小结

  知名调研公司Gartner预计,今年公共云服务方面的全球开支将增长16%,达到超过2040亿美元,同时预测全球IT开支将比上一年略下降0.5%,达到3.49万亿美元。请注意这种开支的下降是在IT需求增加的背景下达成的,云计算提高社会效率可见一斑。

  去年CSDN的调查中,发现全国IT人员的分布中,数据库管理员DBA的职位比例明显下降,这疑似被云中的各种RDS所替代。这又是云计算提高社会效率的一个例证。从个人或某个细分的职业来说,可能是悲剧,但对于社会整体来说,这是进步要付出的代价。这也提醒从事大数据职业的人群,如果工作无法达到规模效益,效率无法持续提高,那么其岗位就有被其他模式所替代的风险。

  大数据的能力是否也能像云一样流淌到千家万户?在不久的将来,是否每个公司、甚至每个个人,都可以像在BAT这样的大公司中一样享受低成本的大数据红利?

  当这种长尾的效应释放出来的时候,世界应该会变得更加有效率。

标签:

责任编辑:admin
在线客服