IBM技术总监房树新:IBM在电信领域大数据应用和实践探索

2016-04-21 11:04 来源:数据猿
浏览量: 收藏:0 分享

  2016年4月20-21日,2016中国信息大数据通信大数据大会在京召开。大会以“开放共享、转型创新”为主题,聚焦通信业大数据产业生态,邀请工信部、院士专家、三大运营商集团及省市大数据相关业务部门领导以及领先的大数据产业领军企业及应用单位代表出席,共同探讨通信业大数据发展带来的产业机遇和挑战。

  本次大会主要针对前沿ICT技术与解决方案对运营商大数据能力建设的提升以及业务运营、架构的转型影响,通信业大数据的开放应用以及开放、共享、创新的产业生态等热点话题展开讨论,全景展现运营商大数据能力建设规划与开放应用策略。

  以下是数据猿现场独家直播“IBM技术总监房树新”的发言实录:

  房树新:谢谢汤总非常精彩的发言,有理论,有实践,结合浙江移动具体的应用,谈了很多经验的分享。我自己从这里面也学到了很多知识,谢谢汤总。我下面介绍的就是IBM公司在过去移动、联通、电线大数据领域做了哪些事情,给大家做一些汇报和分享。

  从电信运营商角度我们看到了几大地域,有B域、M域、O域,IBM过去很多时候都是在B域里面,在CRM这一块做的很多,另外在数据仓库这一块,不管是服务器的提供和软件的提供。随着大数据这几年如火如荼的发展,我们的工作也主线是在精分这一块,还有在B域这一块展开比较多一点。

  我给大家展现大数据给我们带来什么?我们看到过去只是喊有技术了,怎么可以和实践结合呢?怎么利用大数据技术,能够给我们的企业带来价值,实际上过去我们也是在不同领域展开这样一个探索。现在来看,确实是随着大数据的建设,真的是带来了一种商业的价值。谈大数据都是X86、互联网发展来的,都用的是开源软件,是不是这些开源软件是在IBM平台上跑不起来呢?过去三大运营商里面很多应用服务器都是用的小机,小机上面可以跑AS系统,可以跑很多系统。现在我们在企业级用的各种各样的小机,完全可以把它装成一个操作系统可以使。

  谈到大数据,大家说X86是廉价的,是成本比较低。从IBM在转型,它也推出了一系列的低端的服务器,用于在X86这样一个价格的档次,同时它又用到了一些小型机的处理能力、可靠性、稳定性,还有上面一些广大的运维支持的IBM的这些能力,这些能力不能光用IBM的商用软件,一定要用开放的软件去整合在一起。

  这张图整合了,现在不管是O域、B域、M域常常用到的开源软件,这些开源软件在IBM的芯片上都能跑起来。过去我们做了很多实践,也是基于开源软件来的。我们是企业级的客户,除了用到开源数据,还要有KPI的要求,开源有可能不稳定,出现问题往往得不到及时的解决。现在有回归的看法,并不是追时髦,今天你出了某个版本,马上就使用。我要解决企业问题的,不是一个学术单位,不是一个研究单位,我一定要用有服务,有保障的解决方案,所以就冒出来了大数据有自己的模块,同时有服务支持能力的。IBM也是其中之一,第一部分是开源,你有我有,第二部分,你有,我没有,第三部分是各家公司在开源这上面加入的有价值的那一部分,这一部分是要收费的。同时如果这些东西用到企业级里面,还有一个运维的保障,这是给大家汇报一下解决方案。

  我现在结合两个案例,给大家汇报一下我们在大数据领域里面做的众多案例里面选了两个,一个是纯开源的,一个是用的半商业的加开源的方案。第一个案例跟汤总介绍的有点类似,这个省份的运营商要把它的B域、O域、M域和第三方的数据做一个采集,有一个接口,数据抽取出来保存下来,在上面导入Hadoop,去做分析加工,然后再转到它的主体库里面。在这里面用到了X86一部分机器,用到了IBMpower芯片,构成了一个完整的大数据场景。

  在最上面就是它的业务,跟上午各位领导专家讲的一样,客户的画像,精准营销,还有长漫游包的处理等等,都是基于整个大数据平台构建的一个业务层面的展现。到今天来讲,这个是做到了第二期了,第一期用了60台机器,上面构建了ETL等等,在接口层面透过IBM四台V7000,把各种数据抽取到这上面来,建立了一个全省统一的一份数据,能够被多个业务进行分析加工处理,这是一个IT的配置。

  下面可以看到全是用的开源的东西,比如Hadoop的2.0、3.0。随着逐渐的建设,它引入了南大通用通用的数据库,用了28台机器,构建了高节点的数据库,跟原来的几十台的廉价的X86曙光浪潮的机器,构建了一个贮备库。随着业务量的突飞猛进,原来构建的库显得不够用了,到今天它扩到了102台机器的架构。这是一个架构演变的图,可以看到它的主库是DBT库,分布式数据库有主的,有备的,Hadoop也有一个全量的备份库,还有流处理的。这些库建设干什么呢?通过不同的库做不同的事情,比如DBT保存6+1月的地域的数据和备份数据,Hadoop是B域和O域的全量数据,通过6+1、12+1、3+1,根据业务保存不同的需要,用不同的X86技术和Power芯片技术,达到了一个混合的架构,一个是为了性能,一个是为了业务区分它的重要性和投资的考虑。

  另外一个案例就是另外一个省的,这个省的案例原来是X86的案例,是用的纯开源的。纯开源碰到问题以后,得不到解决,用户吃了不少苦头。在后面建设的时候,他说我要在软件和架构层面有一个服务保障的解决方案,这里面就用到了30台Power系统,它认为是一个小机的架构技术,又是一个X86的价格,性能和稳定性是有保障的。另外原来用的全是CDH的解决方案,现在他用到了IBM的大数据文件系统,再结合开源的东西,来处理它的上网数据。这些每天的量达到50个TB,基于这样一个架构,各开发商在上面用SV来做各种各样的应用。

  随着建设的发展,现在到了第二期,第二期主要是性能和容量,要补充第一期的不足。同时第二期还要再建一个跟第一期进行互补,或者是做一个互相备份的功能。在第二期里面就引入了更高版本的对Hadoop2.0的支持,构建了第二期的平台。前面通过处理,导向大数据平台。这基本上是第二期增加的部分,用了16核的机器,38台,用了IBM的大数据平台,建设了第二期,把数据和应用做隔离,做到两个系统同时运行,做到一个相互呼应。

  另外一个就是用大数据来解决企业的问题,发现在性能方面还是不够。从Hadoop到SPARK,在内存迭代分析,觉得性能还不够,现在还得探讨引入HANA这样的技术,我们能不能把它用在精分里呢?比如我把精分的数据和前面生产的数据,通过一个SAP工具导入HANA里面,我在上面进行分析加工,这也是现在展现的一个思路。其实这个是在国外HANA用的非常广泛,并且用的HANA都是支持十几个T、几十个T的一个场景。一种情况是用高端机器,我就用大内存、大数据能力来进行处理。另外一个解决方案,我用受节点,构建多节点的东西去处理,这些东西对我们电信领域来讲都可以用。这个就举一个例子,在实时营销和实时报表方面,我就借用HANA快速内存计算的能力来引入这个技术进行处理。在这里我们探讨的是,我把数据仓库的数据导到HANA内存库里面,分析的时候基于HANA里面的数据进行分析加工,能不能在4G时代能够实时做到用户对通话,对流量使用的情况,快速作出决策。如果原来在数据仓库里面这个时间还是满足不了实时这块分析,引入HANA以后就是一个很好的思路。这些我们是在一些省份也在落地,在进行各种测试和验证工作。

  另外用户提到在大数据里面,我买X86的机器,X86的机器可能在它的带宽上和CPU上和IO上有一些短板的地方,在Power芯片的机器能不能和X86机器搭一个混合架构,这边是给大家一个功能的验证。在一个Hadoop里面,我用Power芯片来做,用X86来做,构建一个混合的Hadoop没问题。如果是一个X86做主节点,其他的混合结构是做从节点,来发起对任务的调度和处理,也是没问题的。反之也是一样,通过这样一个验证,能解决有些省份的需求。我机器可能不被一家来绑架,我要根据我的集采,买了不同处理能力的机器,能不能放在统一大数据平台里面,构建一个多租户,统一共享的能力,甚至把Hadoop和SPARK在混合架构上来部署,这些是给大家一个信心,是可以的。

  另外一个就是Docker,现在有了Docker以后,能不能把web服务器节点放在Docker里管理呢?Docker以及Docker之上的管理就摆在大家面前了,这是我们现在跟很多省份在谈,怎么把一些传统的架构改成一个微服务的结构,改成微服务的结构,就会带来什么问题呢?Docker那么多,怎么部署Docker?怎么监控Docker?怎么用多租户的方式,这个就带来了一个问题,IBM是在操作系统方面,在核心的调度管理方面是IBM有很多软件的积淀和积累。上午我的同事李永辉谈了很多多租户管理,我们把那个技术拿过来,绿的那一层,就可以和K8S对接,下面有Docker,同时加入了多租户的调度和管理,加入了监控和管理,加入了我上面的作业是实时应用的也好,我可以放在一起,构成一个统一的资源池,用Docker管理。这是IBM在开源的基础上,整合IBM有价值的能力,为我们不同的需要来提供解决方案。

  另外从硬件上,这些加速方面,因为芯片的设计和带宽的设计,体系结构的设计,相对X86,我们就是有4倍或几倍的理论带宽和实际的处理能力。从实际处理能力来讲,给大家举一个例子,一台十核的机器和24核的E52090V3比,如果跑,我们一个核能跑到4.6个核的E52090V3的处理能力。简单总结一下,我们过去做了很多大数据的实践,为什么得到一些认可?一个是用户对小机的处理能力还是有一个继承性,另外它稳定、可靠性方面,他觉得比X86稳定。尽管X86可以说我用软件技术来屏蔽单点问题,但是现实很多软件还没有做到微服务,还没有像互联网那样,改造成容忍某个节点死掉,对整个系统的业务连续性还能保持很好,我们业务还没做到那一步。单节点的稳定性可能在现阶段还是一个强调的重点,另外在操作系统方面,可能买了一个订阅,有可能开了扣了以后解决不了,如果用IBM,IBM投入了巨大力量在参与社区,贡献核心的开发。我们看到很多实际的跟IBM结合的,IBM会有一个很强的队伍跳进来,分析这个内核的问题,也贡献了很多核心的功能。IBM我们是一块来解决问题,这也是一个售前、售后服务的保障和对核心业务的快速响应的保障。这些可能给大家有一个共识,在大数据方面,IBM还可以做一些事情。

标签:

责任编辑:admin
在线客服