2015年12月10日至12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办的2015中国大数据技术大会在北京盛大开幕。京东受邀参加,多位技术专家就 大规模内存数据库、实时数据平台、大数据在广 告中的应用、京东大数据生态等话题进行了分享,全面展示大数据技术研究和应用成果,显示出京东通过业务和技术 双驱动的强劲竞争力。
刘海锋:大规模内存数据库JIMDB
在2015中国大数据技术大会首日全体会议中,京东云平台总架构师、系统技术部负责人刘海锋带来了名为《大规模内存数据库JIMDB:从2014到 2016》的主题演讲。他介绍了大规模的以内存为中心的新型数据库——JIMDB,包括它过去两年的发展历程、技术脉络以及是怎么支撑起京东的电商业务。
电商业务需要非常迅捷的数据访问,这不仅是用户体验的需求,也是技术开发人员提升效率的需求,因此,京东延续数据库领域的泰斗级人物Jim Gray的“Memory is the new disk(内存是新的磁盘)”理念,从2014年开始启动了JIMDB。
JIMDB的全称为Jingdong In-Memory Database,是一种新型的以内存为中心的全托管、全管理服务化的数据库,主要针对灵活类型、半结构化数据的快速存取访问。
JIMDB最早基于Redis,但京东团队对它进行了持续的改进与重新实现。目前,JIMDB已能满足电商业务所需要的自动故障切换、在线弹性扩展、灵活复制与全自动化运维等需求,在生产环境达到数千机器、数万容器实例的大规模应用,支撑了京东海量的在线业务。
刘海锋举出了JIMDB的实际成效案例,“内存存储带来了极佳的、非常稳定的性能。以京东线上某个比较重要的集群为例,在双11期间它整体的QPS 超过 200多万,而且99%的请求在2毫秒之内返回。JIMDB让用户体验更好,让我们的业务开发起来更加简单,让运维工作更加省心、更加轻松。”
刘海锋透露,京东未来还将从专署集群过渡到聚合各个IDC的RAM资源,聚合整个RAM资源,让数据动态流动、降低整体硬件成本。他认为,“内存是存储的未来”一定是趋势所在。
刘彦伟:让更多人玩转大数据
京东大数据平台研发负责人刘彦伟做了题为《京东实时数据平台的实现和应用》的主题演讲。他表示,京东希望通过打造一个优秀的大数据基础平台,降低京东大数据消费的门槛,让更多的人能够玩转大数据,让每个人都成为大数据的专家。
京东这两年发展非常快,大数据也呈现了同步快速发展态势。截止2015年Q3京东大数据基础平台整体容量突破90PB,每天新增超过1PB数据,每日扫描数据量超过了5PB,每天约有20万个作业运行。
京东大数据平台是以平台化的思维为整个京东提供大数据基础服务,其中包括硬件资源、平台工具、数据服务、用户画像、技术输出等,希望通过基础设施和工具的建设,让更多的用户可以自助地在平台上做自己的大数据业务。
刘彦伟介绍说,整个京东大数据平台分两部分,一部分是离线的数据平台,一部分是实时的数据平台。2014年之前还是离线的数据处理为主,2014年之后,不论是业务上还是技术上,对实时的要求越来越迫切,因此京东打造了实时数据平台。
从京东商城、京东金融、京东智能、京东到家的各个业务条线,每天都在产生大量的数据,这些数据通过统一的平台“数据直通车JDBUS”实时接入,统 一在 JDQ实时数据总线实时存储,再通过实时计算平台JRC完成实时计算,可供精准化营 销、实时运营决策、实时监控等领域使用。
京东大数据平台通过技术解决了三大难题:第一数据接入的问题,第二数据存储的问题,第三数据计算的问题。在京东首页“猜你喜欢”的模块,就是基于离 线的用户 画像、商品画像并结合用户的实时浏览行为,经过复杂的实时推荐算法提供的。在站外的广 告位,比如新 浪,也会基于实时的模式打造个性化推荐。而在对商家服务 的京东数据罗盘中,为商家提供的数据决策支持系统也是一个典型应用。商家可以看到实时的订单、用户、浏览等营 销数据,帮助商家提升自己的运营效率、效果。
万昊:大数据技术在京东广告中的应用
京东数字营 销大数据高级总监万昊发表了《大数据技术在京东广 告中的应用》的主题演讲,分享了京东在广 告上大数据的实践。
万昊认为,大数据并不必然就一定有效果。除非人们能从中发现有用的信息和规律,这才是大数据真正重要的地方。传统营 销中人群定向是一种退而求其次的方法,广 告主直接找到他的核心或潜在用户才是最直接的。而京东大数据就可以实现这种直接的定向,比如定向看过或买过指定商品的、指定品牌和店铺的用户。
京东怎么知道用户在京东的体验得到满足了呢?这也有可以量化的指标衡量:用户购买的商品总额和商品数。京东广 告将此两个指标作为主要优化目标,实现的方法是大规模机器学习、标签标引。
万昊说,京东的搜索广 告和推荐位广 告是一套架构。同一个广 告单元,可以有两种定向:购物行为定 向和搜索定向,排序根据质量因子×出价决定。所谓质量因子就是机器学习模型起效的地方,比如用户看了两个商品,却只买了其中一个,肯定是对一个感兴趣,对 另一个兴趣不大。京东广 告使用深度学习技术来预估用户的兴趣,根据结果选择让何种广 告处在更显眼的位置上。这样,用户买到了他想买的东西,广 告商推 广卖出 了自己的东西,京东帮助用户选到了心仪的商品,同时也从广 告商那收到了广 告费,达到三赢的状态。
杜宇甫:构建大数据生态环境
京东集团云平台数据首席架构师杜宇甫发表了题为《构建大数据生态环境》的主题演讲,他的演讲内容包括大数据的产生历史,大数据的分析过程以及对于大数据生态的思考。
杜宇甫表示:生态的意义在于整个系统中包含了数据的生产者、分解者和消费者。每次信息革 命,人类的数据都在不断增大,当“互联网+信息”爆发的时候也即是人 类进入大数据时代的开端。杜宇甫将大数据生态分为:数据收集、数据存储、数据建模和分析、数据应用五个阶段。五个阶段环环相扣,让数据在生态中进行自主运 转。
杜宇甫认为,消费不足并不是因为需求不足,而是由于产能供给不足,只有创新才能激发新的消费空间。
针对创新激发需求这个问题,京东建立了数据云平台,目的是想建立一个大的数据生态环境,让数据能在这个生态中循环起来。在这个生态里,任何一个人, 在任何一 个环节上都能够用起来,玩起来。“当用户数据不足,无法用于决策和优化推 广的时候,我们可以为用户提供咨询服务,帮用户做数据收集;我们也有数据市场(京 东万象数据开放平台)可以进行数据共享和交易;如果用户不懂数据价值,我们可以提供数据专家帮助用户挖掘价值;如果用户无法支持海量数据分析,我们可以提 供分布式数据集群,硬件和软件资源帮用户处理数据;在上层我们提供数据生成工具,把整个数据环节串联起来,最终帮用户将数据变现和产生更多商业价值。数据 的交易和增值,开放和共享不仅给企业自身带来价值,同时也会为其他的企业和整个社 会带来积极的影响。”
京东数据云生态包含:数据采集工具、离线+流式数据分析平台(BDS:Big Data Service)、实时数据分析平台(RAS:Real-time Analytic Service)、数据集成平台(DAG:Data API Gateway)、数据交易平台(万象),以及云海数据。为用户提供咨询服务、数据专家、数据分析能力、数据开放支持、数据增值服务等全业务线解决方案。 京东数据云依托京东基础云稳定强大的IAAS底层服务系统,在基础云之上架设了数据云生态系统,值得用户信赖。
京东的精彩分享引发了大数据技术大会与会者的强烈关注,也成为现场互动最为热烈的几个场次。业界人士认为,京东的大数据技术分享务实而前瞻,体现了 京东在电 商技术和大数据应用领域的行业领袖地位以及技术对推动京东高速成长的显著贡献,其对先进技术的应用和紧贴业务发展的实践为行业提供了非常有价值的参考,对 提升互联网行业大数据应用水平起到了推动作用。