3月29日晚,浙江移动大数据中心——傅一平博士,就《运营商大数据变现实践》与大家分享数据利用的心得与经验,为大数据百人会社群带来两个多小时的精彩演讲。
运营商拥有庞大且具有绝对话语权的数据资源、数据储备,关于对数据利用的心得与经验,傅一平先生围绕浙江移动的平台能力、数据管理、数据能力、标签能力、产品服务这5大内容深入浅出地做出描述。十足的干货、通俗易懂的表达方式,专业的视角和独到的解读吸引了3326人次在线观摩学习。
此次沙龙录音内容以第一人称整理。
1、运营商的平台能力
2004年我进入浙江移动,3年前开始从事大数据相关的工作,推动了浙江移动大数据变现工作的开展,浙江移动在大数据变现过程中碰到了很多问题,我们在实践和探索中也总结出了一些经验,今天与大家分享一下。
数据变现我不能直接去谈商务模式,因为商务模式依赖于我们平台、数据和标签能力。运营商的平台能力分为五横一纵,从数据采集、数据处理、数据分析、数据访问到数据应用,还有管理平台,这是一个标准架构。互联网公司的大数据平台架构可以与其作一定的映射,当前,浙江移动从这五个方面也初具雏形。
浙江移动经过两期系统的建设,采用了非常多样的技术组件,底层用的是华为的BDI,中间的处理层用的是hadoop,有商用的,也有开源的版本,大家可以看到里面有3个应用集群,中间我们使用的是MPP,MPP用来做我们的报表,主要是融合、复杂以及交叉的分析,当然我们也采用了ASTER的数据挖掘库,它提供了一些现成挖掘的API,计算速度比较快,流处理的话我们使用的是IBMSTREAM,海量数据处理方面很不错。往上一层我们主要是做读写分离的,有Oracle、HBASE、KV数据库,为应用层提供支撑。
运营商如果想对外变现,它必须具备像阿里云一样方便驻户进驻的能力,它的平台能力应该是所见即可得的,浙江移动大数据平台可以在一周内实现合作伙伴的入驻并实现全方位的开放,当前外部合作伙伴已经超过30个,当然这仅仅是起步的阶段,“我方搭台、对方唱戏”的这种模式对平台来讲是必不可少的,很多公司如果没有多驻户的开通能力,变现是不大可行的。
2、运营商的数据管理
数据管理每个公司需要,浙江移动这些年做起来艰巨,我这里提炼了对数据管理非常核心的几点,也是在实际中碰到的:①二级互动,你的数据必须与源系统打通,源系统变动时,大数据平台所有相关的数据字典都应该变动,这能解决两张皮的问题。②因为大数据平台组件很多,你的数据管理平台必须让所有的技术组件对你开放,就比如说我们采用的华为BDI的产品,我就必须让他开放所有BDI的元数据接口,这样整个公司的数据管理体系才是一体的,否则你就断了条胳膊,你做的数据分析都无法贯通,这是大家在引入技术组件特别要注意的。③数据建模,强调数据标准化和可视化,你所有的建模都应该是基于规范的,你所有表的命名都应该有自己的规则,这样整个公司所有大家看到的数据是一致的,所有的合作伙伴都能共享标准化的数据。当然数据管理也是一种追求,你一个小公司搞一个元数据产品其实没有必要,假如公司做大了,你做数据管理成本会非常高,因此必须要通过系统化、透明化的方式来管理,不做的代价是数据知识没有积累和传承。
数据管理虽然做了很多规范,但所有的规范都应该纳入系统中,这样才能保证你所有的系统数据管理规范都能在系统中落地,不然靠人去推动,基本上你的数据管理系统是会失败的。数据管理用后向模式去做不是性价比高的方式,你必须做成前向,在开发的过程中就应该把数据管理工作嵌入进去,数据管理跟每个开发、需求、测试人员息息相关,这是我们多年数据管理中深刻的体会。
数据管理平台很难通用化,无论是通讯行业、金融行业,由于本身的垂直行业特点,你的数据管理平台必须符合你垂直行业特点,想单靠一套数据管理平台来做成每个行业是很难成功的,这是我观点。而且数据管理平台非常强调运营,它需要这个平台不停地迭代,相对而言它对定制化的要求很高,同时,我们的数据管理平台在大数据时代要适配所有的技术组件,要能屏蔽技术细节,对上提供透明化,可视化的访问和开发能力。
浙江移动的数据是非常丰富的,它提供1600种数据类型、300个融合模型.10万个客户标签以及上百个API,运营商只有把基础设施建好了才能为我们的客户提供更快更好的数据服务。
3、运营商的数据能力
运营商做数据变现,它的核心差异化的竞争优势就是数据的差异化能力,离开了差异化的能力,你说运营商去做变现和互联网公司竞争也不大现实,因为我们在人才、薪酬、机制、流程各个方面处于全面的落后,还是需要利用我们差异化的能力去在市场上进行探索和竞争,这也是迫不得已。
浙江移动拥有6000万的客户,每个月手机上网的数据是1.5万亿条,通话记录每个月是100亿次,位置轨迹每个月是1500亿条,宽带记录每个月是10万亿条,现在的集群规模是1400+,集群规模与互联网公司比有一定差距,我们也在努力。
运营商最核心的数据有八个方面通信、支出、社交、上网、身份、位置、时序、终端,当然还有外部数据,以前运营商是不太重视的,比如大众点评网数据、天猫品牌、京东商城、淘宝数据等,在对外变现的时候,你会发现爬取这类数据实际上对运营商非常重要。
我们现在通过通话数据可以把所有的社交关系认出来,父母、亲人、朋友所有的社交人脉路径都能找出来而且非常准;另外运营商的通讯机制保障了你每次通话、上网所有的终端行为都会上传运营商网络,数据质量也很好,终端市场报告由运营商来出示非常有说服力,因为所有的数据都是活的也是及时的;还有黄页数据,任何用户比如打一个电话是黄页数据的话,你就可以知道这个用户的需求,对于精准营销非常重要;当然我们运营商还有和教育的数据,比如我们想知道成绩好孩子的家长有什么样的特性,运营商可以做这样的分析报告,我们通过校园通这类行业应用产品大概能知道所有的学校、家长、教师、学生的信息,基于这些信息可以给出分析结果,未来前景巨大。
运营商的数据有四个特点:完整性、连续性、多维性、整合性。完整性是指比如京东的数据、淘宝的数据实际上运营商都有,也许没有那么详细,但可以拥有任何一家的互联网公司的数据;连续性是指我们每天生活在时空中,要么在线下要么在线上,运营商所有的数据都有,比如线下你所有的位置数据运营商有,线上你所有上网数据也有,基于线上线上再加用户属性,运营商可以完整连续的刻画;多维性是指运营商拥有时间、空间和用户多种属性数据,相对可以实施降维打击,通过时空交叉验证可以把模型做的非常准;整合性的意思是运营商拥有号码、IMEI、IDFA、COOKIE几乎所有的用户ID,所有ID信息整合在一起可以实现全数据的关联,这也是运营商的巨大优势。
至于大家非常关心的HTTPS,我不太在意,HTTPS现在呈扩大的趋势跟流量劫持有一定关系,主要还是因为互联网为了保证它自身利益,从数据的角度来讲,即使HTTP最后仅有20%可开采,对运营商也足够了来构建自己的用户画像了,况且现在很多数据还没有开采,应对HTTPS的重要程度远远低于运营商对自身数据采集解析的要求,没必要杞人忧天;另外APP协议成千上万,HTTP整个流量占比也不超过30%吧,再者运营商有巨大的资源,完全可以利用资源去换取内容知情权,比如腾讯大小王卡,给你免费定向流量,用资源换取内容知情权,再通过全内容为你提供增值服务,这个套路很多公司都在做,我们运营商要做在当下。
如果搞过搜索、爬虫、自然语言看来这个天眼用户偏好检索系统就知道它想干什么,实际上百度做的就是通过输入关键词它能找到所有的信息,运营商能做的是我输入一个关键词它能找到所有相关的用户,因为百度是没有用户的,而运营商拥有所有的用户,比如我输入足球关键词,我可以把五千万用户对足球的偏好进行排序,大家可以想象未来运营商变现的空间有多大。
运营商虽然拥有数据,但我不能说就等于抱着金矿或原油,运营商的数据开采的代价非常大,运营商现在的数据以通讯数据为主,必须要“去电信化”才能在生态中生存,否则你数据直接去卖也卖不了几个钱,还有运营商卖原始数据实际上等同“杀鸡取卵”,安全上不可取也不可持续,运营商要变现必须从建模中发现数据的价值,这也是当下变现的软肋,因为我们基础建模能力还很弱。
4、运营商的标签
运营商正在从传统通信画像向真正的客户画像转变,在事件标签中,我们可以把家人、亲戚、工作伙伴及行业通话信息串起来,我们有所有的线下事件、线上事件、专题事件,比如前段时间的云栖大会把所有事件记录下来以便对专门的用户进行专项分析,别看云栖大会这两年很热闹,我们分析过两年的会议数据,用户连续参加两年云栖大会的比例极低。
用户社会画像看起来与运营商的数据没多大关系,但恰恰是基于运营商的数据可以做出来,包括职业、人生阶段甚至家庭等等,都能判断出来。而位置标签无论是常驻位置、工作位置、事件出行、移动轨迹,不管是连续还是静态的都是可以抓取以作用户分析,当然有人会提这涉及到用户的隐私,我们所有的信息处理时是去隐私化的,主要是用来做特征分析,大家不用担心信息安全的问题,互联网公司其实一样,他拿着用户所有的交易信息来做特征分析,但绝不会把清单型数据透露给外面,这是我们秉承的原则。上网行为中,无论是APP的使用、网页访问、使用时间序列很有价值,以此可以判断用户的偏好,为用户更好的服务,这个互联网公司做的比较多,运营商正处在起步阶段。
5、运营商的产品体系
现在我们的产品体系很丰富,有客流、选址、引客、APP、反欺诈和验真,我们也有广告平台“喜从天降”、终端产品“有机密”等,同时提供大量标准化的产品,这类产品要创造效益,还有很长的路要走。
比如选址雷达,你可以根据标签选择偏好用户所在的位置,以方便商户选址;另一款叫引客雷达是你可以上传一批目标客户的号码,我通过Lookalike的方式帮你找到潜在用户在哪里;至于金融验真产品,大家不用担心用户隐私的问题,因为都是通过用户授权的,身份验证主要是通过手机、身份证和姓名进行三证合一,当然还可以做刷单行为的判断,比如滴滴刷单,你可以把司机手机号码和客户的号码交给运营商,运营商通过两个号码之间位置切换的关系来判断是不是异常。
运营商合作的几种形式:①数据服务:比如验证,运营商提供标签,你输入用户号码,我们提供标签;这是第一种服务模式我们叫做数据云化,当然无论是模型还是标签都是一样的。这个更多的运营在验证场景,主要通过用户授权。②模型锤炼:由于现在大数据处于起步阶段,许多企业处于观望心态。浙江移动提供了模型锤炼的服务,我开放你数据服务,当然这些是去隐私的,你可以在我们平台上进行模型淬炼,如果你觉得达到要求了,我们再正式商用、收费;③产品孵化:运营商(包括浙江移动)我们的产品研发能力是有限的,不可能在各个方面都做端对端的产品,我们希望有更多的伙伴和我们合作,分成都是可以的,这一块我们也在做许多尝试。④渠道广告:比如我刚才提到的“喜从天降”,运营商有许多渠道,比如微信公众号等等,可以将运营商在数据方面的能力与各产业合作伙伴的需求结合在一起,短信等传统渠道由于政策方面的原因,还有待观望。
信息服务费指的是按次查询信息需要收取的费用,比如验证,一个号码与身份证的匹配关系,比方说每次收取一次一块钱或者两块钱,这都是通过用户授权以后,我们可以和银行合作收取的信息服务费。信息使用费是指你租用我们的数据之后,我们按照数据里面用户的量,比如每一千用户收取多少费用。设备租赁费和阿里云类似的方式。
我们客流产品是如何收费的?它要收取功能费和增值功能费,这个产品涉及到位置,我们可以按照位置的扇区可以单独收费。这是对于相对成熟产品的收费方式。
运营商是非常负责任的国企,有自己的数据安全原则:“凡是能够直接或者间接地识别自然人的任何信息,包括身份证、手机号码、IMEI、COOKIE等,都不能对外提供”,这一点许多互联网公司是没有遵循的,他们的串号、COOKIE都是可以互相交换的,但是对运营商来讲这一点很难,因为COOKIE也是代表了用户的属性,这也是存在隐私风险的,运营商做大数据难也是难在这里,国企对于稍有模糊的地带都是不敢踩的,因此我们是非常艰难的。“不涉及个人清单信息的数据分析服务和产品服务,比如行业分析报告”,这些是可以做的,因为这些是统计类的信息。“基于用户授权的各类数据服务”这些我们也是都可以做的,不论是查询标签,还是个人身份信息。
只有确保这些前提下,运营商才能做各类变现服务,挑战难度是相当大的,这也是在考验运营商的创新能力。
我们对外合作的形式包括①标准化产品模式:这一类产品业务比较诚实,产品标准化程度高,我们向第三方购买也有可能。②合作运营模式:运营商只有数据,没有任何产品、建模能力。这时我们希望与合作伙伴合作然后大家分成。③外包解决模式:这是一种比较传统的方式,通过招标给运营商提供定制服务,然后运营商自己面对最终客户。④应用孵化模式:运营商开放部分脱敏数据,帮助合作伙伴进行数据产品孵化。
浙江移动为了做大数据运营变现专门成立了大数据中心、云计算中心。由这两个中心保障大数据专业化的进行服务。没有专业的人做专业的事,做大数据变现是不可能的。
那么运营商缺什么呢?①数据建模能力:运营商经营分析起家,以前的数据挖掘基本是数据外包的形式做的,但是进入大数据时代以后,对建模的能力要求越来越高,运营商非常稀缺这一类资源。②平台技术:运营商现在也在建立大数据平台,现在平台已经建立起来,但是售后服务支撑能力是非常薄弱的,因为技术组件太多了,我们在变现中发现了大量的问题,需要我们在技术方面进一步突破。③连接能力:运营商对各个行业是不熟悉的,希望有能撮合最终客户和运营商的企业,这对我们很重要。④运营能力:这里有一部分文化因素,因为许多从业人员是从运营商的体系中转过来的,在策划、运营方面缺乏经验,我们需要擅长做运营的企业与我们合作,其实我们什么都缺。
个人观点
大数据变现对运营商的挑战巨大,首先是速度。大家都知道做大数据十有八九是会失败的,你做了这么多产品、采集了这么多数据,有多少能用,有多少能真正成功,有多少客户愿意来买单很难说。十个里面能成功一两个已经很好了,这个时候你的速度是很重要的,如果你开发一个应用要两个月甚至半年,那基本上没法跟上节奏。
另一个是渠道,运营商如果只有数据没有渠道也很难成功,不能脱离业务去做大数据。比如说我们现在有大数据交易平台,但是现在在大数据交易平台在个人隐私没有定论的前提下是很难做的。我们在做大数据变现的时候传统渠道不能用,必须要创造新的渠道,这样才能让大数据承载在上面,大数据才能成为渠道的放大器。
第三点是数据为王,运营商做任何产品是离不开数据的,如果做的产品与差异化的数据没有结合起来,十之八九就会失败。相对于互联网公司,你没有任何竞争力,唯一的核心竞争力就是数据。
最后是运营,运营只有持续的迭代才有可能成功,KPI也是一种信仰,运营商原来的机制、流程比较冗长,它的迭代速度还是比较慢的。
另外,运营商对外也是反辅主业的需要,因为运营商进入流量经营时代后,内容运营越加迫切,传统的标签体系根本无法支撑,我们在对外变现中,发现外部客户对于标签的要求是非常高的,这驱动了我们去完善自己的内容标签体系,同时,运营商通过大数据,也可以培养和挽留住一批人才,你必须给一些人一些出口,可能运营商对外短期内无法规模变现,但它也承担着更多的使命,你不去实践,永远不懂大数据到底是什么。
大家都在找大数据的商业模式,我觉得现在商业模式已经很多了,实际上真正赚钱的大数据变现模式只有两种,一种是金融风控,一种是广告。再找到第三种已经很难了。我们现在已经尝试了一些,无论是做报告还是洞察,实际上最大规模的变现就是金融和广告。
运营商更需要的是工匠精神,需要精益求精,在某一点上进行单点突破,而不要求泛,每一方面都做一点但每一点都没办法做透。因为无论你的数据模型能力,还是运营能力、产品能力,都存在非常大的欠缺,你不可能有精力做那么多,我们希望能创造一个生态,与各界合作共创大数据的未来,服务好我们的客户,这也是我的期望。
Q&A
Q:请问客流分析产品的市场需求有多大?
A:客流分析的产品市场相当大,但它受限于定位的精度。但是如果我们能基于精准位置定位,比如说如果我们取MR的数据来做,能够做到50米到100米的精准定位,这个是非常广阔的市场,通过1-2年的时间,这个产品肯定能做出来,这个是非常有前景的,因为他可以定位到某幢楼,我对此也是非常有信心。
Q:MR和DPS是如何连接起来?
这个和运营商的数据有关系,MR相当于测量报告,我们运营商上网数据需要SE—MME有一个信令数据,这个信令数据里面就有我们的经纬度数据,它里面的ID里面有一个标识,这个标识可以和MR里的标识结合起来,这个时候你就可以得到一个关联。
Q:目前浙江移动在大数据广告方面有开展业务吗?
广告这一块,我们之前有做过,但是由于安全的原因这一块儿暂停了,运营商的数据有它的特殊性,比如手机阅读这一块儿,我们移动有个咪咕阅读,我们每个月可以帮他新增5万的手机阅读用户。通过DPI数据是很方便找到他的竞争对手用户。
本期大数据百人会线上沙龙也收获了如潮好评,再次也特别感谢大家的支持与鼓励,打造大数据行业里的精品课堂是我们的追求与梦想。