互联网是大数据应用的发源地,互联网应用的深入发展产生了海量的数据,用户在互联网上的处处留痕、时时留迹,使得其在网络空间的活动画像日益丰满,精准营销是大数据最具产业规模的领域,基于用户个人信息、行为、位置等数据而进行的定向广告和个性化推荐等应用,已在互联网领域广泛开展。
目前,电信运营商发展大数据主要体现在企业内部数据的整合且服务于内部,如支持内部的客户流失分析、营销分析和网络优化分析等,对外的应用模式尚未成型,部分电信运营商开始尝试利用大数据进行数据的增值,如:美国Verizon成立了精准营销部门,提供精准营销洞察(提供商业数据分析服务)、精准营销(提供广告投放支撑)和移动商务服务;西班牙电信成立了名为“动态洞察”的大数据业务部门,面向全球运营,为客户提供数据分析打包服务,其推出的智慧足迹产品,基于完全匿名和聚合的移动网络数据,可对某个时段、某个地点人流量的关键影响因素进行分析,并将洞察结果面向政企客户提供;德国电信和Vodafone尝试向数据挖掘公司等合作方提供部分用户匿名地理位置数据,以掌握人群出行规律,有效地与一些LBS应用服务对接。
中国移动大数据应用对内以服务市场、服务网络、服务经营决策为主,支撑企业精细化运营,实现降本增效,对外寻求业务新增长点,提供数据分析类产品与服务、提供行业大数据解决方案,促进公司价值提升。目前开展的对内应用主要包括:基于用户上网行为分析的营销应用、详单及上网日志查询、用户维系、网络性能分析与优化、互联网流量分析等。对外应用包括:与航空公司合作,建立乘机客户识别模型,提供大数据挖掘、客户发展等大数据信息服务,提供针对性的营销方案;利用通信信令实时分析景区人流量,结合游客的行为数据挖掘,为旅游管理部门、景区提供决策参考;以客户授权为依据,发挥移动客户实名数据优势,为互联网金融提供客户信息验真服务等。中国移动掌握丰富的用户身份数据、业务数据和位置数据,数据的海量性、多元性和实时性使其具有经营大数据的先天优势,随着智能手机和高速网络的普及,中国移动能够获得的用户行为数据还将更为丰富,大数据应用前景更为广阔。
目前大数据处理技术还在蓬勃发展,大数据领域每年都会涌现出大量新的技术,成为大数据获取、存储、处理分析或者可视化的有效手段。中国移动部分省公司已陆续开展大数据技术及产品的引入与测试、大数据平台的规划与建设,常用大数据技术包括Hadoop、MPP数据库、NoSQL、Spark和流处理技术等。
Hadoop是一个分布式系统基础架构,框架中最核心的设计是HDFS和MapReduce,其中HDFS负责为海量数据提供存储,MapReduce为海量数据提供计算,Hadoop在处理非结构数据和半结构数据方面具有优势,尤其适合海量数据批处理场景,如:ETL、数据预处理、日志分析、搜索引擎、广告点击率统计、数据统计、海量数据排序。MPP数据库即大规模并行处理数据库,相较于传统的关系型数据库产品,具有高性能处理能力、高数据吞吐能力的优势,适用于较大数据量(100节点以内规模)、高计算复杂度、低时延要求的关系型数据处理场景,如:联机分析与查询、数据仓库、数据集市。NoSQL泛指非关系型的数据库,因其抛弃了关系型数据库复杂的关系操作、事务处理等功能,而在大数据简单存取上具备关系型数据库无法比拟的性能优势,适用于数据结构不复杂、无表间关联、数据一致性要求不高或通过应用层解决,但是对性能和扩展性有强烈需求的应用,如:账详单、日志查询等。Spark是类Hadoop MapReduce的通用并行框架,拥有HadoopMapReduce所具有的优点,但不同于MapReduce的是中间输出结果可以保存在内存中,从而不再需要读写HDFS,提高了计算效率,适合于需要多次操作特定数据集的应用场景,如:朋友圈分析、重入网用户分析、网管告警、准实时营销。流处理技术是针对流式数据的分布式、高可用、低延迟、具有自身容错性的实时计算技术,主要应用于海量流式事件触发式应用,如,垃圾短信过滤、实时监控、实时营销等。每一种大数据技术都有其优势和不足,在大数据平台建设中多采用混搭架构,针对不同应用需求,选择相应的技术,搭建低成本高效的数据存储和计算架构。
中国移动大数据应用与建设尚处于起步阶段,在基础能力建设的同时,应注重大数据人才培养,并同步推进大数据管理机制的建设,才能确保大数据平台的有效运营,实现大数据的价值。