前言:
大数据是一个事关我国经济社会发展全局的战略性产业,大数据技术为社会经济活动提供决策依据,提高各个领域的运行效率,提升整个社会经济的集约化程度,对于我国经济发展转型具有重要的推动作用!2016年,由中国首席数据官联盟与网加时代网发起并承办,北京大学信息化与信息管理研究中心、中国新一代IT产业推进联盟、数邦客协办的"影响中国大数据产业进程100人"大型人物专访活动全面启动,被采访对象分别来自政府、产、学、研、企各个领域,他们将从不同角度,不同层面向大家阐述当前大数据产业热点、难点、疑点问题,为中国大数据产业健康、持续发展探索经验、保驾护航,敬请关注!
第四十一期专访人物:中国首席数据官联盟专家组成员,博士后研究员,科技谷(厦门)信息技术有限公司CEO 陈思恩
陈思恩,中国首席数据官联盟专家组成员,科技谷(厦门)信息技术有限公司CEO。管理学博士,统计学博士后,研究员,国家高级项目经理,高级工程师,美国注册项目管理师(PMP)。厦门市第六批"双百计划"大数据领军型创业人才,曾任美国DataEra大数据公司中国首席代表,在央企民航信息系统建设领域有近十年的工作经验,擅长挖掘民航、交通等行业大数据。
本期特邀嘉宾中国首席数据官联盟发起人刘冬冬,就交通、民航大数据应用与陈思恩先生进行深入探讨。
刘冬冬:作为技术专家,在您看来企业真正需要的是什么样的大数据技术平台?
陈思恩:传统的"I.O.E"架构无疑给企业的IT成本带来了巨大的压力,而且随着数据量的激增,收效甚微。面对这样的问题,企业需要新一代的大数据解决方案和数据分析产品,来提升他们的数据运营能力,利用数据发现新的业务价值。
企业需要的大数据平台是可以存储企业数据仓库、关系型数据库、网络日志、点击流、社交网络等各类数据。需要无限的存储空间、线性的拓展性能,才能使企业不再受制于数据增长的局限。同时,需要整套数据采集、整合、分析、检索以及可视化工具,企业可根据需求变化,随时增加数据模型,发现、挖掘和提取新的商业价值,从而大大提高数据分析、创造价值的效率。
新一代的大数据解决方案具有如下特点:
一是与数据生态系统无缝整合。能与现有的Oracle、SQLServer、DB2、MySQL等数据库进行无缝整合,传统关系型数据库的数据可以作为数据源直接接入到集群参与计算分析,并支持多种可视化及报表生成工具,包括Tableau、SAPBusiness Objects、Oracle OBIEE等,使得基于大数据分析的商业决策更易被理解和接受,从而将大数据的潜在价值最大化。
二是强大的数据分析能力。采用分布式内存计算引擎、交互SQL方式,使实时和交互式分析成为可能。支持R分析引擎,包含了与Hadoop平台的无缝衔接及高度优化的专有图算法,可从大数据平台中高速分析关系网络等图数据。此外,还集成了大量的机器学习算法库,包含了聚类分析、分类算法、频度关联分析和推荐系统在内的常用机器学习算法。
三是完整的SQL支持。支持交互式SQL统计和HiveQL、Impala、SParkSQL等SQL引擎,对这些SQL语法进行扩展和对执行计划进行了大量优化。
四是超快的响应速度。实时的全数据快速检索、高效的分词算法、精准的搜索匹配,采用全文检索技术与HBase大数据存储及实时检索,快速检索出用户的基本信息及相关历史记录。
五是一站式的企业级解决方案。通过提供数据存储、分布式计算、数据分析挖掘以及数据可视化的整套支持,解决了企业从GB到PB级数据分析遇到的各类问题。
刘冬冬:您在公共安全领域也有多的经验,您怎么看公共安全领域的大数据应用?
陈思恩:近十年来,公共安全领域积累了庞大的数据、丰富的信息资源,但这些数据被单独存储在不同的数据仓库中,数据共享和综合利用还比较薄弱。随着公共安全综合管理平台的规划建设,对现有数据资源的共享应用产生了强烈的需求。
为此,我们需要通过对公共安全领域数据源内容和信息管理问题的深入分析和总结,运用当前最新的信息智能检索、数据整合处理、视频智能分析等技术构建以数据共享服务为核心的综合信息管理平台,为相关部门提供信息整合、共享、交换、研判与分析等完备的解决方案,可以满足客户对数据资源的查询检索和分析需求,实现精确资源检索、按对象属性特征检索、档案式关联分析、地理位置分析、轨迹分析等功能。
刘冬冬:您交通方便您也涉猎很深,交通大数据应用,您有哪些好的建议?
陈思恩:众所周知,城市机动车辆的不断增加使城市交通越来越繁忙,政府需要科学化的方法对过往车辆进行监控、疏导和管理,因此大部分城市都安装了数字监控设备,但这些设备所产生的海量图像和视频数据却给交通部门的信息化建设带来严峻的挑战。为了解决这一难题,面向城市道路交通、公共交通领域,通过集中管理交通数据、数据分析、智能研判、实时地图应用等功能,并结合导航、位置服务、智能公交等多种应用服务,实现信息整合、共享、可视化功能,为管理部门增强用数据调控交通的能力和对整体交通安全态势的管理能力,为出行者提供有效的出行参考。
在交通管理上,可针对监控摄像头、出租车上的GPS、地铁、公交等一年能产生的百亿,甚至上千亿条数据进行存储、处理、分析,实现交通监控与车流管理,进行实时的道路状况报告;在交通规划上,从几百亿条数据中分析出全年交通流量的变化并得出规律,用于进一步的决策,如公交站点设置、出行线路规划等,获得并理解道路交通流量及事件的固定模式;在出行指南上,通过摄像机获得的现场图和交通流量的统计给出实时道路状态,进行出行信息服务与引导。
刘冬冬:您在民航系统有十几年的工作经验,在您看来大数据在民航领域的机遇在哪?
陈思恩:自科技谷成立以来,我们团队就把公共安全、智能交通、民航旅游这三个领域作为主要发展方向,是因为它们不仅具有相关性,而且受公众关注度也较高。但是,基于我们当前的实力以及行业态势,我们选择把民航旅游作为重中之重来打造,并且希望科技谷能成为中国民航的Palantir。
说起Palantir也许大家并不熟悉,它位于美国硅谷,虽默默无闻,却已是一家拥有超200亿美元估值的大数据企业。他们服务的对象主要是美国政府以及华尔街的金融公司,据称能够让没有工程师背景的人也能轻松应对大量数据。把这样一家企业作为目标,显然科技谷做足了准备。
大数据和云计算作为一种新兴的IT实现方式,在深刻影响IT变革的同时,也为航空业带来了新的发展和机遇。据国际民航组织统计,至2020年搭乘飞机出行的人数将是当前人数的3倍。民航的旅客信息量是非常庞大的,尽管航空公司目前有着含有大量旅客信息的数据库,但是这些数据只被用于支持特定的运营程序,并不会被用于商业智能的开发。而且,数据项目众多,存放和管理零乱,并未实现不同部门之间的数据共享,如何使这些看似杂乱无规律的数据产生商业与业务价值,正是民航企业提高营业收入与服务水平所面临的挑战。所以,只有通过对旅客的订票次数、订票人数、目的地等数据进行分析,才能寻找到高价值的旅客,从而进行下一步的开发计划。
我们认为,民航大数据首先要实现旅客多渠道信息整合、身份识别、消费偏好分析,为航空旅游企业提供精准营销、个性化推荐服务,提高航空公司全网转化率、延长旅客生命周期,从而帮助提高航空旅游企业的核心竞争力。
首先是旅客洞察,记录与收集旅客的行为属性数据,刻画旅客360度全息视图;洞察旅客行为习惯,改进产品或服务;学习旅客消费偏好,制定个性化产品及产品组合策略;把握产品生命周期与旅客生命周期、精准营销、针对性处理。
其次是社会化媒体营销,对网络舆情进行监控、挖掘客户对品牌的反映,对旅客身份进行识别,包括群体分布(地理、年龄、性别、兴趣等)和影响力传播。
第三是旅客定制行程图,通过大数据平台的支持,旅客只要登录航空公司网站,填好出发地、目的地、出发日期和人数、费用预算等信息,平台通过分析消费者以往消费行为,生成分析报告,比如旅客的消费档次如何,为游客提供个性化和高品质的旅行服务。