前言:
大数据是一个事关我国经济社会发展全局的战略性产业,大数据技术为社会经济活动提供决策依据,提高各个领域的运行效率,提升整个社会经济的集约化程度,对于我国经济发展转型具有重要的推动作用!2016年,由中国首席数据官联盟与网加时代网发起并承办,北京大学信息化与信息管理研究中心、中国新一代IT产业推进联盟、数邦客协办的"影响中国大数据产业进程100人"大型人物专访活动全面启动,被采访对象分别来自政府、产、学、研、企各个领域,他们将从不同角度,不同层面向大家阐述当前大数据产业热点、难点、疑点问题,为中国大数据产业健康、持续发展探索经验、保驾护航,敬请关注!
第二十五期专访人物:中国首席数据官联盟专家组成员,永洪科技创始人CEO何春涛
何春涛,中国首席数据官联盟专家组成员,永洪科技创始人CEO。
本期特邀嘉宾中国首席数据官联盟发起人刘冬冬,就敏捷BI向何春涛先生发起提问。
刘冬冬:目前各个行业都面临一个海量数据的问题,您认为如何才能在海量数据中提取出商业价值?
何春涛:每个行业面临的数据价值其实都是不一样的,这没有一个标准答案。从商业价值上考虑,应该围绕自己的核心业务、结合线上线下的多元数据,收集、存储并消化自由的大数据,分布打造有价值的数据应用。我只能从我个人以及用户对大数据的使用和理解方面谈谈看法,基本可以分为以下几类:
大数据运维,比如说电信的流量控制监控系统,把他们所有的基站互联网数据收集上来进行监控,这样通过把运维搞起来,业务能更好的运行。
企业洞察力,比如说我们可能会在大数据平台的前后增加数据分析功能,通过静态的KPI来看业务,这时候我们数据的价值并没有很好的利用起来,导致我们企业的洞察力比较低,我们通过结合大数据和分析技术,去更好的、更深化的把我们的数据利用起来,这样我们就不再是静态的,我们可以动态的按需在一定的广度和深度和对我们数据进行挖掘,增强企业的洞察力。
将数据作为原料,比如我们以前上决策,这种分析报告我们一般都会让IT部门去做,这时候一般都需要一两周,而且IT部门的工作本来也比较多。如果我们结合一些实时大数据的技术,比如说离线计算、在线计算等等,我们就可以实时、快速的把这些分析报告拿走,可以提升我们决策的能力。这点艾瑞就做的很好。
新的商业模式,比如说广电行业有很多的资源,比如像广播、电视台,并且还有很多大家耳熟能详的主持人、明星,他们做的事情是什么呢?他们会跟银行共同的去策划,做发卡,发完卡之后,通过它们的媒体资源组织大家进行各种各样的消费比如我喜欢玩,比如我喜欢购物就做购物的线路,然后再通过它的主持人、频道推荐给各个商家。他做完之后把所有链条上的数据收集回来。收集回来之后就跟商家做各种的优化和谈判,包括我们前端的银行做优化和谈判。
刘冬冬:在从数据在价值呈现这个过程中,商业智能分析是很重要的一环,您怎么看这个市场的发展?
何春涛:全球商业智能与分析市场的整体份额继续扩大。根据当前Gartner对该领域的年度综合增长率的预计,市场增长率可能维持在2014年的5.8%,直至2019年。
然而,伴随着购买模式和需求的变化,不高的增长率反映了一个处于转变过程中的市场:购买决策持续从IT部门的领导转换为业务线的领导和用户,他们需要更敏捷和更灵活的个性化选择--新准则是先落地再扩展。现在与以往那种带动企业两位数增长的大规模的企业级交易截然不同,那时的IT部门掌握更多的预算,并对采购决策施加着更多影响。
在如此快速进化的市场中,带动商业智能与分析市场新增长的主要驱动力,正受到以下因素的影响:
新供应商持续出现,使得市场上有更多创新的产品供买方挑选。在以后几年,买方将从关注那些提供新型BI和分析产品的供应商中获益,他们有充足的机会去投资那些进入市场的创新产品。如果买方需要试运行大量的创新产品以及大量的供应商参与到POC验证中,随着时间累积,其不利之处在于机构可能面临技术负债--作为多个独立解决方案所体现出的商业价值急速转变为缺少对设计、实施和技术支持足够关注的产品部署。在这个快速进化的BI市场中,机构需要形成正确策略和参考架构,用于评测各种可选的产品,以此降低他们的技术债务,从而避免在未来产生较多的返工和再设计的问题。
随着越来越多的用户驱动的数据分析平台得以部署,监管需求正持续增长,这将触发IT部门以新的形式介入其中。最初,当市场转变时,业务用户感觉到有能力绕开IT部门通过自主采购的方式去使用能够填补他们业务缺口的BI产品。随着时间的推移,产品部署持续扩大,用户变得越来越多,使用场景变得越来越复杂--业务用户与IT部门的合作又将重新展开,他们会协同开发出敏捷的流程去支持自服务数据分析的需求,即通过适度的企业级管控,去确保恰当而负责任的使用范畴。这将促成自服务数据准备结合探索式分析产品的场景,提供敏捷而集中的使用方式去成功地替代传统的使用方式,旧的方式往往缺乏敏捷性,而且也不支持IT部门与业务用户间的协作开发。这与在这个行业多次发生的"钟摆"现象相吻合,在这个行业,最终用户的实践最终将转向以IT为中心的方式的另一极端。在业务用户生成的内容急剧扩张的背景下,对监管的需求正在使钟摆回归至更注重企业级管控和协作的中间地带。
市场对智能的探索式分析的了解和接纳会让探索式分析获取到更广泛的用户群体,新产品触及的范围和影响力也会随之增加。在不需要建模和写算法以及查询的前提下,这些新出现的功能让用户能从越来越多的、复杂的、多结构化的数据集里发现大量的隐藏模式。除了探索式分析,通过交互的可视化、搜索和自然语言查询等技术,业务用户和分析师还能从深度分析中直接获益(高亮和可视化诸如重要发现、相关性、集群、预测、异常值、反常、关联、趋势等结果)。有些工具还会为用户说明分析结果,例如生成自然语言的文本去突出显示模式和阐释洞察。这样可以减少发现洞察的时间,也节省了手动探索和手动建模的时间开销和专业技能要求。探索式分析并非替代了高级数据分析师和数据科学家,而是为他们增加了一群公民数据科学家。这些公民数据科学家帮助他们产生了更多的设想,再随之开展更细化的探索,数据学家可以帮着确认最终结果。
机构从持续增长的多结构化数据源中融合和获得洞察的需求,将推动智能的自服务数据准备和智能的探索式分析领域的持续创新。市场需要更加强大的软件功能,包括自动提取、推论、浓缩和创建搜索索引访问新数据源。以手动方式去完成这些工作将会难以匹配数据多样性和复杂度的增长,随着时间的推移这种增长将是指数级的。同时,通过自动的模式探索和洞察发现,机构可以扩大分析规模,也可以让更多的用户群体可以受益于分析洞察功能。
通过自然语言查询,基于搜索的探索式分析将让更多的用户获益。由于BI和分析平台对自然语言查询支持得越来越好,更多的非技术用户能以对话提问的方式来分析数据,新用户将更有可能参与到利用探索式分析中。业务驱动的自然语言查询需要底层的基于多结构化数据的搜索功能,这一领域的进展将不断提升该功能的易用性和可信度。
市场将不断扩张且更加成熟,这将为机构创造更多的机会去购买或销售分析应用。一个活跃的市场可以让买家和卖家汇聚起来交换分析应用、聚合数据源、自定义可视化和算法,这将增加对BI和分析领域的需求,并推动其未来的增长。成熟起来的市场将为BI供应商们提供新的销售渠道,基于他们平台的分析应用可以在自有的渠道和合作伙伴的渠道销售。这一成熟市场的主要好处在于这是一个面向终端用户的市场,他们几乎可以获得想要的任何分析应用,以用于内部解决方案和流程的开发。
为更好地支持物联网,机构需要支持实时动态和流数据抓取。为了使机构能处理在这个互联世界中由设备、传感器和人产生的大量数据,机构必须在捕捉和加工这种数据上进行投资。BI和分析市场的竞争者们也需要在类似方面进行投资--让买家在同一平台中合并实时动态和流数据以及其他来源的数据,去开发新一代的具备很大影响的分析应用,让用户能利用这种实时洞察能力。
刘冬冬:商业智能发展过程中,有观点认为现在已进入敏捷BI时代,您怎么看?
何春涛:对于一家以数据化运营驱动的企业来说,大数据分析无疑是很有价值的东西。但一般而言,大数据分析过高的技术门槛和使用成本,往往又让企业对这类东西敬而远之。即使是技术成熟的企业,独立开发一个大数据分析系统经常也需要半年以上,且开发完成后的使用过程还是十分痛苦:由于业务上的分析需求总是在变,每次改变某个指标的计算公式、分析维度的组合时,都要技术人员花几周时间修改系统和程序。分析能力的滞后将拖累业务进程,无法满足企业敏捷决策的需求。
现在,有条件让任何企业在一天内搭建并运行大数据可视化分析。永洪科技提供的敏捷型大数据分析工具,可以实现 5 分钟一键安装、5 分钟快速数据源配置以及 5 分钟报表设计,大部分的业务分析需求变化,都可以在一天内得到响应。从使用门槛来讲,永洪的绝大多数操作体现为点击和拖拽,即便是零技术背景的业务和运营人员,也可以独立、自助式地完成大数据分析。
刘冬冬:这种变是不是说明BI平台实际用户在发生变化,不再只是IT门了,那在您看来谁才是BI平台的的深度用户呢?
何春涛:是的,如果在6年以前,那确实还是IT部门。因为那时候,BI系统的投资和建设大多由IT部门主导,这些项目的特点是高度可控、高度中心化,而最常见的工作流程是:IT部门负责编制出生产报表,再推送给消费者和分析人员查看。
到了今天,情况已经卓然不同。Gartner在《2015年BI魔力象限》中,写道:"虽然交互式分析平台被认为是IT-centric BI平台的重要补充,但在2014年新的分析项目大多都采购了前者而不是后者。这导致用户基数很大的传统BI厂家正在被逐渐边缘化,他们不能提供有竞争力的产品,也就无法保持增长。"
Gartner调查结果还发现,越来越多的企业倾向于以更大的平台规模部署交互式BI平台,但这些产品在企业级监控、管理、扩展性等方面还有欠缺,主打商业用户的BI厂商正在持续补足这些功能。
引起这一巨大变迁的根本原因是什么呢?
大约三年前,Forester在研究报告中写道:"迄今为止,打造了传统BI平台的企业,有83%的用户没有用这一平台做数据分析,而是继续使用Excel等其他工具做数据分析。"
传统BI平台试图以静态报表查阅和周期性报表推送的方式,满足大量的商业用户对数据分析的需求。在这样的工作流程下,以前,一旦商业用户有新的数据分析需求,就只能求助于IT部门,经过需求调研、ETL和数据建模、对汇总维度和指标的组合进行预先汇总、之后再制作报表,最终才把结果呈现给商业用户。这一过程要引入很多人,经历很多环节,花去一周甚至一个月的时间,还很难正确回答商业用户的问题。
因而,大量商业用户迫切要求进行交互式分析。他们只有非常有限的IT或数据科学技能,但希望通过数据分析快速获取数据洞察力。
这符合事物认知的一般规律,在面对一个商业问题的时候,人们很难通过呈现一个静态报表就锁定问题。相反,人们往往会从各种角度去对维度和指标进行组合,以各种有意义的可视化手段进行即时呈现,借助各种交互式分析和深度分析方法,才能找到正确的答案。
2014年,永洪BI有幸参与并见证了这一历史性转变,已经为上百家企业客户提供了交互式分析平台。在这些客户当中,国内最大母婴社区宝宝树将永洪BI用于社区数据分析,主要用户就是业务人员,业务人员通过行为数据和搜集到孩子年龄、孕产期等关键数据,给用户做出精准画像。积累关键数据后,业务团队会更进一步的分析。比如上周有多少新用户?推的新品收入怎样?上月的新用户这个月的购买表现如何?用户的平均回购周期相对环比是缩短了还是延长了?各渠道引流占比有何变化?……通过对这些问题的回答,他们就知道要怎么制定产品和销售战略。
中信银行则将永洪BI用于构建指标分析系统,主要用户同样是业务人员,各层级的业务人员能快速方便地查询管辖机构的指标数据,随时随地了解存款大额变动等关键业务变化。一旦发现问题,业务人员将直接在永洪BI平台上发起交互式分析,直到找到答案并及时采取行动。
我们欣喜地发现,中国企业的治理水平正在快速提升,已经不断地靠近发达国家的企业,很多企业甚至超越了他们。在选择BI平台时,越来越多国内的行业的领袖企业已经将交互式分析平台作为首选。2015年,交互式分析平台在国际市场已经成为了BI平台采购的主流,而在国内市场,人们也已经健步迈入数据民主时代。
在数据民主时代,IT用户已经转向更专业的数据准备、系统级监控,以及高级建模和分析。而商业用户,成为了BI平台的深度用户。
刘冬冬:当前BI的企业服务模式有On-Premise、SaaS、Mixed三种,在您看来哪种更有优势?对于企业应该如何选择?
何春涛:目前,很少听说一线大数据分析厂商是纯SaaS模式。基于线上数据做大数据分析的厂商往往是SaaS模式,目前大部分收入来自于SaaS模式,少部分收入来自于定制化开发服务;基于线下数据做大数据分析的厂商往往是Mixed模式,在目前大部分收入来自于On-Premise模式,少部分收入来自于SaaS模式和定制化开发服务。
关于基于线下数据做大数据分析的厂商的生存状态,我做了一个简单的调查:选择Mixed模式的Qlik和Tableau因为业务快速发展,在两三次融资之后便完成了上市,且后者上市之后的年复合增长率长期保持在80%以上。而选择SaaS模式的Birst和GoodData融资到了E轮还没有完成上市,业务规模较之前者也小了很多。
为什么会这样呢?大数据分析的原料是大数据,而大多数企业目前的私有云数据远大于公有云数据。数据已经成为成业的核心资产,企业级架构下的安全管控也成了重中之重。
另外,如果企业选择将数据传输到云端SaaS平台进行分析,基于现有的互联网基础设施条件,数据传输又是个巨大的问题。简单地举个例子:如果上传速度是20Mbps,假设整个过程顺利的话,将1TB数据上传到云端大概需要5天。
在这样的条件下,大多数企业的明智选择是:大数据在哪里,大数据分析就在哪里。因而,对于有云端大数据分析需求的客户,Yonghong、Qlik和Tableau会引导客户使用其云端SaaS平台。这种Mixed模式是On-Premise和SaaS模式的升级版,即同时提供On-Premise和SaaS两种服务,再通过技术手段打通On-Premise和SaaS,连接线下数据和线上数据,以最大化数据的价值。
未来,有两种力量会持续提升云端SaaS平台的收入占比:
1)公有云数据将持续增长,10年以后云端数据也许会超过50%。在那时候,大数据分析厂商的云端SaaS平台的收入占比将随之升高。
2)互联网基础设施条件得以大幅改善,数据传输效率得以大幅提升,打造基于云端的纯SaaS平台成为一种可能。这时候企业将第一次有机会把企业级数据仓库构建在公有云,但那时候公有云和私有云之间的边界已经不存在,混合云成了企业级计算的新常态。
artner VP Robert DeSisto曾说过,市场上对于SaaS模式充斥着许多假设性想法,其中有的想法是正确的,有的想法是错误的。他呼吁企业要谨慎检视SaaS的真实面目,因为有许多客户基于这些错误的假设,便决定部署SaaS方案。
在这份名为"事实检视:五个SaaS最常见的假设"报告中,Gartner提出了五个关于SaaS最常见的假设,供业界作为参考:
1)关于SaaS较传统就地部署(On-Premise)模式成本较低,Gartner认为,因为不需要高额的资本投资来采购软件或建置基础架构,选用SaaS模式的前两年的确成本较低。但就第三年以后的软件拥有总成本来看,还是On-Premise模式较低。其中的原因之一是因为会计原则将On-Premise软件视为固定资产,可折旧摊提。
2)Gartner亦警告说,部署SaaS的速度也不一定较On-Premise更快。虽然软件厂商报价说30天是标准的建置时间,但事实上,有些软件可能花上数个月的时间。因为随着企业流程与整合度的复杂性增加,部署SaaS与On-Premise软件所需的时间差异会越来越小。
3)若假设真的会以使用量来计费,那也是错的。Gartner表示,在大部分的情况下,企业还是会被要求签署固定费用的先期合约。
4)业界同时也低估了SaaS的功能性。一般都认为,SaaS无法与On-Premise应用程序或数据源整合。但事实上,透过批次同步化的方式,先将数据加载SaaS应用程序中,然后再定期更新,或使用网络服务进行实时更新,都是可行的方法。5)SaaS不是只能符合简单、基本的需求。Gartner表示,SaaS应用程序在Metadata层级是高度客制化的,可透过应用程序平台服务(APaas)的方式来实现,业界也有许多实际建置的范例。不过,对于复杂、端到端企业流程的管理功能来说,SaaS还是有其限制。
当前的On-Premise采购大多被会计原则视为"固定资产",而SaaS采购大多会被会计原则视为"服务"。
我的经验是:这种混淆技术模式与商业模式的方式,让企业级客户在做选型时很难有最优选。相信,越来越多的大企业将会对On-Premise和SaaS形成统一的会计原则。这意味着在不久的将来,技术模式与商业模式将彻底分开。不管是公有云部署还是私有云部署,厂商都可以采用SaaS收费模式计价。