对于传统企业内部,更多的应该是使用了大数据技术的传统BI平台,或者是融合了传统BI+大数据的混合平台,而不能单纯说是大数据平台。在谈大数据平台的时候,一味去否定传统BI是不合适的。
在没有和互联网打通的传统企业内部,更多接触的仍然是结构化数据,优先要解决的是围绕企业核心价值链的数据建模和企业战略,各业务域KPI体系的建立,决策支持和分析这些内容。在整个数据建模和分析过程中,还要考虑去解决数据不一致性,重复等问题,建立数据管控和治理体系。
传统BI平台在发展过程中会遇到问题和瓶颈,使用传统的技术架构无法解决,需要我们在传统BI技术架构的构建中引入大数据相关技术和工具,从这意义上更多应该叫使用了大数据技术的传统BI平台。
使用了大数据技术的传统BI平台
在数据存储和查询效率层面,传统BI遇到瓶颈,可以看到在大量的上千万即上亿数据量的结构化数据表中,要进行查询统计分析输出KPI指标性能下降非常明显。为了解决查询效率问题,有两个思路,一个是引入了MPP数据库来解决,一个则是引入Hadoop平台进行存储,虽然是结构化数据但是仍然引入Hadoop平台,重点是解决分布式存储和查询性能问题。
其次,虽然传统企业以结构化数据为主,但是仍然出现对大数据量的非结构化数据的采集和处理,这个时候我们可能引入了Hadoop平台,将数据采集,清理存储后最终还是再导入我们的结构化数据仓库。可以看到在这个过程中大数据技术解决了对非结构化数据的处理和整合问题。
融合传统BI能力的大数据平台
对于原来没有规划建设BI系统的企业,在构建BI系统的时候更多考虑的就是直接构建大数据平台同时完全融合传统BI应该具备的能力。即既保留了传统BI,又实现了远期对大数据平台和应用的扩展能力。
数据采集层-》数据存储层-》数据处理层-》数据整合层-》数据分析层-》数据展现层
数据采集:大数据在传统ETL基础上增加了对HDFS,非结构化数据,流数据,互联网数据的支持能力
数据存储:增加了HDFS,HBASE等数据存储方式
数据处理:传统BI在ETL过程中可以完成清洗,大数据平台是存采集不处理,处理用单独定制脚本。
数据整合:整合了结构化+非结构化数据,提供统一数据开放接口
数据分析:HIVE+Impala+Spark,大批量和即席交互查询能力并存
数据展现:传统的BI报表功能仍然适用,也可以引入大数据可视化技术
可以看到要融合传统BI能力,则数据整合层需要能够整合结构化数据和非结构化数据,同时提供统一的大数据开放能力服务接口。尽量让前端报表通过大数据服务接口获取数据以隔离底层大数据平台的数据源。即数据展现层和数据整合层通过服务层进行解耦和隔离。
如果企业已有传统BI平台,那么底层的BI平台可以共存,即可以将底层BI平台的ODS库或EDW数据导入到大数据平台进行存储和整合。大数据平台存储一定是混合存储模式,即有些通过Hadoop平台处理后的中间结果数据我们仍然导入到结构化数据库进行存储,遵从传统BI数据建模技术构建星型模型,方便后续对数据进行维度分析和上钻下钻。对于self service BI,我们仍然开放Hadoop平台原始数据接口能力。
一开始就构建大数据目标平台
如果企业在构建平台的时候,一开始目标就很明确是大数据类分析和应用,如采集海量的互联网数据进行某行业的客户行为分析,用户画像,同时结合企业内部经营数据进行针对性营销的辅助决策。那么一开始构建就会以Hadoop平台为主,同时兼容能够采集企业已有的结构化数据。
这类平台在构建过程中可以看到不会是传统BI数据建模和分析那套方法,而更多是新的大数据分析和挖掘技术,则完全可能是以Impala+Hive+Hdfs为主线,以Tableau,Qlic View为前段展现,通过R语言或KNIME进行数据挖掘和分析等。即脱离传统BI,大数据整套框架仍然是完整的。但是弱化了传统BI中的数据建模,数据质量管理,数据治理等方面的能力。