1.1 方案综述
荣之联大数据平台解决方案旨在为具有建立大数据平台需求的用户搭建最新技术架构的大数据平台解决方案,为用户提供大规模数据分析模型、海量数据存储和挖掘,同时为用户基于大数据平台应用提供支持。它支持SQL和MapReduce并行处理功能,不仅具有业内最佳性能,而且也为管理从GB到PB级别数据公司提供了低成本方案。通过部署该解决方案,可以为企业实现:
大量结构化数据的存储与复杂分析
海量非结构化数据的抽取,清洗,存储与分析
不同种类的信息孤岛资源整合
不同种类的数据整合
海量数据分析,不同种类数据的联合分析
海量数据挖掘
领导决策分析
风险预警
智能查询与搜索
1.2 总体技术架构设计
大数据平台的数据来源自多个方面,包括内部数据来源以及未来可能第三方数据接入。各类数据的来源方式多样化,包括关系型数据库数据、数据仓库数据、实时数据、文件数据、图片数据等。面对于多种数据接入的需求,大数据平台提供多种针对性的接入方式以及工具,通过分布式消息队列Kafka接入实时数据;通过Sqoop全量或定时增量抽取同步关系型数据库;采用Kettle作为数据抽取管理工具,Kettle提供图形化的界面定义数据抽取规则,并可与其他工具相结合,完成数据抽取的工作流;同时,分布式文件系统HDFS通过FTP Over HDFS提供文件通过FTP传入HDFS的通道;通过Flume提供海量日志文件的聚汇到HDFS的功能。
在数据存储层中,底层为统一分布式存储HDFS,HDFS采用三份副本策略保证数据的安全性以及可靠性。然而,随着时间的推移,很少被使用到的归档历史数据会越来越多,占用大量的HDFS存储空间,HDFS通过Erasure Code技术将历史冷数据在保证数据安全可靠的基础上降低其存储开销。在HDFS之上提供分布式NOSQL(Not Only SQL)实时数据库 Hyperbase为高并发检索分析以及事务支持提供平台级支撑。Hyperbase通过多种索引支持海量数据多维度的秒级检索查询,包括全局索引,全文索引,组合索引等,另外Hyperbase与Titan相结合支持图数据库。在平台存储层,支持各类结构化、半结构化、非结构化海量数据的低成本存储,为超长时间的海量历史数据存储和使用提供基础支撑。并通过Hyperbase对于海量数据高并发低延时的检索能力,很好地支持移动互联业务场景的数据访问需求。
在数据存储层之上的数据计算层通过YARN提供统一的资源管理调度,可以动态创建和销毁集群,灵活部署业务。采用Inceptor内存计算分析能力为各个应用提供高效的分析挖掘能力。在Inceptor中,通过独立的分布式内存列式存储Holodesk,解决开源Spark的稳定性问题以及进一步提供交互式分析能力,同时为了降低平台建设成本与提高平台内存分析数据量,分布式内存存储可建在内存或者固态硬盘SSD上。利用Spark高速内存迭代计算的优势,通过内置的基于Spark计算框架的基础并行统计算法库以及机器学习算法库,为大数据平台提供高效的数据挖掘能力。同时,保留传统的MapReduce计算框架,完整大数据平台对于各个计算框架的支持。此外,实时流数据通过Spark Streaming支持实时数据的低延时高吞吐的处理。通过消息队列Kafka消费实时数据流,做到数据不丢不重,基于Spark Streaming提供类似于批处理系统的计算能力、健壮性、扩展性的同时,将数据时延降低至秒级,适用于各种实时数据的复杂处理业务场景。
在数据分析层,通过Inceptor对存储在HDFS、Hyperbase以及分布内存缓存Holodesk上的数据进行统计检索分析,并为数据服务层提供JDBC/ODBC接口,同时为了降低数据平台学习与使用成本,方便传统业务迁移,Inceptor兼容支持SQL2003标准以及PL/SQL。对于数据挖掘,在分析层,提供可视化的挖掘建模设计工具Rstudio,使用R语言进行交互式数据挖掘与统计分析,挖掘数据深度规律并建立数据模型。同时支持Mahout,利用Mahout中丰富的并行化机器学习算法对海量数据进行分析挖掘。
在数据服务层,通过数据存储层、计算层以及分析层提供的接口,封装后提供多种数据服务能力,包括海量数据高并发检索查询,即席查询,海量数据交互式统计分析,数据可视化,实时数据比对异常检测告警,实时数据基于滑动时间窗口统计分析,海量数据统计挖掘以及数据平台中数据交换等。通过大数据平台对外提供的各种服务,在其之上实现各类应用,包括数据仓库、数据集市、数据检索、数据探索等。
此外,大数据平台通过安全通信协议和角色权限管理功能,在软件层面提供通信安全和数据访问安全的双重保障,有效的对各个部门以及下级单位的数据访问进行控制和安全管理,实现数据平台4A级(认证Authentication、账号Account、授权Authorization、审计Audit)统一安全管理解决方案。通过LDAP管理用户账号,使用Kerberos进行用户身份认证,同时大数据平台实现基于角色的访问权限控制(Role Based Access Control),最后所有的安全访问审计内容都会记录在数据平台的日志中。大数据平台中,从数据的接入,如分布式消息队列Kafka的Topic权限控制,到平台中的各个组件都支持安全管理,包括HDFS,YARN,Hyperbase,Inceptor等组件。同时为了重要数据的安全考虑,HDFS提供加密存储。
另外,大数据平台提供易用的管理运维工具,降低数据平台运维成本,包括集群的安装,参数的配置,节点的增删,服务的监控,资源指标的监控以及异常的记录与告警。
1.3 IT基础架构设计
针对大数据平台的底层IT基础架构,采用传统的物理服务器架构或者采用先进的云基础架构模式,可以动态的进行计算资源和存储资源的调整,从而增加IT基础架构的灵活性,同时可以更有效的为大数据平台提供服务。
具体IT基础架构图如下: