荣之联基于Greenplum的数据仓库和BI解决方案

2015-11-10 09:11
浏览量: 收藏:0 分享

  解决方案综述

  荣之联基于Greenplum的数据仓库和BI解决方案旨在为新一代数据仓库和大规模分析处理功能提供支持。它支持SQL和MapReduce并行处理功能,不仅具有业内最佳性能,而且也为管理万亿到千万亿字节数据的公司提供了低成本方案。通过部署该解决方案,您的企业可以实现:

  一、 经济的千万亿字节扩展功能

  1、很容易创建一个任意规模的数据库,并不断扩展;

  2、可以采用廉价商用硬件进行线性和经济的扩展。

  二、 执行海量数据并行查询功能

  1、可以比以往更快地获取查询结果 - 通常比传统方案快10到100倍;

  2、随着数据规模不断扩大依旧能够保证高性能。

  三、 统一的分析处理功能

  1、查询、机器学习、文本挖掘、统计运算等的公用平台;

  2、可以通过SQL、MapReduce、R等功能在各个层次上对任何数据进行并行分析。

  客户面临挑战和解决方案的商业价值

  客户面临的挑战

  在当今的商务环境中,所有重要的组织运营都离不开数据业务。每个用户的每次点击、来电或者交易,抑或其它商业活动都会产生数据,这些数据对汇集企业业务知识大有裨益。企业可以通过这些数据获得洞察力,从而更好地了解其客户、发现问题、提高运营水平、降低风险、或者创造商务价值。

  企业如果希望有能力实施和普及多种商务战略,就必须详尽无余地存储和分析数据。加之考虑到数据保留期越来越长(5-7年或更长),也就不难理解为什么数据量会每年增加1。5到2。5倍。除了数据规模的急剧增加外,企业借助数据进行商务分析的深度和复杂度也只会有增无减。

  当今的数据仓库解决方案通常是借助通用数据库(比如Oracle)或基于硬件的专用平台(比如Teradata、Netezza)而创建的,而这两种方案都不能从根本上解决当今(以及未来)数据驱动型社会所面临的挑战。

  通用数据库(比如Oracle)是针对OLTP处理功能设计的,在运行大量小规模交易查询数据时效果最好。从结构上来说,他们采用了"完全共享"或"磁盘共享"体系(图1)。"完全共享"体系局限于单一服务器(通常是价格比较昂贵的SMP服务器),其扩展性和性能受到相应的限制。"磁盘共享"体系(比如Oracle RAC)允许系统带有多个服务器,这些服务器与SAN或其它共享存储设备相连。这种体系需要通过一个狭窄的数据管道将所有I/O信息过滤到昂贵的共享磁盘子系统。(请注意在"完全不共享"体系中,对每个使用直接相连磁盘的节点来说,其I/O带宽都近似等于通往共享磁盘子系统的数据管道)。实践证明:这些通用磁盘共享体系复杂、脆弱,在处理万亿字节数据时难以胜任。

  图1 - 数据库体系类型

  在"完全不共享"体系下,在主机上规划查询项目,并将其分成若干部分在集群上并行执行,所有通讯功能都在一个高宽带网络互连体系上实现。这种体系的一个重要优势就是每个节点都有一个通往本地磁盘的独立高速通道,从而简化了体系,并提供扩展性很好的并行扫描和查询处理功能。

  而Teradata、Netezza是基于硬件的 "完全不共享"体系,它们需要价格昂贵的专用硬件,从而显著增加了采购和总体拥有成本。

  基于Greenplum数据仓库和BI解决方案的价值

  Greenplum是基于软件的海量数据并行操作的"完全不共享"体系,可以帮助客户创建数据仓库,充分利用低成本的商用服务器、存储和联网设备,通过经济的方式升级到千万亿字节的系统。

  Greenplum的数据引擎是一种软件解决方案,旨在为新一代数据仓库和大规模分析处理功能提供支持。它支持SQL和MapReduce并行处理功能,不仅具有业内最佳性能,而且也为管理万亿到千万亿字节数据的公司提供了低成本方案。

  Greenplum数据引擎的"完全不共享"体系将实际的数据存储设备分成一个个区段服务器上的小存储单元,每个单元都有一个连接本地磁盘的专用独立的、高带宽通道。区段服务器可以通过完全并行的方式处理每个查询,同时使用所有磁盘连接,并按照查询计划的要求在各区段间实现高效数据流动。因为"完全不共享"数据库会自动分配数据并在所有可用硬件上并行执行查询任务,所以在处理BI和分析任务时性能远远超过了通用数据库系统。

  解决方案架构

  本方案利用Greenplum的数据引擎并根据客户的业务需求设计:(1)系统逻辑架构;(2)安全架构;(3)ETL数据转移;(4)管理架构。Greenplum数据引擎的核心是并行数据流引擎,它是真正执行处理和分析工作的部件。并行数据流引擎采用优化的并行处理基础构架,对来自磁盘、外部文件或应用程序、或gNet互连体系上其它区段的数据进行处理(见图2)。该引擎具有与生俱来的并行操作机制 - 它涵盖Greenplum集群的所有区段服务器,并可以高效的扩展到上千个的商用处理内核。

  图2 - 在服务器上操作的并行数据流引擎

  该引擎是根据超级计算机的原理来设计的,将大规模数据视为具有一定的"重量"(也就是不容易移动),对数据的操作应该尽量靠近数据就地处理。在Greenplum体系中,这种关联机制效率非常高,海量I/O带宽直接与每个区段上的引擎相联系,因此可以将各种复杂的处理功能尽可能推进到数据附近,进而实现最高的处理效率和令人难以置信的表现。


标签:

责任编辑:管理员
在线客服