随着当今各类数据的数据量的爆炸式增长,海量数据的相关研究也开始备受关注。海量数据的特点是数据规模海量、数据价值密度低、数据类型多样。但在数据的分析过程中,要求能够高速有效地对数据进行处理,因此对数据的查询和分析提出了很高的要求。海量数据的查询、数据分析与数据建模技术的应用也应运而生。
接下来的两篇文章会逐个对数据查询、数据分析与数据建模技术进行侧重简要的介绍。
数据查询即为数据检索,针对海量数据,对用户或企业所要求的数据进行查询,并返回结果。数据分析即对海量数据进行分析处理,总结数据中所蕴含的各种规律,使得海量数据的价值得以体现。数据建模是根据数据的特点对数据的存储形式及结构进行建模,使得数据的存储能够更好地适应需求,加快数据的处理速度。
数据查询:海量数据查询技术即为海量数据检索技术,对数据进行检索,方便用户快速有效地找到用户需要的数据。
海量数据是指巨大的、浩瀚的数据。随着信息化程度的提高,每一个现代人无不在充分感受数据应用带来的巨大变化。数据已由原始的形式逐渐丰富为图像、声音、视频等。现在,在许多行业中都需要操作海量数据,如电商、物联网以及其他部门。这些部门的数据至少达到了TB级。
在数字时代,海量数据的发展需要解决三个问题:海量数据的存储、海量数据的搜索以及商业智能。
海量数据的存储
数据中蕴藏着企业的财富,但由于数据的增长速度太快,因此首先要解决的是海量数据的存储问题。这种存储是企业信息化的基础架构,更多地定位在硬件方面。随着数据量的激增,客观上逼迫企业必须实施海量存储的解决方案,海量存储设备的不断更新为解决此问题提供了可能。海量数据的存储相关技术内容已经在前几章介绍过,这里不再赞述。
海量数据的搜索
如今,海量数据的存储已经提出了多种方案,包括众多云计算的开源项目。海量数据的搜索已经成为制约信息化进一步深化的瓶颈。目前具有一定信息化程度的企业都有自己的数据库,而利用数据库都可以实现查询。这就引出了一个“时间成本”的问题。当数据量达到一定级别,查询条件达到一定数量,同时有多人查询时,要从一个数据库中找到自己需要的数据通常就会花费,较长的时间,如果每天有大量时间花在数据库的搜索上,那就将造成高额的时间成本。
而如果要提高数据库的查询速度,就必须对数据库进行大量的索引配置并对硬件进行大幅度升级,这样又会造成设备成本的提高。因此,从应用的角度看,迫切需要一些新技术来解决海量数据的快速搜索问题。而海量数据存储的复杂性为海量数据的搜索提高了难度。实际搜索过程中要进行海量数据搜索不得不面对复杂的存储环境:庞大的网络环境,多样的存储介质,不同类型、不同格式的存储平台等。
商业智能
商业智能是指一种能力,通过智能地使用企业的数据财产来制定更好的商务决策。各种企业的决策人员以企业中的数据仓库( Data Warehouse)为本,经由各式各样的查询分析工具( Query Report Tools)、联机分析处理(OLAP)工具,或是数据挖掘( Data Mining)工具加上决策规划人员的行业知识( Industry Knowledge),从数据仓库中获得有利的信息,进而帮助企业获利,提高生产力与竞争力。
海量数据查询的难点
能干扰和破坏企业现有的数据结构和常规业务流程。
必须实现多约束条件、多数据源、多数据格式、多人同时的高效搜索,必须实现对硬件成本的良好控制,简化相关开发和性能优化过程。
从国内企业目前的信息化现状,特别是数据应用的状况来看,海量数据查询已经是信息化进步深入的瓶颈,也是未来商业智能发展的入门关。推动海量数据查询技术已经不是靠少数厂商销售他们的软件、硬件能解决的问题了,用户的参与和认可已经成为必需。要发展海量査询技术,可以借鉴其他重要技术的推广和普及方式,比如开放源代码、建立开源社区。开放源代码之所以能迅速普及,要归功于开放源代码协会。这些开源组织和社区是理论与技术发展的重要途径,也是目前技术人员最为青睐的发展方式。