细想一下,不久的将来,当我们享受畅快的自动驾驶、便捷的智慧医疗、超乎想象的AI服务时,背后是什么支撑了这一切的实现?毫无疑问,数据是一项关键要素。
智能时代,数据已成为生产资料让智能无所不及。所以,怎么挖掘数据潜能、释放数据价值变得格外重要。在正在进行的数字化浪潮中,虽然已经产生了巨量的数据,但却是处于粗放式利用的阶段。而下一阶段,是围绕数据进行智能化、精细化耕耘的阶段,它决定了是否能够发挥新生产力效用的关键。
两个月前,华为发布全面的计算战略,并打造“一云两翼双引擎”的产业布局。作为其中关键一翼,今天,华为宣布全面启动数据基础设施战略。
数据基础设施可以视为华为面向数字经济时代打造的“新基建”,就像石油的“采-运-炼-储-用”是工业经济的核心命脉一样,面向海量数据的“采-存-算-管-用”是支撑数字经济运行的基础能力。通过构建“融合、智能、开放”的数据基础设施,它将进一步激活数字化发展活力。
当然,华为将数据基础设施提升至战略级高度的原因还在于,同与其紧密相关的算力一样,数据基础设施也正迎来变革浪潮。
数据基础设施之变
数据基础设施变革可以总结为三个方面:存的问题、算的问题和用的问题。
首先以数据的“存”来说,根据预测,全球数据量将从2018年的33ZB快速增长到2025年的180ZB。但是,产生的数据中仅有不到2%被保存,而被保存的数据中仅有不到10%被应用。以深圳举例,城市中共有超过200万摄像头,每天将生产80PB数据,平均保存30天,未来显然关于存储的需求不仅于此。所以,让数据存得下是数据基础设施变革的第一个体现。
其次以数据的“算”来说,传统数据基础设施存在围墙,这包括算力墙、网络墙、介质墙等。以算力墙举例来说,由于各个存储系统的CPU能力,仅供本系统使用,无法将算力资源共享使用,形成各存储系统之间的“算力墙”。未来的数据基础设施要求是“以数据为中心”的计算,也就是说需摒弃数据的差异化,用一个数据湖,支持上层各种计算模式、计算工具,如spark、Hadoop、MongoDB、Tensorflow等,从而降低存储成本、提升数据计算效率。
第三以数据的“用”来说,随着业务类型日益增多,大量业务需要跨平台、跨数据源协同分析,这时找数难、取数难、用数难成为一个难题。例如,多业务分析需要多引擎协同,这将依赖多种数据访问技术,就需要开发人员掌握多种开发工具和语言,显然这对开发门槛和开发周期形成了挑战。
推倒墙以融合、智能、开放构建新型数据基础设施
智能时代,到底该如何定义数据基础设施?
拥抱数据基础设施的变革浪潮,迎接数据黄金时代,华为给出的答案是:融合、智能、开放。
华为Cloud & AI产品与服务总裁侯金龙表示,“面向鲲鹏计算产业,华为全面启动数据基础设施战略,我们希望对数据的采、存、算、管、用实施端到端的整合和优化,让数据在全生命周期内好用,数据的每比特发挥价值最大,数据的每比特成本最优。”
华为数据基础设施包括数据存储、数据处理、数据管理系统、数据虚拟化引擎等,通过融入融合、智能与开放特性,数据基础设施的价值得以提升,具体来看:
融合:通过10余年技术积累和创新,华为在存储、数据库和大数据技术上实现了一系列突破。传统来说,数据基础设施存在4堵墙,这包括存储内部系统墙、数据库与存储链路墙、大数据与存储配置墙、数据库与大数据协同墙。现在,华为将这4堵墙打破,让数据融合更彻底。
通过打破存储内部系统墙,以一套架构实现生产、分析、备份、归档统一管理,一份数据在各个系统中平滑流动,减少拷贝,TCO降低30%以上。此外,通过采用存算协同、算子下推、融合分析等技术,实现了数据访问和处理性能提升2倍、数据0搬迁、分析效率提升100%。
智能:从原有依靠人来完成设备配合和运维,到融入智能基因,华为基于AI芯片、存储和华为云的三层架构,通过云上训练和云下推理,让系统越用越快、越用越省。
众所周知,华为打造了“昇腾”与“鲲鹏”双引擎,以此为依托,前者助推实现自动学习和识别IO流,提升Cache预取命中率,系统整体性能提升20%;后者可根据不同的数据类型,助力实时优化数据缩减算法,TCO降低25%。此外,华为云还进一步提升了数据基础设施的智能特性,例如提前14天预测硬盘故障、提前60天预测性能瓶颈、提前365提案预测容量不足,并让30%的故障可自我修复。
开放:像使用数据库一样使用大数据是每一个企业追求的目标,为此,华为重磅发布数据虚拟化引擎HetuEngine(河图),这是业内第一个商业性的数据虚拟化引擎。“大禹得河图后始见清明”,大禹通过河图掌握河流山川复杂的地形地貌,顺利完成治水大业。河图引擎,向上接入海量应用,向下接入海量数据,通过一个标准、统一的接口,降低了客户和合作伙伴接入数据基础设施的复杂度。
侯金龙指出,河图引擎具备四大核心能力:“一个目录”构建1000+异地异构数据源全局虚拟数据视图;“一个入口”实现30种异构数据源统一SQL访问;“一份数据”实现多场景分析,多应用共享,数据0搬迁;“统一安全”实现异地异构数据源集中式安全配置与管控。
拥抱数据基础设施变革,华为对于开放的决心并没有止步于此。为了更好地发展数据产业,华为还宣布开源河图引擎,称为openHetu,并将于2020年6月上线。华为将开源内核,开发者可以基于开源代码进行定制,包括数据源扩展、SQL执行策略等,实现应用快速对接,提升开发效率。
可以说,openHetu让生态体系中的利益主体通过建立产业链间高效的协同机制,形成良性互动的有机合作关系,将推动产业的持续扩大。
三大数据应用场景重新定义
进一步来说,如果融合、智能、开放是华为重构数据基础设施的核心理念,那么在产品方案层面如何去承接这一理念。
在华为智能数据与存储领域总裁周跃峰看来,当下数据基础设施主要包括三大场景,生产交易场景、智能数据湖场景和边缘场景,针对这三大场景,华为分别推出了不同的解决方案,这包括OceanData、FusionData和FusionCube 2.0。
OceanData的目标是重定义生产交易基础设施,其采用一套架构同时解决了极致可靠和极致扩展,通过打破数据库与存储壁垒,大幅提升效率。同时,华为把GaussDB和OceanData深度融合起来,采取存算分离、算子下推、100GE RoCE等技术,让业务查询效率提升10倍。
FusionData重定义数据湖基础设施,通过融入鲲鹏、昇腾等多样性的计算到存储和数据库中,华为将数据库和大数据融合起来,并以融合分析和算子下推技术,打破数据孤岛,使分析效率提升100%,TCO节省20%。
在整个重定义数据湖基础设施的过程中,河图引擎发挥着关键作用,“不同于数据中台理念,华为希望真正打造一个数据平台,践行’平台+生态‘战略,让伙伴能够像使用数据库一样方便地使用大数据,这将有利于创造共赢的生态环境。”周跃峰强调说。
FusionCube 2.0重定义边缘基础设施,一台设备集成计算、存储、网络、安全、人工智能,全栈集成,即插即用。并且具备极简、智能运维等特性,通过实现云边协同,云上利用大数据特征进行算法训练,算法模型在边上推理和执行,以此实现AI算法永新,进而让边缘充满智慧。
总之来说,无论是打造打造融合、智能、开放的数据基础设施,还是重新定义数据应用场景,华为让数据使用更简单。通过破解传统上数据存不下、流不动、用不好的难题,华为让数据价值得以更低成本、更高效率的展现。
更重要的是,华为以打造开放产业生态的视角投入计算和数据基建,这将催生中国自己的IT产业生态,让中国IT产业迸发新的活力。