筑牢数字经济运行基础能力，怎能少得了数据“基建”_焦点

　　细想一下，不久的将来，当我们享受畅快的自动驾驶、便捷的智慧医疗、超乎想象的AI服务时，背后是什么支撑了这一切的实现？毫无疑问，数据是一项关键要素。

　　智能时代，数据已成为生产资料让智能无所不及。所以，怎么挖掘数据潜能、释放数据价值变得格外重要。在正在进行的数字化浪潮中，虽然已经产生了巨量的数据，但却是处于粗放式利用的阶段。而下一阶段，是围绕数据进行智能化、精细化耕耘的阶段，它决定了是否能够发挥新生产力效用的关键。

　　两个月前，华为发布全面的计算战略，并打造“一云两翼双引擎”的产业布局。作为其中关键一翼，今天，华为宣布全面启动数据基础设施战略。

　　数据基础设施可以视为华为面向数字经济时代打造的“新基建”，就像石油的“采-运-炼-储-用”是工业经济的核心命脉一样，面向海量数据的“采-存-算-管-用”是支撑数字经济运行的基础能力。通过构建“融合、智能、开放”的数据基础设施，它将进一步激活数字化发展活力。

　　当然，华为将数据基础设施提升至战略级高度的原因还在于，同与其紧密相关的算力一样，数据基础设施也正迎来变革浪潮。

　　数据基础设施之变

　　数据基础设施变革可以总结为三个方面：存的问题、算的问题和用的问题。

　　首先以数据的“存”来说，根据预测，全球数据量将从2018年的33ZB快速增长到2025年的180ZB。但是，产生的数据中仅有不到2%被保存，而被保存的数据中仅有不到10%被应用。以深圳举例，城市中共有超过200万摄像头，每天将生产80PB数据，平均保存30天，未来显然关于存储的需求不仅于此。所以，让数据存得下是数据基础设施变革的第一个体现。

　　其次以数据的“算”来说，传统数据基础设施存在围墙，这包括算力墙、网络墙、介质墙等。以算力墙举例来说，由于各个存储系统的CPU能力，仅供本系统使用，无法将算力资源共享使用，形成各存储系统之间的“算力墙”。未来的数据基础设施要求是“以数据为中心”的计算，也就是说需摒弃数据的差异化，用一个数据湖，支持上层各种计算模式、计算工具，如spark、Hadoop、MongoDB、Tensorflow等，从而降低存储成本、提升数据计算效率。

　　第三以数据的“用”来说，随着业务类型日益增多，大量业务需要跨平台、跨数据源协同分析，这时找数难、取数难、用数难成为一个难题。例如，多业务分析需要多引擎协同，这将依赖多种数据访问技术，就需要开发人员掌握多种开发工具和语言，显然这对开发门槛和开发周期形成了挑战。

　　推倒墙以融合、智能、开放构建新型数据基础设施

　　智能时代，到底该如何定义数据基础设施？

　　拥抱数据基础设施的变革浪潮，迎接数据黄金时代，华为给出的答案是：融合、智能、开放。

　　华为Cloud & AI产品与服务总裁侯金龙表示，“面向鲲鹏计算产业，华为全面启动数据基础设施战略，我们希望对数据的采、存、算、管、用实施端到端的整合和优化，让数据在全生命周期内好用，数据的每比特发挥价值最大，数据的每比特成本最优。”

　　华为数据基础设施包括数据存储、数据处理、数据管理系统、数据虚拟化引擎等，通过融入融合、智能与开放特性，数据基础设施的价值得以提升，具体来看：

　　融合：通过10余年技术积累和创新，华为在存储、数据库和大数据技术上实现了一系列突破。传统来说，数据基础设施存在4堵墙，这包括存储内部系统墙、数据库与存储链路墙、大数据与存储配置墙、数据库与大数据协同墙。现在，华为将这4堵墙打破，让数据融合更彻底。

　　通过打破存储内部系统墙，以一套架构实现生产、分析、备份、归档统一管理，一份数据在各个系统中平滑流动，减少拷贝，TCO降低30%以上。此外，通过采用存算协同、算子下推、融合分析等技术，实现了数据访问和处理性能提升2倍、数据0搬迁、分析效率提升100%。

　　智能：从原有依靠人来完成设备配合和运维，到融入智能基因，华为基于AI芯片、存储和华为云的三层架构，通过云上训练和云下推理，让系统越用越快、越用越省。

　　众所周知，华为打造了“昇腾”与“鲲鹏”双引擎，以此为依托，前者助推实现自动学习和识别IO流，提升Cache预取命中率，系统整体性能提升20%；后者可根据不同的数据类型，助力实时优化数据缩减算法，TCO降低25%。此外，华为云还进一步提升了数据基础设施的智能特性，例如提前14天预测硬盘故障、提前60天预测性能瓶颈、提前365提案预测容量不足，并让30%的故障可自我修复。

　　开放：像使用数据库一样使用大数据是每一个企业追求的目标，为此，华为重磅发布数据虚拟化引擎HetuEngine（河图），这是业内第一个商业性的数据虚拟化引擎。“大禹得河图后始见清明”，大禹通过河图掌握河流山川复杂的地形地貌，顺利完成治水大业。河图引擎，向上接入海量应用，向下接入海量数据，通过一个标准、统一的接口，降低了客户和合作伙伴接入数据基础设施的复杂度。

　　侯金龙指出，河图引擎具备四大核心能力：“一个目录”构建1000+异地异构数据源全局虚拟数据视图；“一个入口”实现30种异构数据源统一SQL访问；“一份数据”实现多场景分析，多应用共享，数据0搬迁；“统一安全”实现异地异构数据源集中式安全配置与管控。

　　拥抱数据基础设施变革，华为对于开放的决心并没有止步于此。为了更好地发展数据产业，华为还宣布开源河图引擎，称为openHetu，并将于2020年6月上线。华为将开源内核，开发者可以基于开源代码进行定制，包括数据源扩展、SQL执行策略等，实现应用快速对接，提升开发效率。

　　可以说，openHetu让生态体系中的利益主体通过建立产业链间高效的协同机制，形成良性互动的有机合作关系，将推动产业的持续扩大。

　　三大数据应用场景重新定义

　　进一步来说，如果融合、智能、开放是华为重构数据基础设施的核心理念，那么在产品方案层面如何去承接这一理念。

　　在华为智能数据与存储领域总裁周跃峰看来，当下数据基础设施主要包括三大场景，生产交易场景、智能数据湖场景和边缘场景，针对这三大场景，华为分别推出了不同的解决方案，这包括OceanData、FusionData和FusionCube 2.0。

　　OceanData的目标是重定义生产交易基础设施，其采用一套架构同时解决了极致可靠和极致扩展，通过打破数据库与存储壁垒，大幅提升效率。同时，华为把GaussDB和OceanData深度融合起来，采取存算分离、算子下推、100GE RoCE等技术，让业务查询效率提升10倍。

　　FusionData重定义数据湖基础设施，通过融入鲲鹏、昇腾等多样性的计算到存储和数据库中，华为将数据库和大数据融合起来，并以融合分析和算子下推技术，打破数据孤岛，使分析效率提升100%，TCO节省20%。

　　在整个重定义数据湖基础设施的过程中，河图引擎发挥着关键作用，“不同于数据中台理念，华为希望真正打造一个数据平台，践行’平台+生态‘战略，让伙伴能够像使用数据库一样方便地使用大数据，这将有利于创造共赢的生态环境。”周跃峰强调说。

　　FusionCube 2.0重定义边缘基础设施，一台设备集成计算、存储、网络、安全、人工智能，全栈集成，即插即用。并且具备极简、智能运维等特性，通过实现云边协同，云上利用大数据特征进行算法训练，算法模型在边上推理和执行，以此实现AI算法永新，进而让边缘充满智慧。

　　总之来说，无论是打造打造融合、智能、开放的数据基础设施，还是重新定义数据应用场景，华为让数据使用更简单。通过破解传统上数据存不下、流不动、用不好的难题，华为让数据价值得以更低成本、更高效率的展现。

　　更重要的是，华为以打造开放产业生态的视角投入计算和数据基建，这将催生中国自己的IT产业生态，让中国IT产业迸发新的活力。

首页

资讯

课堂

产业

活动

专家

合作专区

数字经济

筑牢数字经济运行基础能力，怎能少得了数据“基建”

标签：

热门标签换一批

热门焦点

阿里云大数据平台数加激活万亿市场

四大通信央企将以郑州为核心构建"米字型"通信...

大数据在疫情防控中的应用与展望

数据治理的两大基础：数据标准管理体系与数据...

又见百度！与国金证券合作推出大数据基金