10月28日,在2016年全国高性能计算学术年会(HPC China 2016)上,信息系统综合服务商中科曙光发布了全球首个“科学大数据引擎”,旨在帮助政府部门、科研院所、教育机构、行业技术创新中心、大型企业研发部门等用户向大数据研究方面转型,促进数据密集型计算架构在各行业领域的创新发展和深入应用。
对此,曙光公司总裁历军说,科学大数据引擎集成了曙光在高性能计算、海量数据存储和大数据处理分析技术等领域的优势资源,以积极应对科学大数据发展对传统HPC系统提出的挑战。科学大数据的时代已经来临。
去年8月底,国务院就发布了《促进大数据发展行动纲要》,明确提出要发展科学大数据,以实现科学数据的开放共享和应用服务。今年7月,《十三五国家科技创新规划》进一步明确了多个重点领域的大数据发展规划。与此同时,科学大数据的海量、多源、异构、高维等特征,也向传统HPC系统发起了全新的挑战。
“多数科研项目的数据量非常巨大并快速变化,且往往是分布、异构的,传统的数据管理模式已不能满足需要;此外对科学大数据的‘计算’包括了从数据获取、管理到分析、可视化的全过程,传统的高性能计算亟需将服务向外延拓展。”曙光公司高性能产品事业部总工程师戴荣如此说到。
作为诞生于科研国家队、多年服务于科研领域的HPC领军企业,中科曙光敏锐地洞察到科学大数据的未来前景及其对“计算-存储-分析”架构提出的更高要求,率先将“大力发展科学大数据”列入公司“数据中国加速计划”战略,为科学大数据引擎的进一步开发和水平提高提供了有力的保障。
据戴荣介绍,在科学大数据引擎的“黑匣子”里,部署着曙光全系列数据计算技术及服务产品,主要由5个引擎组件构成,分别是:针对海量非结构化数据的曙光ParaStor并行存储系统、类型丰富的曙光高性能计算平台、最大化提升系统整体效能的曙光深度学习计算平台、高效敏捷的曙光XData大数据处理平台以及能覆盖科学大数据中心全生命周期的曙光 EasyOP运维管理平台。
“科学大数据引擎融合了高性能计算、云计算、认知计算、大数据分析等多种模式,是高性能计算与数据分析挖掘的有机结合,可为科研工作者提供一个实现科学数据存储、分析和管理的一体化解决方案。”戴荣评价说。 曙光的科学大数据引擎拥有以下六个亮点特征:
1)专为科学数据处理流程进行优化,提供“计算、存储、分析、运维”一体化强劲性能;
2)基于曙光独特的超融合架构,灵活支持高性能计算、大数据计算、深度学习计算等多种计算模式;
3)超强弹性设计,最高支持E级超算系统立体扩展;
4)可构建EB级单一存储空间,是经过验证的国内最大存储系统;
5)支持PB级数据处理能力,可实现亿级数据库毫秒级极速查询分析;
6)可为上万节点提供7*24小时在线、移动、实时自动监控服务。
虽然,中科曙光“科学大数据引擎”刚刚发布,但曙光在多年的HPC技术服务工作中已经形成了一套全流程、一体化数据处理技术体系,目前已经在多个大科学项目上开展了应用。
部署在贵州黔东南地区的世界最大口径单体射电望远镜FAST,每天要产生5TB左右的数据,数据需要保留10年以上。曙光部署的超算系统就将承担起海量天文数据整合分析、天体分析和挖掘、天文大数据的可视化等工作,推动天文科学研究和探索由假设驱动向数据驱动转变。
此外,曙光于去年与中科院大气物理所联合部署的“地球数值模拟装置”原型系统,也将为地球科学大数据充当“计算处理引擎”;今年还携手中科星图、中科三清等分别发展空天大数据应用和生态环境大数据应用。