现代大科学的标志为大科学机构、大科学工程和大科学装置。大科学装置常产生海量的数据,因此在大数据技术领域提出了巨大挑战。国内外高能物理实验研究是典型的大科学装置,同时在不断推动大数据技术及应用的发展。在应用需求的引导下,高能物理领域积累了大量的大数据存储、计算处理和共享等技术和经验。
中科院高能物理研究所陈刚
高能物理的目标
高能物理的目标就是探索物质微观结构、宇宙起源等自然规律。目前已经证明微观世界有六种夸克(quarks),还有六种轻子(leptons),这些一起组成了宇宙万物。这些粒子之间的相互组合主要有三种相互作用力:电磁相互作用力、强相互作用力以及热相互作用力,当然,还有第四种力,那就是万有引力。
高能物理,也叫粒子物理。我国也有很多高能物理的实验,其中一个就是BEPCII/BESIII对撞机,它是世界先进的双环对撞机,5年内将积累5PB 的数据,需要万个CPU用于数据分析,中国、美国、德国、俄罗斯、日本等36个研究所参与合作。
另外,在亚湾反应堆做中微子实验,有38个研究所300多名科学家参与合作,产生了4PB以上数据。在2012年发现中微子第三种震荡,精确测量θ13同时,利用西藏羊八井得天独厚的优势,中意、中日合作进行宇宙线实验,每年产生超过200TB的原始数据,数据需从羊八井传回高能所,在传到日本、意大利进行分析处理,合作单位能够实时访问数据。
高能物理的实际应用
在高能物理领域,实验数据采集之后,还要面临数据的传输、保存,以及计算等一系列的挑战。这将会产生大量的数据,这个大数据的特点是随机变量空间很大,产生的末态粒子极其丰富;精确测量需要大样本。在计算过程中,也是非常复杂的,末态的模式复杂(随机变量)。物理图像还原非常复杂,如图像处理、模式识别技术;拟合及误差估计。
高能物理大数据的处理过程如下:第一,数据获取与记录。从探测器获取RawData、蒙特卡洛产生数字化的二进制格式的电子信号;第二,数据处理。处理后Raw/MC Raw产生相关物理信息,如动量、对撞顶点等;第三,数据挖掘。由上千个属性组成的DST事例文件,提供物理学家进行分析,并最后产生物理结果。
在“大数据(big data)”时代,PB级甚至EB的科学研究数据尤其需要在存储模式、技术架构、共享传输、全球协同、高效处理等方面有所突破。
计算平台的发展
计算平台的发展历程,与计算机发展历程是完全一致的,经历了从大型机,经集群,到网格,再到云计算的演变。本地计算集群是基础,计算网格是“集群之集群”,需要整合计算资源。而云计算更注重平台的通用性,提高资源利用率。因此需要对云计算与网格计算加以整合。
图1是一个典型的本地集群架构。这个系统目前也仍在使用,但是随着CPU的计算能力、存储量越来越大的时候,系统就会出现问题。
目前世界上最成功的一个网格系统,实际上就是用来做高能物理的。它有若干分层,0级、1级、2级、3级,甚至一直到4级,这样一个分布式的计算环境。0级中心主要接收原始数据,保存在磁带系统中,并进行第一遍数据重建,向Tier1分发数据;一级中心(13个)主要提供原始数据备份,执行数据重建、分析等任务,并提供数据分发等网格服务;二级中心(>160个)主要执行模拟、数据分析等任务。
当然,计算集群或网格存在不足之处,如CPU资源利用率不足、遗留程序与操作系统不匹配、调度不灵活、运维成本高等问题。这时,就需要引入虚拟化和云计算。
虚拟计算集群在物理机和RMS(资源管理系统)之间构造虚拟层,将物理机虚拟化,形成多个虚拟机。同时,将RMS安装在虚拟机上,对用户完全透明,减少运维工作量,提高资源利用率。
欧洲核子研究中心的“CERN Cloud”是世界最大的虚拟集群之一,它基于Openstack构建,并于2013年开始运行。统一管理两个数据中心(日内瓦与布达佩斯),其规模为4600个物理机,12.5万颗CPU核,15000个虚拟机,2016年还将扩充资源。根据集群任务动态创建或删除虚拟机,平均10秒钟创建/删除一个虚拟机。据了解,CERN团队获得Openstack巴黎峰会SuperUser大奖。
在国内,我们有自己的实验和计算环境。例如,之前提到的BESIII分布式计算系统,采用Pilot与计算插件技术,整合合作单位的计算资源,能够根据用户作业的数目进行实时的虚拟机动态创建和删除,实现资源弹性管理。共14个站点,分布在中国,美国,俄罗斯和意大利。
在先进信息化环境的支撑下,BESIII实验一直领跑全球tau-粲物理研究。
2013年3月宣布发现了奇特态候选者--带电类粲偶素Zc(3900);2013年6月18日,《自然》(nature)杂志就此发表了题为“夸克‘四重奏’打开了物质世界一扇崭新的大门)”的新闻报道;这一成果被国际物理学顶级期刊、美国物理学会主编的《物理》杂志选为2013年国际物理学领域重要成果,在11个入选项目中位列第一;《粒子物理手册》2014版收录Zc(3900),是唯一收录的在我国发现的新粒子!
高能物理的应用不同于互联网文本数据挖掘,它具有以下特点:数据以对象方式存储,使用C++库访问;非类型计算;随机访问;复杂的数据类型。
高能物理领域,实际上是一个大科学、大需求、大数据、大计算、大发现的过程。它要求多种计算技术,推动了信息化技术的发展。同时,多种信息化支撑手段也在推动高能物理科学的进步,这是一个相辅相成的过程。