大数据
近年来,随着全球新一代信息技术和应用的兴起,大数据浪潮席卷全球。为应对庞杂数据挑战及继续谋求信息优势,迎接“大数据”时代的来临,2012年3月,美国发表了《大数据研发倡议》,美国国防部及国防高级研究计划局(DARPA)在同期发布的大数据项目清单中列出了10项研究计划,开发相应工具盒技术,大力提升获取、管理和分析大数据的能力,正式把大数据研发提升为国家战略,并作为美军建设的战略重点。大数据项目作为一种新兴的技术极有可能对美国的国家安全战略、军事战略、军队建设、作战理论等方面产生重大影响。
美军大数据技术研究
美军面临的大数据挑战
对于美军来说,随着信息化建设的继续深入发展,各种新技术、新武器不断涌现,以及各级别的“系统集成”越来越复杂,在处理信息以及数据方面也开始遭遇各种挑战,主要有以下几种情况:
1)海量战场数据无法得到及时、高效的处理。信息化条件下的作战,战场态势数据呈现出新的特点:来源广泛、容量巨大、更新频繁。为了提高对战场态势的感知,美军综合运用了无人机、传感器等侦察手段,其雷达、光电、声音、影像侦察能力已经实现了对战场的全覆盖,但所带来的问题是:随着数据量的大幅增加,仅仅依靠现有信息技术,美军已不能及时高效地分析和处理这些数据,而且持续更新的数据对系统的存储能力也提出了更高的要求,海量数据甚至会造成系统瘫痪。
2)数据壁垒高阻碍了数据融合。美军认为,影响数据融合的壁垒主要有:在体制上,相关部门往往各自为营,存在重复开发、标准各异等问题,而且出于对自身利益的考虑,可能会独享情报,无法做到信息共享;在格式上,随着网络技术的不断发展,博客、聊天室、论坛等成为获取情报数据的新来源。这就带来了除结构化数据以外的新型数据结构,如半结构化的HTML、XML数据以及非结构化的图形、图像、视频、音频数据。这些数据拥有自己的特性和模式。为了适应信息集成的需要,各种数据必须建立统一的格式标准,建立一种能够容纳和处理各种数据格式的综合集成的数据库。
3)数据库漏洞增多,信息安全存在隐患。信息安全是一个存在已久的问题,而数据则是信息的重要载体。随着数据量的爆炸性增长,一方面,数据库漏洞越来越多,可攻击的目标也随之增加,且攻击目标将更为暴露;另一方面,隐藏在海量数据中的攻击行为往往难以被及时探测。数据安全是大数据应用的根本保障,核心数据的泄露将对整个战局造成致命性影响。因此,必须研发出可靠的防护措施,以确保信息安全。
美国大数据政策及其军事项目研发
近年来,美国奥巴马政府从战略高度看待大数据问题,出台了相关政策文件。2010年12月,美国总统行政办公室、总统科技顾问委员会提交了题为“设计数据化未来”的报告。该报告通过对事关联邦机构未来发展的五大问题的分析,提出国家安全和国土安全部门在网络信息领域应具备的能力,并进一步阐述了大规模数据管理与分析的重要性及存在的研究挑战。在上述报告的基础上,奥巴马政府综合其他各智库的意见,于2012年3月29日发布了“大数据研发倡议”,将大数据研发提升为国家政策。
美国政府旨在通过此举实现效率最大化,即利用较少的投入带动全国各部门对大数据项目的研发。总统科技助理兼白宫科技政策办公室主任约翰·霍尔德伦博士在“大数据研发倡议”新闻发布会上指出:正如联邦政府过去在信息技术研发领域的投入,曾经推动超级计算机的快速发展和互联网的产生那样,我们今天发布的这个倡议,将确保我们有能力将大数据用于科学发现、环境与生物医药研究、教育和国家安全。目前,该文件尚处于保密阶段。
根据白宫发布的新闻稿,奥巴马政府推进大数据研发项目的目的是:
1)发展前沿核心技术,以满足搜集、存储、防护、管理、分析和共享海量数据的要求;
2)利用上述技术,推动科学与工程领域的发明创造,增强国家安全,转变教育方式;
3)储备人力资源,以满足发展和利用大数据技术的需求。
目前,共有6个部门和机构为推动该倡议承担了任务,包括:国家科学基金会、国家卫生研究院、能源部、国防部及国防高级研究计划局、美国地质调查局。
国防部及其下属国防高级研究计划局现有的大数据项目共有10个。其中,具有代表性的项目是:数据到决策、网络内部威胁、影像检索与分析和X-数据项目。
1)多尺度异常检测(ADAMS)项目。解决大规模数据集的异常检测与表征问题。在此背景下,数据中的异常为在各种现实背景下搜集另外可操作的信息提供了线索。
2)网络内部威胁项目。该项目的目的是通过采用新式网络威胁判断技术,提高探知网络活动的精度、频度和速度,从而及早暴露和防范对手的破坏活动,并提升己方的网络安全水平。寻求研究新的方法检测军方计算机网络中的符合网络间谍特征的活动,旨在提高检测网络威胁的准确度、比例与速度。
3)洞察力项目。以解决当前情报、监视与侦察系统中的重要不足,旨在研发一种资源管理系统,通过分析成像和非成像传感器及其他来源的信息,自动识别威胁网络和非常规作战行动。
4)机器读取项目。通过研发学习系统,处理自然文本并在知识库中插入产生的语义表示,而非依赖于当前用于知识表达昂贵且费时的处理过程。
5)“心灵之眼”项目。旨在开发一种可在机器上应用的“可视化情报”能力。
6)面向任务的弹性“云”项目。旨在开发检测、诊断和应对攻击的技术,为“云”计算环境建立有效的“社区卫生服务体系”,应对“云”计算中固有的安全挑战。
7)加密数据的编程运算项目。旨在为运算中的数据开发其在应用的整个过程中保持加密状态所需的切实可行的做法与相关的现代编程语言,克服在“云”计算环境内信息安全面临的主要挑战。
8)影像检索与分析项目。其目的是开发一套系统,使军事图像分析员有能力开发收集到的大量视频内容,使分析员能够为有价值的活动与事件建立起预警功能。该项目一旦取得成功,分析人员将能从海量视频库中快速、精确地检索特定的视频内容,由此便能充分、高效地挖掘影像中隐藏的有用信息。
9)X-数据项目。该项目的主要内容是:通过开发大容量数据分析所需的可扩展算法,以便处理分布式数据存储库中的不规则数据;通过开发高效的人机互动设备和可视用户界面技术,以便在多样化任务中更好、更快地执行操作。旨在为分析大量半结构化和非结构化数据开发计算技术和软件工具,主要解决处理分布式数据存储中不完整数据的可扩展算法,以及用于各种任务、可迅速定制,方便视觉推理的有效的人机交互工具。
10)数据到决策项目。该项目的主要内容是:首先,通过各种新途径充分利用海量数据,整合感知、认知和决策保障系统,以创造一种真正自主的系统,使之可以自主机动作业并做出决策;其次,提高态势感知水平,以协助作战人员和分析人员,并为作战行动提供更好的保障。国防部正在研发新技术,以使分析员从各种语言的文本中获取信息的能力提高100倍,目的是使分析员查知各类目标、活动和事情的能力取得相似程度的提升。
目前,在《大数据研发倡议》中,国防部仅负责数据到决策这一个项目;国防高级研究计划局负责其余的9个项目,并已经开始启动X-数据项目。
美军大数据项目研发的进展
美国政府除正式出台了大数据研发政策文件外,还在组织机构上对大数据研发项目加强了管理,在资金上加大了投入。
美国白宫科技政策办公室专门成立了“大数据高级指导小组”,以协调和推动政府在这一关键领域的投入。
报告“设计数据化未来”认为,联邦政府在大数据相关技术上投入不足。针对此问题,国防部除了承担在“大数据研发倡议”中的任务外,每年还将通过一系列项目,在军事部门中投入约2.5亿美元用于大数据研发,其中6000万美元用于新设立的研究项目。此外国防高级研究计划局已开始研发的X-数据项目每年耗资约2500万美元,并将持续4年。
国防部还与一些知名大学和大型企业签订了有关大数据项目的合同,以便充分利用知名大学的人才资源和大型企业的技术优势,提高研发效率。例如,2011年,国防高级研究计划局同佐治亚理工学院签订了一份价值270万美元的技术研发合同,以帮助解决大数据的技术挑战。该合同属于X-数据项目的组成部分,以解决可扩展分析和数据处理技术难题。2013年2月5日,ContinuumAnalytics公司宣布,已收到计划局300万美元的研究经费,为大型多维度数据集的交互搜索开发Numpy、SciPy和可视化技术。
此外,为了推动大数据领域的创新,以满足各类要求,美国国防部还将举办一系列公开的大奖赛,以提高科技人员的积极性和主动精神。
美军大数据项目研发的影响
目前,大数据项目作为一种新兴的技术极有可能同其他技术一样,对美国的国家安全战略、军事战略、军队建设、作战理论等方面产生重大影响。
(1)推动大数据在美国国家层面的应用
人类历史上很多新兴技术都是首先在军方应用,然后推广到民间应用,并对整个社会的发展起到了重大影响,例如雷达技术、电子计算机技术、互联网和航天技术都是如此。大数据在社会层面拥有巨大的应用空间,一旦其技术成熟,将会给经济、医疗、教育等领域带来革命性变革。此外,美国在大数据领域拥有的绝对性优势将有助于其制定国际标准,这将牵制其他国家在该领域的发展,在国家安全战略上具有重要意义。
(2)推动云计算、物联网技术的进一步完善
物联网实现了所有能够主寻址的普通物理对象的互联互通,使各行各业有了大量的数据“发生器”;云计算则提供了更加广泛的资源共享,解决了数据、服务和计算资源的共享问题。而大数据的实质则是更好地获取、管理、使用这些数据,深入挖掘其中蕴藏的知识,使其效用最大化。物联网和云计算的军事价值已经初显端倪,美军利用军事物联网实现了战场人员、资源的实时感知,对战场感知、决策支援和资源优化配置发挥了重要作用,美国国防部2012年7月11日发布的《云计算战略》指出,云计算将为美军建立一种灵活、安全和有效的服务环境,以对改变的任务需求做出快速响应。可以说这三大技术是互为补充的,大数据的进一步发展将为物联网、云计算提供更为强大的技术支持,推动其进一步发展。
(3)确保美军在信息领域的绝对优势
通过大数据研发,美军将会在数据获取、存储、管理、分析和分发等方面取得质的飞跃,进而提升美军战场态势感知、情报分析、智能决策以及安全防护能力,大大缩短决策循环(OODA)周期,以便迅速做出正确的决策,这对于掌握战场主动权和最终夺取胜利至关重要;此外,美军率先在大数据领域占领先机,将会全面拉开与其他国家在信息战领域的差距,确保战场信息主导权。
由于美国联邦政府曾运用类似的研发方法在信息技术研发领域进行投资,并获得巨大成功,此次美国通过“大数据”研发,有可能带来一系列关键技术上的突破,引领信息化竞争进一步从软硬件、网络领域向信息认知跃升。
美军采取的具体措施
为解决军事应用中的大数据问题,美军着眼于系统性、全方位解决方案,采用了统一规划、分步实施的具体措施。
(1)改革编制体制,为大数据技术的开发与利用提供高效的运行机制
在国防部层面,原负责网络与信息一体化的前助理部长办公室(NII/CIO)更名为首席信息官办公室,原办公室的一些采购职能转交给负责采购、技术与后勤的副部长,但保留对采购程序的建议权。这样可使首席信息官专注于信息管理、信息技术、信息保障等的顶层设计与全局性指导。另据《防务系统》网站2013年6月29日报道,为实现作战与情报的融合,构建联合信息环境,联合参谋部也正在进行联合。
参谋部的信息技术转型,计划重建J6部,并与国防部长首席信息官办公室一道共同领导国防部的“信息技术效能”工作。为了有效整合网络空间作战资源,作为美国网络作战体系的最高指挥机构,美军网络司令部的成立则被誉为“美国国防的重要里程碑”。在军种层面,为整合ISR资源,美军于2007年6月8日成立了美国空军情报、侦察和监视局(AFISRA),从而将情报、侦察和监视作为一个整体来分配、计划和运用,这样无疑将充分发挥情报、侦察和监视的巨大合力优势。对这些相关机构的相应调整,为大数据技术的开发与利用提供了一套高效的运行机制。
(2)以大数据为核心构建国防部企业化体系架构
基于国防部指令《在以网络中心的国防部内部数据共享》规定了国防部首席信息官进行数据资源管理的政策及其职责,为进一步优化国防部信息技术体系架构,由国防部首席信息官牵头,国防部信息系统局具体负责,在网络服务、计算服务、应用与数据服务、终端用户服务和IT业务程序等五大职能领域推行改革,合并数据中心并使各军种更加标准化,以提高网络安全与任务效果。2011年9月6日,国防部首席信息官签署发布的《美国国防部信息技术体系战略与路线图》,标志着利用新技术来建设新的国防部信息体系的开始。该战略计划整合所有IT设施,为国防部打造一个更有效、更安全的国防部信息体系确立了战略规划和初期发展路线图。为进一步落实国防部改革措施,国防部信息系统局于2012年发布了《2013-2018年战略规划》,以“确保建立一个统一的、合作的、保密的联合信息环境(JIE),实现整个国防部端对端的信息共享和独立企业服务;为国防部提供快速的云服务。”以此作为战略目标,通过合并数据中心、网络作战中心向云计算过渡,将企业化系统的各个组成部分融合成为更高效、廉价的架构。通过对海量数据搜索、挖掘、存储、分析、安全等的大数据技术开发,为美军提供大数据能力,以支持美军的全球作战。
(3)合并全球数据中心,向数据中心战过渡
当前,美军在极力强调基础网络的弹性和可信性的同时,大规模削减分散于全球的数据中心,大力推进网络云计算项目。目的是在“形成灵活、智能、自适应的物理网络的基础上,将网络空间工作的关注点调整到‘改造网络化服务模式’”上来,直接以企业化的作战应用服务支撑作战过程。从“提供物理网络服务”到“提供网络应用服务”的转型,是从“网络中心战”向“数据中心战”军事作战理论转型的基础和实质性目标。在可预期的未来,随着web3.0技术的发展、成熟与军事应用的广泛展开,美军军队建设理论也将发展变化:作战过程控制将日趋自动化,指挥官将直入作战主题,将关注焦点逐渐提升到核心的作战目标。
美军2013财年重点将现有的数据中心合并为三类数据中心。第一类为核心数据中心,用于国防部各部门都必须使用的信息服务与应用,以及用于国防部与工业部门和公众交互的对外服务与应用。第二类为地区性数据中心,主要用于满足距离终端用户更近的信息服务与应用需求。第三类为部署在前方的前方数据中心,这类数据中心很灵活,可以存放地区性与全局性的服务与信息,适合各种任务情况,速度更快,网络可靠性更好。这些数据中心的服务器将普遍高度虚拟化,这样可以更灵活地加入新的信息服务,提供最大的效率。这些新的数据中心与网络结构的重要改进得益于远程防御行动、网络、数据中心、服务器以及其他应用的技术标准化,这些极大地提高了国防部信息技术控制系统的网络安全性。
(4)投入重金开发大数据技术
针对大数据所面临的带宽稀缺、适应性和安全性、存储等问题,美军与IT界在“云”计算环境与协作、非结构化数据的整合、超越数据仓库等方面进行了广泛的合作并已取得了一定的成效。例如,2010年美国动态研究公司与美国陆军合作开发的构建基于“云”计算环境的智能系统“求雨者”(Rainmaker)已部署到了阿富汗战场。
在前沿技术研究方面,国防高级研究计划局在大数据工作中计划每年投入2500万美元,着手研发大数据处理分析所必要的硬件与智能化分析软件,以解决非结构化数据的组织积累、数据库关联等问题。具有代表性的项目是:数据到决策、网络内部威胁、影像检索与分析、X-数据项目等。
美军航空航天局大数据的发展
当今世界正处于信息爆炸时期,社会步入了大数据时代。航天领域也正在沐浴着大数据的朝阳,潜在地引导科学工程技术的创新和人类思维的变革。
NASA在保持美国民用和军用航空航天优势的同时,继续进行科学探索以及加强对宇宙、太阳系和地球环境的了解,并将航天技术和知识转移用于一般工业。NASA在利用航空航天技术以满足国家需要方面起领导作用,在新技术研究和应用方面处于行业内国际领先地位。
NASA的大数据发展计划
美国《大数据研发倡议》,展示了大数据研发应用将从以往的商业行为上升到美国国家战略部署的总体蓝图。其中,关于NASA大数据发展计划的阐述:
美国航空航天局(NASA)的先进信息系统技术(AIST)旨在降低其信息系统的风险和成本,以支持未来的地球观测任务,并转化为NASA气候中心预测的地理信息。该技术方案将有助于寻求成熟的大数据能力,以减少地球科学部空军基地和陆军基地信息系统的风险、成本、规模和开发时间,从而提高科学数据的获取和实用性。
NASA的地球科学数据和信息系统(ESDIS)项目持续用超过15年的时间从空中和外地活动中对地球卫星数据和数据进行处理、存档和发布,并从提升用户满意度出发,努力确保科学家和公众在从地球到太空的研究中的数据访问功能,从而提升地球科学在应对气候和环境变化挑战中的能力。
全球地球观测系统(GEOSS)通过国际之间合作进行地球观测数据共享和整合。NASA已经与美国环境保护署(EPA)、美国国家海洋和大气管理局(NOAA)以及其他机构和国家的力量强强联手,整合卫星、地面监测和建模系统,评估环境条件和预测包括森林火灾、人口增长等结果。研究人员将在短期内整合各种复杂的空气质量信息,从而更好地了解和解决空气质量对环境和人体健康的影响。
由NASA和Cray公司制定的太空行动协议,将允许一个或多个项目集中发展和应用低延迟“大数据”系统。特别是,该项目测试的混合计算机系统的应用程序,能够以高度集成的非SQL数据库作为数据传输的手段,以加强建模和分析软件。
NASA的行星数据系统(PDS)是美国NASA行星任务的数据档案。目前,系统已经成为了世界各地科学家的基本档案数据资源。所有的系统生产的产品通过同行评审,进行归档,可以很容易通过一个行星学科提供的在线目录系统进行访问。
空间望远镜科学研究所(MAST)作为NASA的分布式空间科学数据服务的一个组成部分,主要侧重于光学、紫外线和近红外部分频谱等相关的科学数据,支持和提供各种天文数据档案。研究所支持多种工具,可以对各种光谱图像数据进行访问。
地球系统电网联邦公共档案是一个公共的数据存档服务,支持由国际小组研究并在2014年完成对气候变化的第五次评估报告(如同第四次评估报告的存档一样)。美国NASA联合会通过与美国能源部合作,能够促进数据观测和模型的输出。
NASA的大数据云平台
(1)云服务平台
2008年,NASA埃姆斯研究中心使用自开发的开源综合云服务平台“星云”(Nebula)来协助完成对月球和火星的探索任务。该项目需要对大量高分辨率影像进行储存和处理。在传统的环境中,为此构建IT基础设施及配置设备需要花费近150~180天;同时,大数据交互需要接入内部载体或网络。采用“星云”平台取代昂贵的数据中心,对科学数据提供基于网络的应用环境及可伸缩的计算和存储能力,NASA因此不用为新增的大数据构建IT基础设施,研究人员可以在几分钟内通过云完成所需要的存储和计算资源的构建、配置、监视与升级等一系列任务;“星云”平台提供框架、代码库、接口数据装置和网络服务,使用安全的方法使云上的数据接入不同研究子部门或合作单位,避免对内部载体网络的大量接入。勇气号和机遇号任务为在轨运行空间任务中试验云计算提供资源,其低成本、高效率的数据处理能力在空间任务中得到良好的体现。
同时,NASA对开源综合云服务平台“星云”进行评估,以确定一系列科学云方案用以建设任务级企业数据中心以应用于众多数据任务,包括:
1)为地球观测科学开发网(SERVIR.net)、短期预报研究和转折中心(SPoRT)服务,通过天气预报(WRF)模型来完成高分辨率短期天气预报图像合成工作,以在不中断其他业务行为的情况下,快速部署标准模型以应对自然灾害;
2)为广域红外探索项目WISE服务,以提高高分辨图像处理能力与存储能力;
3)Ames研究中心飞行运载技术部考虑采用昂贵的普莱亚(Pleiades)设备,节约设备组建的时间和维护的经费;
4)对巨大存储体和存储空间具有需求的组织考虑采用“星云”平台,以实现为其虚拟机随时指定需要的存储体和存储空间;
5)借助“星云”平台为软件开发者建立虚拟工作站来测试、编译其代码,给开发者共享运行在各自桌面上更多的模块和库。美国加州理工学院(Caltech)可视与自主探索系统研究实验室利用云技术通过互联网实现在地球表面任何地方对移动平台近实时的数据交互与控制,以完成供遥实验、自主监视与探索侦察的多巡视器技术的支持。通过WLAN在移动平台终端处理器与采用云技术的主机前端控制软件之间建立连接。其中,移动平台连接到1个或多个通信服务器上,运用云计算实现对连接的多个移动机器人平台的遥控。遥控用户云服务自行建立连接,连接一旦建立成功,地面代理即可发送打包并压缩的视频帧与传感器数据。
(2)云计算平台iRODS
NASA喷气推进实验室从2007年开始致力于在行业中发挥云计算优势的途径,以找到可行、成本合理的任务应用。其中,“火星漫游车”项目的“云应用”是一个以结果为导向的示例。实验室还在云计算平台iRODS上对其行星任务数据系统进行实践性实验。云计算平台iRODS使用并行传输控制协议以及大数据移动优化技术。通过iRODS提供的并行传输协议,可以实现大数据在网络间的快速迁移。云计算平台iRODS可以用来将分布式的计算机整合成一个庞大的存储资源,用于存储、统一管理和共享数据,客户端通过访问这台虚拟服务器可以获取所有的数据,而不必关心数据存放在哪台计算机上。使用大数据云平台技术的行星任务数据系统,其扩展性、可靠性大大提高,同时,大幅度降低系统对基础设施建设、监控和维护的成本。在不增加新的IT基础设施的情况下,系统在该平台上数据存储、备份、传输和计算的效率分别提高50%以上;同时,该实验室与微软的“云工作组”进行合作,采用微软MS Azure云计算平台,以寻求增加其教育的影响和促进推广计划。该平台提供统一应用程序编程接口,可以访问超过25万幅高分辨率火星图像而无需在实验室的计算机上存储任务附加数据。
NASA的大数据应用实例
(1)月球计划中的计算模型
NASA的“月球勘测轨道器”(LRO)发回大量高分辨率月球表面影像,每天生产的数据可达到TB级规模,且还在不断增长。NASA喷气推进实验室与加州理工学院在“月球表面测绘与建模”项目中进行合作,采用云计算架构对月球表面高分辨率照片进行高可靠、高效率的图像分块处理。该项目选用开源云计算平台Hadoop以及计算模型Map-Reduce,可以在37s内完成对2.7GB大小的高分辨率图像的分块处理。美国亚利桑那大学的研究人员使用Nirvanix的云存储平台来传递、存储备份这些数据。传回的影像数据先分别拷贝到亚利桑那州立大学研究项目学院的主数据中心的NetApp磁盘阵列上。然后,再复制到Nirvanix存储传递网络。Nirvanix CloudNAS取代以往的磁带存储,提供可靠的、规模灵活的、可访问的企业级数据,长期保留以供访问、浏览甚至再加工处理等。
(2)NASA“火星勘测轨道器”中的应用
2013年8月,自2006年起一直执行火星探测任务的NASA“火星勘测轨道器”(MRO)返回的科学数据突破25TB。从规模上来看,该独立任务产生的数据量已经超过近10年间NASA喷气推进实验室深空网所有数据量总和的3倍还多。该25TB数据包包括在火星表面工作的机器人探测车返回的数据,99.9%则来自MRO上的6个科学观测设备。值得注意的是,该数据量的统计并未包含实验室用于操作的遥控数据。
“火星勘测轨道器”具有面积约20m2的太阳能电池板,用以为其星上发射机供电,并通过自带的3m抛物面天线向地球方向源源不断发送数据。NASA则通过位于加州、西班牙以及澳州的深空网接收来自不同科学任务的数据波洪流。
“火星勘测轨道器”任务科学家,来自喷气推进实验室的Rich Zurek表示,25TB任务数据中的每一比特的传输均经过一条复杂的路径。实验室借助数据软件平台的处理能力,按日处理10GB左右的速度将接收的任务数据分割成小块再分别处理,以保证及时为科学家提供还原的数字信息和其他数据产品。
位于“火星勘测轨道器”上科学设备收集的数据首先被记录在火星轨道器的主存储器中。轨道器环绕火星轨道周期约2h,在每次绕火星环绕中,MRO与地球的通信线路往往会被火星本身阻挡。当地球处于“火星勘测轨道器可视窗口”时段,深空网的天线将对准火星并侦听“火星勘测轨道器”的信号。在每月多达32次探空任务的情况下,深空网的天线需要为此维护一个非常复杂的调度机制。引用“火星勘测轨道器”项目软件工程师Bryan Allen的介绍,深空网将接收到的数据按30min记录时长规模分割成块(chunk)。这些块中可能包含来自不同任务的数据,混合在一起从加州、西班牙和澳州的深空站传输到实验室。实验室运用数据软件对它们进行分类并生成专业数据产品,如照片、大气测量结果、行星表面声波侦听结果等。迄今为止,经统计实验室的数据系统平均一天要处理58 GB的数据并生成约303项数据产品。
“火星勘测轨道器”在轨飞行示意图
(3)NASA大数据流的处理
经统计,NASA的航天任务每小时都会产生总共约上百TB的数据信息,如将这些信息打印出来,所需要的纸张将消耗上千万棵树木。该类大数据洪流给NASA数据处理带来巨大挑战。位于加州的喷气推进实验室为解决这些信息的存储、处理和访问问题,提供了一些行之有效的策略。实验室高级调研员Eric De Jong说:“NASA科学家们使用航天大数据做任何事情,从气候预测到火星冰盖监测,甚至到银河系,无所不含。”Jong服务于NASA的大数据项目——可视化太阳系系统模拟器,该项目致力于将航天任务收集到的科学信息转换为用户可用的图形图像。在这个工作系统内,实验室是数据的持有者,用户是需要数据代表的相片、地形纹路、地图和视频的天文学家和其他科学家。他们使用这些实验室生成的数据产品开展诸如模式匹配和理论验证的工作,例如,在实验室的火星轨道任务中,Jong小组负责从大量数据集中生成分辨率高达120M像素的照片并将之拼接起来做成视频。
实际上,从来自NASA或其他国际宇航机构的任务中获取大量数据并将之存档本身就是一项艰巨的任务。以“平方千米阵列”(SKA)项目为例,该项目计划2016年在南非和澳州建立由上千射电望远镜组成的深空探测阵列。假设,该项目最终实施并开始使用,它每天生产的数据量估计将达到700TB之多,几乎等于当下全球互联网2天产生的数据量之和。对这样庞大信息洪流或大数据的存档处理和加工,实验室相关研究人员认为存在合理的解决方案。以此项目为例,实验室中心的大数据专家们声称可以在现有的硬件设备基础上,利用云计算技术并配合开源软件程序来满足项目需求而非为之设计新的数据处理新产品,实验室的另一位大数据高级调研员Chris Mattman表示肯定:“可以对开源程序进行修改,使之成为更快且成本更小的大数据解决方案。”
结束语
“大数据”不仅是一个概念,更是给当代科学研究带来了巨大的挑战,是科学研究范式的一场变革。目前,大数据仍处于一个初级阶段,还有很多问题需要解决。美国大数据战略和相应的做法为我国开展大数据工作提供了有意义的启示和借鉴。
1)重视顶层设计,积极制定大数据发展战略和规划。将大数据战略提升至国家战略高度,确定我国发展大数据的方向和重点,从保障国家安全、推动社会经济发展、提高企业竞争力等多个方面出发,确定政府优先支持的大数据发展方向,引导大数据产业发展。
2)加大研发支持力度,推动应用。在明确关键技术的基础上,确定重点支持领域,加大研发支持力度。整合相关专项资金和项目,支持大数据技术的开发、研究和应用示范,引导企业加大研发力度,实现关键技术突破。同时,在政府部门和公用事业的信息化应用中积极应用大数据技术,以政府采购引导国内大数据发展。结合当前的云计算、物联网等试点工程,积极开展大数据技术应用,充分发挥示范效应,带动社会其他领域的大数据应用。
3)推动政产学研用各方参与,构建大数据产业生态。当前全球大数据产业还处于起步阶段,产业生态尚不完善。我国应该抓住契机,从数据资源建设和大数据技术研发两方面入手,联合政产学研用各方力量,共同构建大数据产业生态。同时,要重视与大数据息息相关的云计算、物联网、移动互联等领域的发展。
4)加强基础大数据采集建设。一方面,完善数据采集体系。大数据需要有大量的数据源。应建立特定主题的数据监测系统,如交通、能源、医疗、自然灾害等专题建立基础数据库,持续不断收集相关数据,为大数据发展提供基础。另一方面,推动国家基础数据开放共享。美国十分重视政府信息资源的共享和利用,将“共享第一”作为美国联邦IT共享服务战略的基础范式,力推政府开放平台。我国应加快推进政府信息资源共享,尤其推进数据资源共建共享,给大数据技术发展提供原材料,促进大数据成果广泛应用。
通过研究美国在军事及民用航天领域中大数据技术的应用,可缩小与世界军事发达国家的信息化差距,掌握“大数据”资源使用主动权,提高情报信息获取、处理、分析、防护等能力。总之,只有敏锐地关注大数据技术的发展变化,及时掌握与了解美国在大数据技术应用方面的最新动态,我们才能在信息资源的深度开发利用与信息技术自主创新方面做出成绩。