两会前后,大数据系列推进政策将密集推出,国家政策将为今年大数据产业的快速成长提供良好的发展环境。
业内预期,我国大数据产业正在从起步阶段步入黄金期,2020年中国有望成世界第一数据资源大国,但数据开放度低、技术薄弱、人才缺失、行业应用不深入等难题亟待解决。
数据成为关键生产要素
新年伊始,中央网信办、国家发改委、工业和信息化部联合印发《公共信息资源开放试点工作方案》,确定在北京、上海、浙江、福建、贵州5省份开展公共信息资源开放试点。
上述方案要求,试点地区要结合实际抓紧制定具体实施方案,明确试点范围,细化任务措施,积极认真有序开展相关工作,着力提高开放数据质量、促进社会化利用,探索建立制度规范,于2018年底前完成试点各项任务。
工信部信软司副司长李冠宇表示,“我国大数据产业顶层设计不断加强,政策机制日益健全。发改委、工信部、网信办等46个部委共同建立了促进大数据发展部际联席会议制度,全国有30多个省市制定实施了大数据相关的政策文件。”
业内预期,2018年,随着国家大数据战略推进实施以及配套政策的贯彻落实,大数据产业发展环境将进一步优化,社会经济各领域对大数据服务的需求将进一步增强,大数据的新技术、新业态、新模式将不断涌现,产业规模将继续保持30%以上的高速增长态势。
权威数据显示,预计2020年,我国大数据市场规模将超过8000亿元,未来中国将成为全球数据中心。IT技术的持续创新促使大数据时代加速到来,在此大背景下,数据成为关键的生产要素,预计到2020年,全球的数据总量将达到40ZB,中国的数据量将占全球数据总量的20%,成为世界第一大数据资源大国。
目前,我国大数据产业生态系统日趋完善,大数据技术、交易、开放共享、工业大数据等产业链纵向发展逐步延伸;重点区域产业布局有效推进。在行业应用中,预计到2020年,工业大数据的占比将达到6。64%。
中关村大数据产业联盟副秘书长陈新河表示,中国大数据产业发展呈现出政府与企业联动的态势,近几年国内培育出了一批大数据创新企业,发展势头良好。
四大难题亟待破解
去年,菜鸟和顺丰的“数据断交”事件,暴露出大数据发展中的数据共享难题。当前,我国大数据产业正在从起步阶段步入黄金期,数据开放度低、技术薄弱、人才缺失、行业应用不深入等都成为产业发展中亟待解决的问题。
首先,记者通过在贵阳、杭州、北京等地的采访了解到,我国信息数据资源80%以上掌握在各级政府部门手中。近年来,在《关于推进公共信息资源开放的若干意见》《政务信息系统整合共享实施方案》等文件的推动下,政府数据加快了共享开放的步伐,惠民成绩单亮点不断。然而,由于我国大数据发展还处在起步阶段,不少基础性、关键性数据仍被政府部门束之高阁,共享开放程度低,这已经成为现代化治理进程中的“路障”。
据贵州省大数据发展管理局相关负责人介绍,部分政府部门在数据收集的过程中,由于缺乏统一的标准,收集到的数据虽然量大,但质量不高,可利用价值低。据此前媒体报道,长江上游地区一些省份的交通管理部门、运输公司不愿与其他省市共享物流信息,造成联运衔接的信息壁垒,甚至出现了同样1吨货,一百公里公路运费比经济发达地区高60元的现象。
据了解,截至2016年底,广东省全省87个省直部门有6988类数据资源、62332项信息项,居全国各省(区、市)首位。但各部门提出的共享需求仅3649类,省级编目共享仅477类,数据难以真正发挥利民惠民、支撑政府决策的作用。
此外,尽管部分数据已接入共享开放平台,但由于不能被机器读取,成为无法释放应有活力的“休眠数据”。《2017中国地方政府数据开放平台报告》显示,截至去年4月,全国19个地方政府数据开放平台的8398个开放数据中仍有约25%的机器可读性较差。
中国科学院院士、北京大数据研究院院长鄂维南表示, “理论上我国有很多数据,但实际做数据分析会发现利用起来非常困难。”贵阳大数据交易所有关人士透露,不少企业以保护商业机密或节省数据整理成本等为由,不愿意交易自身数据。部分政府部门也缺乏数据公开的动力:有的是因懒政而让数据沉睡,有的则是已经利用数据开展商业化应用,不愿共享。
其二是技术创新滞后。我国大数据产业虽然与国际大数据发展几近步伐相同,但是仍然存在技术及应用滞后的差距,在新型计算平台、分布式计算架构、大数据处理、分析和呈现方面与国外仍存在较大差距,对开源技术和相关生态系统影响力弱。市场上,由于国内大数据企业技术上的不足,用户更加青睐Google、IBM、Oracle、SAP等国外IT企业。
微软大中华区董事长兼CEO柯睿杰认为,数据智能并非那么触手可及。大数据来源众多、数量巨大、形式各异,要从中获得一目了然的信息,就需要真正高效、可靠的数据管理和分析平台。
如何处理巨量数据是中国大数据产业面临的首要技术问题。鄂维南表示,“中国的数据体量特别大,比如,中国的视频比任何国家都要多,这些数据储存困难,需要用的时候往往就没了”。再以基因测序领域为例,中国每年新增的基因组测序原始数据超过20PB(1PB相当于100万GB),面临数据量大、数据处理流程长等技术挑战。
目前,我国大数据技术创新能力还有待提升。《大数据产业发展规划(2016-2020年)》指出,我国在新型计算平台、分布式计算架构、大数据处理、分析和呈现方面与国外仍存在较大差距,对开源技术和相关生态系统影响力弱。同时,大数据应用水平不高。我国发展大数据具有强劲的应用市场优势,但是目前还存在应用领域不广泛、应用程度不深、认识不到位等问题。
“我国大数据在底层技术上和国外差距特别大,技术都来源于谷歌等国外大公司。”国务院发展研究中心信息中心研究处处长李广乾说,很多时候我们的商业模式走在了技术前面,但并没有通过技术手段来推动创新。
第三是人才不足限制了大数据产业创新发展的成效。清华大学计算机系教授武永卫透露的数据显示,未来3至5年,中国需要180万数据人才,但截至目前,中国大数据从业人员只有约30万人。
同时,大数据行业选才的标准也在不断变化。初期,大数据人才的需求主要集中在ETL研发、系统架构开发、数据仓库研究等偏硬件领域,以IT、计算机背景的人才居多。随着大数据往各垂直领域延伸发展,对统计学、数学专业的人才,数据分析、数据挖掘、人工智能等偏软件领域的需求加大。
其四,行业应用不深入。赛迪顾问股份有限公司大数据产业研究中心提供的数据显示,互联网、金融和电信三大领域的大数据应用在各行业总规模中所占比重超过70%;健康医疗领域和交通领域近年不断“上架”新应用,但行业规模占比相对较小;而在其他众多民生领域,大数据应用仍处于浅层次信息化层面,行业发展水平参差不齐。