一、引言
近年来,伴随着新一代信息技术的快速发展,人类社会逐步迈入大数据时代。大数据已成为重要的国家资源,正在深刻地影响着时代发展进程,催生新的模式和业态。从世界工业革命发展历史来看,如果说第一次工业革命以煤炭为基础、以蒸汽机和印刷术为标志,第二次工业革命以石油为基础、以内燃机和电信技术为标志;第三次工业革命以核能基础、以互联网技术为标志,那么未来第四次工业革命很可能将会以可再生能源为基础、以大数据为标志。以美国、英国为首的一些发达国家,以及联合国、世界经济论坛、欧盟等国际组织,都已从政府和组织层面将大数据发展提升到战略高度(UN Global Pulse,2012;World Economic Forum,2012)。
我国政府高度重视现代信息技术,尤其是大数据对社会经济发展的深刻影响。2015年3月5日第十二届全国人大三次会议上,李克强总理在政府工作报告中首次提出“互联网+”行动计划,推动大数据研究与应用,为我国各部门和行业未来发展提供了重要的支撑。
政府统计机构作为国家(或地区)应用信息技术生产、管理和发布数据的职能部门,面对大数据带来的影响和挑战,应当积极应对,充分利用大数据催生大变革,构建政府统计大数据发展战略和应用模式,推动现代化统计体系建设。除了互联网+”模式可选之外,目前社会经济中还存在一种较为新颖的、典型的模式——“+互联网”模式。有一些文献对两种模式在经济新常态下的区别进行了探讨,但针对政府统计大数据应用情景下的探讨则较为匮乏。
不过,由于大数据主要源于互联网,针对大数据与政府统计的文献可以为此问题研究提供重要参考。Eurostat(2014)概述了大数据对政府统计带来的机遇与挑战。Dass et al.(2013),Buelens et al.(2012),Cheung(2012)等认为大数据会为政府统计带来较有意义的补充,并探讨了大数据在交通和社交等领域中的应用。Landefeld(2014)、Reimsbach-Kounatze(2015)等探讨了如何将大数据与传统政府统计数据进行整合,以及相关的隐私保护等问题。在国内同类文献方面,马建堂(2013,2015)、赵彦云(2015)、郑京平和王全众(2012)、何强(2015)等研究探讨了大数据为政府统计在数据标准与分类、工作机制设计、统计处理技术、统计法律法规等领域带来的新课题,以及大数据在消费、零售、人口、农业、交通等专业统计的应用。
整体而言,目前这些研究侧重于大数据在政府统计的具体应用研究,对其宏观应用模式选择的讨论较少,而这是关系到整个政府统计发展的重大战略问题。本文尝试对这一问题进行研究探讨。
二、“互联网+”与“+互联网”的区别及对政府统计大数据应用工作的意义
(一)“互联网+”的概念
目前,对“互联网+”概念的理解存在很多版本。李克强总理在2015年政府工作报告中与此概念相关的表述是:国家要制定“互联网+”行动计划,推动移动互联网、云计算、大数据、物联网等与现代制造业结合,促进电子商务、工业互联网和互联网金融健康发展,引导互联网企业拓展国际市场。
2015年7月国务院在《国务院关于积极推进“互联网+”行动的指导意见》中认为,“互联网+”是把互联网的创新成果与经济社会各领域深度融合,推动技术进步、效率提升和组织变革,提升实体经济创新力和生产力,形成更广泛的以互联网为基础设施和创新要素的经济社会发展新形态。
国家发展和改革委员会在《关于2014年国民经济和社会发展计划执行情况与2015年国民经济和社会发展计划草案的报告》中,将其定义为:“互联网+”代表一种新的经济形态,即充分发挥互联网在生产要素配置中的优化和集成作用,将互联网的创新成果深度融合于经济社会各领域之中,提高实体经济的创新力和生产力,形成更广泛的以互联网为基础设施和实现工具的经济发展新形态。企业界对“互联网+”也有一些具有代表性的定义。
比如,马化腾2015年在其全国人大议案《关于以“互联网+”为驱动,推进我国经济社会创新发展的建议》中,认为“互联网+”是指利用互联网的平台、信息通信技术把互联网和包括传统行业在内的各行各业结合起来,从而在新领域创造一种新生态。阿里巴巴集团则认为,所谓“互联网+”,就是指以互联网为主的一整套信息技术(包括移动互联网、云计算、大数据技术等)在经济、社会生活各部门的扩散应用过程。
综合以上多种观点,不难看出,“互联网+”就是一种将互联网与传统行业有机整合的模式,其中“+”后面可以是金融、医疗、教育、交通等。李克强总理2015年政府工作报告中关于“互联网+”的规划主要是基于经济层面的考量,是强化互联网主动与传统行业融合的标志。当前中国经济正处于转型升级的重要时期,创新驱动正在成为我国经济发展的新引擎。
互联网具有打破信息不对称、降低交易成本、促进专业化分工和提升劳动生产率的特点,为经济转型升级提供了重要机遇。作为已经是世界制造业大国的中国来说,不仅需要继续破解仍存在的粗放发展、核心竞争力依然薄弱等问题,更需要与基于互联网技术的移动互联网、云计算、大数据、物联网等相结合,提升中国制造业的成色与品质。同时,“互联网+”带来的新商业模式和商业业态,还将激发着社会和市场的潜力、活力,逐步成为中国经济提质增效升级的“新引擎”。
(二)“+互联网”的概念
“+互联网”的概念是在“互联网+”的基础上提出的。一般而言,“+互联网”主要是指传统行业以既有业务为基础,主动利用互联网技术和理念,提高为用户服务的效率和质量的发展模式。
从国际上看,德国的“工业4.0战略”、美国的“工业互联网”等模式,都可以大致认为是“+互联网”模式在具体领域的应用范例。主动利用互联网进行自我创新甚至自我革命,具体到每一个行业企业可能模式各异,但总体上这条路是符合“继承——创新——再继承——再创新”这种模式循环往复的。
(三)“互联网+”与“+互联网”的区别
“互联网+”与“+互联网”的差异包括两方面:
第一,“互联网+”侧重于从线上到线下的过程,而“+互联网”则侧重于从线下到线上的过程。“互联网+”的主导者往往是互联网企业(如阿里巴巴等),从技术、商业模式、资金、人才等方面看,都是互联网企业主导着融合进程。“+互联网”则正好相反,主要是传统企业在主导着融合进程。比如,以淘宝网为代表的网商,首先通过线上的B2C或C2C等形式进行交易,然后再经过线下的快递、邮寄等形式发货,这就是典型的“互联网+”模式。而前述苏宁电器的转型模式则是典型的“+互联网”模式。
第二,“互联网+”具有新技术优势、体制机制优势和更广泛的社会支持,容易产生爆发性增长。而“+互联网”拥有存量优势、行业标准优势和公信力优势。“互联网+”模式下,互联网技术是基础,再加上其优惠的价格、便捷的操作、舒适的体验,足以赢得巨量消费者,典型的例子就是支付宝,它是“互联网+金融”的应用代表。同时,李克强总理2015年的政府工作报告还给该模式带来了很大的舆论优势。不过,该政府工作报告提“互联网+”而不是“+互联网”,不是忽略传统企业的作用,更多是希望用互联网这种先进的生产力来倒逼传统产业革新发展。相比之下,在“+互联网”模式中,一方面迫于外部特别是互联网企业的压力,另一方面也迫于内部问题导向的压力,传统企业正在积极主动利用互联网技术提高自身服务客户的能力。这种模式虽然舆论声势不及“互联网+”,但其发展态势非常迅猛,目前也催生一些重要的行业应用模式,如德国的“工业4.0战略”和美国的“工业互联网”。
(四)政府统计大数据应用战略模式中的“互联网+”与“+互联网”
大数据在政府统计中的应用模式,既包括“互联网+”,也包括“+互联网”,但这两种模式存在不同的特点。
政府统计大数据应用中的“互联网+”模式,是指那种“政府统计部门可以通过互联网在线上无技术障碍地获取、存储、分析处理数据”的模式①。比如,对于淘宝、天猫、京东、1号店等电子商务网站,其商品的分类、价格等数据,政府统计部门均可以通过网络爬虫等技术动态获取、存储,进而可以在线下进一步清洗和挖掘。
政府统计大数据应用中的“+互联网”模式,是指那种“数据原本存储在政府、企业、家庭等单位的数据库,政府统计部门无法在线获取、存储、分析处理,但这些单位主动将数据上线,进而政府统计部门可以无技术障碍地获取”的模式。比如,某科研机构部门利用科研专项基金,开展了一项关于居民消费支出情况的调查,取得了很多家庭的微观数据。如果该机构主动将这项调查数据对外公开、共享,政府统计部门也可以获取,则这种模式就可以认为是“+互联网”模式的一种具体应用。
三、政府统计大数据应用的战略模式选择
本文认为,大数据在政府统计应用中的战略模式,不宜只集中在“互联网+”,而是应当同时推进“互联网+”与“+互联网”,且在目前政府统计可用大数据源较为匮乏的情况下,应该给予“+互联网”模式更大的重视力度,积极打破信息共享壁垒,实现数据的互联互通互享,更好地打造政府统计数据源第二轨,持续提升中国政府统计的现代化水平。
(一)当前基于“互联网+”模式的,可为政府统计所用的数据源较少,“+互联网”有助于迅速扩大政府统计可用的数据源,更大程度地发挥数据聚合价值
这可以从大数据的分类上进一步阐释。如果从数据产生主体的角度来分,在马建堂(2013,2015)研究的基础上,将目前可应用于政府统计的大数据,归为行政记录数据、商业记录数据、互联网与传感器数据三大类,如表1所示。
不难发现,表1中除了部分行政记录数据,以及部分基于“互联网+”模式的电子商务交易数据、社交网数据、媒体数据可以无技术障碍地获取外,其余数据均需通过“+互联网”模式导入到互联网,才能成为政府统计可用的大数据源。
事实上,尽管当今社会逐步迈入大数据时代,但通过常规统计工作流程从住户、企业等部门获取数据的难度越来越大,调查对象不配合工作的现象时有发生,一套表制度的实施并没有从数据源头解决数据匮乏问题,而且已有的行业企业数据资源均立足行业企业本身的统计标准,彼此之间存在口径差异(比如阿里巴巴集团和1号店对各自线上零售品的分类),形成了众多“信息孤岛”,无法形成数据合力,产生更大价值。因此,做好“+互联网”是实现“互联网+”计划的重要前提之一,有助于政府统计部门逐步实现从“生产—管理”型向“管理—生产”型的职能转变。
从中国国家统计局的实践经验来看,尽管在2013年和2014年分别与阿里巴巴、百度、腾讯等17家知名企业签署了大数据战略合作协议,至今为止仍没有开发出一个成熟的、重要的大数据统计指标,这与数据使用的壁垒高度相关。此外,笔者重点以商业记录数据为例进行考察发现,目前其数据源应用主要有两条途径:一是积极整合行业企业内部的各种数据源,通过对整合后的数据进行挖掘分析,从而开展大数据应用;二是积极借助外部数据(主要是互联网数据)来实现相关应用。
但是,现有的数据源中,仍然以机构内部数据为主(比例普遍超过50%,多数行业超过80%),原因主要是数据的开放和交易尚未形成市场主流形态。以国内主要的电子商务交易行业企业为例,虽然目前推出了很多价格指数等大数据应用成果(如1号店指数以及阿里巴巴网购(全网)价格指数等),但这些成果基本都是为企业服务的,由于法律和数据交易机制不健全,这些企业的交易平台在开放交易数据方面仍然持谨慎态度,严重限制了大数据的聚合发展,彰显当前促进“+互联网”模式发展的迫切性。
(二)着重支持“+互联网”模式,有利于数据溯源,辅助甄别数据类型,保护用户数据所有权
政府统计大数据的来源主要包括两方面:一是普查、户籍、社保、医保、电信、金融等传统结构化数据以及在此基础上延伸、扩展后形成的海量非结构化数据;二是基于互联网、传感器、GPS等现代信息技术产生的新数据,如微博、微信、博客、论坛等社交媒体产生的数据。由于数据来源类型多样,所以有必要利用数据溯源技术,记录数据的来源、所有权及其传播、变化过程,据此可以方便地验算结果的正确性,或者以极小的代价进行数据更新,并为数据挖掘与应用提供辅助支持。
“+互联网”模式的从线下到线上的典型特征,可以很好地满足数据溯源的需求,通过数据来源可以对不同类型的数据进行有针对性地清洗和校正,提升数据挖掘与建模时的科学性,并使得数据的所有权得到维护,这还会进一步促进数据的开放与共享,形成良性循环。
(三)“+互联网”模式有助于在“互联网+”模式的基础上,从多种角度评估政府统计数据质量,同时还可以强化社会对统计工作的监督,及时把握政府统计舆情
对政府统计数据质量科学评估,既关系到国家宏观调控的有效性,也关系到各类市场经济主体的切身利益,更对统计部门乃至整个政府部门的公信力有重要影响。目前,对政府统计数据质量评估的方法主要包括逻辑检验、计量经济模型分析、核算数据重估、统计分布检验、调查误差评估等方法(冯蕾、周晶,2013;许涤龙、叶少波,2011),这些方法的共同特点是主要基于统计数据本身进行评估,侧重于统计方法的研究,缺乏从大数据源角度的研究。
“+互联网”模式鼓励更多的数据生产主体,包括政府部门、研究机构、企业、个人等主体,从多种角度公开数据源,为研究政府统计数据质量问题提供更多样化、更详细的数据。比如,针对中国收入分配状况的基尼系数研究,北京大学、中国人民大学、北京师范大学、西南财经大学等机构,都曾利用专项的基金针对中国家庭收入和消费情况进行调查,测算了相应的基尼系数,而且这些测算结果与国家统计局公布的结果存在一定差异,这对评估后者的数据质量提供了重要的数据来源。如果基于“+互联网”模式的数据源进一步增大,则更有裨益。因为对大数据应用而言,数据量通常需要超过一定规模,这是由于利用大数据建模预测时,需要对数据反复进行训练,以便找到拟合更好的训练模型,因此用来训练模型的数据总量必须要足够多,如果少于一定规模,就会出现所谓“过度拟合”(即为了得到一致假设而使假设变得过度复杂)。此外,大数据中的噪音数据往往会以有意义的模式出现,从而会绕过普通训练模型的监控,这就需要更大的数据量进行矫正。
另一方面,随着互联网中可用数据源增多,社会公众会从各个角度对政府统计数据进行评价,在人人均可为自媒体的互联网时代,这些舆情对统计工作具有较强的监督功能,倒逼政府统计进一步提升工作效能和数据质量,多年以来政府统计实践工作也充分印证了这一点。
四、结语
本文探讨了在政府统计大数据应用中,如何科学对待“互联网+”和“+互联网”两种发展模式的战略性问题。本文无意于绝对否定或肯定某一种模式的价值与意义,而是启示研究者根据社会经济发展以及政府统计发展的不同阶段选择更为合适的发展模式。从数据应用的角度而言,“互联网+”和“+互联网”两种模式之间诚然存在分歧,但并不重要,重要的是如何促进线上线下不同类型数据之间的有效聚合,消除数据信息壁垒,从而发挥大数据本身的巨大价值,为服务型政府统计建设提供更强有力的支撑。