原国家信息中心副主任,原中国信息协会副会长胡小明对当前数据应用存在的问题从九个大的方面提出了自己的看法。
一、 数据应用过热会带来问题
1.1 数据宣传已经过热
打开智慧城市的宣传满是数据化的内容,除了大数据就是数据共享,数据重要、重要、最重要,固然数据在智慧城市建设中是重要的,但是一切重要的理念都有边界,讲过头了就适得其反,数据的重要性已经讲过头了。
1.2 过热会产生盲目性
一种理念宣传过热一定会出问题,冷静思考能力被屏蔽了,不敢怀疑了,不敢说不同的意见了,没有怀疑何来智慧?数据的作用被捧上天,直接后果是对数据系统的盲目投资,投资在在数据作用无限放大的假设之上,无争论无批评的投资是浪费之源。
1.3 看不到效益
总是说数据共享能带来巨大效益,大数据应用能带来科学决策,但是很难看到实例更找不到统计数据,所谓效益只是一种推理,假定能拥有全部的数据就能做出最科学完美的决策,早期的计划经济也是这种逻辑,社会充满着不确定性,数据完备是不可能的,找一个大数据决策实现大效益的例子难上加难,而大数据浪费的例子却比比皆是。
1.4 数据应用需要回归冷静
大数据应用前景是辉煌的,辉煌的前景要靠一步一步如履薄冰地精心积累起来的,不是靠"人有多大胆地有多大产"的逻辑实现的。数据服务目的是推动政府管理的精细化,数据精细化是管理精细化的基石,不能用粗放的习惯去管理以精细化为目标的数据应用,数据应用必须回归冷静。
二、 剔除脱离实际的数据应用目标
2.1 期望过高必然会带来问题
数据应用目标一定要实际,不实际的目标是造成数据服务失败的主要原因,信息共享之所以成为电子政务的难题就是高估了信息共享的效益,造成投资过大,实际应用远远达不到预期目标,如果目标实际一些,做能够看得请的数据共享,投资会小得多,也不会因长期不见效益倍受指责。
2.2 信息技术并不能保证效益
拥有先进的信息技术并不等于拥有效益,效益的产生需要一连串的配合,新技术只是效益链中的一个环节,没有效益链整体的流畅配合无法形成效益,有效的数据应用时常需要业务流程的重组,效益链也是个系统,仅有技术思维是不足以构建效益链的。
2.3 现有信息共享措施并不成功
政府推动信息共享的两大措施是建设政府信息资源目录和信息共享交换平台,两项措施推行近十年依然不很成功,系统开发推行很吃力,但使用者却不多,政府信息资源目录的主要贡献是使政府数据管理标准化了,但其应用也是门可罗雀,用户不足能使企业关门,政府部门对此却不在意。
2.4 信息爆炸降低信息共享价值
信息共享的价值与全球信息化发展密切相关,三十年前计算机数据资源极为稀缺、信息共享渠道极为稀缺,信息共享成为推动数据库应用的旗帜发挥着重要作用,但是在互联网、大数据、云计算普及的今天,数据资源爆炸,共享渠道充裕,信息共享作为口号已经过时了,信息资源也因供应充足而降低了价值,数据应用需要新的口号了。
三、数据应用的效益与成本
3.1 数据应用的效益问题
政府数据应用的效益主要是社会效益,社会效益不便于与政府投入成本直接比较,在实际处理中是通过政府价值观来评价的,政府要站在公众的立场上评价政府数据服务的价值,判断该数据服务是否值得投资,而公众是以自己的获得感直接评价政府是否浪费了纳税人的资金。
3.2 关注数据应用的机会成本
评价数据服务系统的效益需要扣除成本,如何计算成本?通常只想到会计成本,但是政府领导人主要考虑的是机会成本。机构负责人办事都有优先级,知道什么事情更重要,绝不能让次要的事情来耽误主要事情,机构是否重视数据应用取决于有多少更紧迫的事情,被重大事情压得抬不起头的负责人是不会关注数据应用的,被耽误的最大事情就是数据应用的机会成本。
3.3 数据服务有规模才有效益
政府数据应用服务的效益与规模密切相关,大效益就需要大规模,大规模的业务通常是政府对公众的规范化服务,数据应用要尽量与政府大规模服务业务相结合才会有更大效益。用户太少的往往不值得做,中小城市不能照抄大城市的做法,大城市有效益的事情中小城市却可能亏损,为研究人员提供服务的数据系统更应当谨慎,因为此类服务不容易形成业务规模而很难经营。
3.4 效益的可持续性问题
要区别是一次性服务业务与长期服业务。一次性服务效益容易计算,而长期服务业务必须考虑其生存风险,其效益与业务稳定性密切相关,例如信息共享系统的服务能力取决于其数据更新维护的稳定性。影响长期服务效益的关键是业务的可持续性及是否有自适应环境与需求变化的能力,所建系统必须有其生命力,要能在生命期内持续服务,在外部环境变化能够自适应外部变化及需求的调整,数据系统设计不仅要考虑技术问题还要考虑运行与激励机制的问题。
四、不要高估内部信息共享对决策的贡献
4.1 信息共享概念的产生环境
重要概念的产生都有重要的历史背景,每个概念都被打上时代烙印,对概念的理解不能望文生义,离开了历史含义的理解会使概念绝对化而丧失活力。信息共享是从决策需求提出来的,当时是数据资源极为稀缺的时代,增加信息意味着决策质量会提高,信息共享则是增加信息的重要渠道,自那时开始直至今政府始终高度重视信息共享。
4.2 决策需要的是数据集的信息
信息共享与数据共享是两个概念,信息共享是为决策服务的,使用数据的目的是为了获取信息,进而进行决策,而数据共享只是数据的直接使用,与信息无关与决策更无关。
政府决策不是对某一具体的事件给出处理办法,而是对普遍性问题制定政策,决策是针对普遍性问题的解决办法,决策者不能依据个别数据决策,而需要以对数据整体的理解决策,即依据数据集包含的信息决策,决策使用数据的目的只是获取数据集所包含的信息,数据资源只用于数据挖掘并不参与决策,参与决策的是信息。
4.3 不要指望信息共享会有惊人发现
政府目前所强调的信息共享只是在政府部门间的数据共享,即允许它部门使用本部门存储的数据,部门数据主要是统计数据与业务数据,业务数据是部门业务工作数据处理的实体数据,决策研究并不需要单个的实体数据,可用于部门决策的数据并不很多。决策研究不会只盯住政府内部数据共享系统,研究人员还有许多正式与非正式的信息渠道,如会议、部门汇报、电子邮件、互联网、微信等等,这些渠道可提供更多的内容,部门内部存储数据信息都会不同程度地泄露,使其内容不再有新鲜感,指望从内部信息共享系统有惊人发现很难。
4.4 要考虑互联网带来的数据竞争
互联网丰富的信息资源一直在打压政府信息共享系统对决策的价值,政府决策的信息来源是不受限制的,政府内部的信息共享系统始终受到来自外部信息共享渠道的竞争。政府内部信息资源只是领导人关注信息的一部分,更多的信息还需要来自外部渠道,外部信息资源的丰富程度内部系统不可相比,使用的方便性内部系统更不可相比,外部的竞争优势降低了人们对内部共享系统的依赖性。
五、基层业务数据整合应作为重点
5.1提取信息与数据处理使用数据模式不同
政府使用数据的业务有两类,一类是要从数据中挖掘信息以便用于决策,这种使用数据的模式称为数据挖掘。数据挖掘只使用数据并不改变原始数据。
另一类使用数据的目的是完成具体的服务操作,这种应用称为数据处理,政府为公众具体的服务离不开对用户数据的处理。业务处理使用数据是工作流程,数据处理结果会生成新的记录,使用老数据按规则生成新数据。
5.2 数据挖掘与数据处理对数据质量要求不同
数据挖掘关注的是数据集中所包含的信息,数据只是提取信息的原材料,由于统计分析工具能够过滤异常数据,对于具体数据的精准度并不关注。
数据处理是对用户关联的实体数据的直接操作,数据的精准度非常关键,数据的精准度直接影响服务质量,不准确的数据往往会引起业务处理纠纷,在数据处理流程中只关注具体数据的准确性,没有信息概念。
5.3 决策与操作使用数据的不同层次
政府决策并不直接使用数据,数据被用来提取信息,决策依赖的是对数据整体的理解,理解数据是高于数据层次的概念,计算机并没有理解数据的能力也没有信息的概念,信息是人脑才有的概念,是数据层次之上的概念。
政府服务业务处理是直接使用数据,依据具体数据操作,数据处理的方法由系统规定,操作人员没有自由量裁权,系统以形式逻辑的方式处理数据,是对数据的低层次的使用,没有信息概念,基层服务大都是这种模式。
5.4 数据服务要向基层倾斜
政府高层从事决策与政策研究是信息层次上的工作,不是IT技术能够承担的,决策与政策研究是人脑才擅长的领域,IT技术除了帮助进行数据挖掘,对决策思维帮助不大,这也是决策支持系统难以推广的原因之一。
政府基层工作主要是业务处理,对数据是直接使用,没有高层次的分析,数据处理方法是形式逻辑可描述的,不需要人脑信息抽象,适合信息技术发挥作用,数据服务向基层倾斜能够获得更大的成果。
六、大数据应用的优势与局限
6.1 政府怎样理解大数据
大数据最初的定义是指"现有的技术不能处理的大规模数据",在大数据热的驱动下其概念不断扩展,互联网公司认为自己的数据就是大数据;人工智能将经由传感器直接传来的数据统称为大数据;政府官员认为政府管理的数据集中起来就是大数据。现在很多城市都在成立大数据局,这将促使政府将一切数据都纳入大数据的领域,以充分便利用国家支持大数据应用的各种政策优惠。
6.2 大数据比抽样调查的优势
对比大数据优势首先是从统计分析的视角开始的,大数据与抽样调查比较,显然全样本的分析要比抽样调查可获得的信息要更多,尤其是小概率环境中的相关关系,大数据对数据中的错误的容忍度要大得多,数据规模越大其对数据的异常值的平滑能力越强,大数据可以发现更多更精细的规律。
6.3 数据整合连接的信息价值
信息是连接的产物,数据是静态的连接,连接是动态的数据。要理解一个组织或一个实体最重要的措施是观察其组织连接的结构。城市各视角数据的整合为深入理解城市增加了大量信息。城市的信息空间是一个整体,信息存在于连接之中,将同一实体的多方面属性汇集起来会使人们对该实体产生更完整的概念,这是连接的信息作用,将各部门的信息与地理数据相连接可以形成相应的地理图层信息,借助于地理位置还可以发现不同数据在位置上的相关关系,数据整合的作用就是凸显数据的连接,理解关注对象的整体结构。
6.4 大数据应用的局限性
大数据应用给我们带来了发现事物规律的新方式、新工具和观察问题的新视角,其贡献是巨大的,特别是大数据与人工智能的连接更是如虎添翼,人们设想大数据能够全面提升政府的管理水平,实现真正的科学决策、科学管理,甚至实现现代新计划经济。但是这种想法容易高估大数据的能力。大数据可以提升预测能力,但是对于不确定性问题预测依旧是不可能的。大数据能支持决策的范围有限,因为并非所有信息都可数字化,便于大规模收集的数据需要标准化,其范围会比较窄,也即数据规模必须以视野狭窄为代价,大数据适合于局部领域细节决策的优化,并不适合整体目标的大决策,不能盲目夸大大数据应用。
七、确定性层次的数据应用
7.1 数据应用的不同层次
对数据的使用有两个层次,一种是对数据的直接使用,如数据处理、数据挖掘、机器学习、人工智能等,在这个层次里是机器在使用数据,人脑并不参与,使用数据的逻辑是清晰的,问题是确定性的,这是IT能够发挥作用的层次。
另一种是间接使用数据的模式,要先进行数据挖掘,从中提取出信息,再由人脑利用信息进行决策或进一步研究。信息使用方式是高层次使用数据的方式,是通过人脑完成的,计算机可以处理数据却不能处理信息,利用信息决策是人脑才有的能力。人脑对信息的使用是不确定性问题。
7.2 信息技术与确定性问题
信息技术只能解决确定性问题,这是由计算机的原理决定的,计算机软件是一种计算,其结果必须是确定的,信息必须是完备的,计算机只能提高逻辑演算的速度,尽快得出答案,却不能在信息不完备的环境下进行运算。
信息技术适用于成熟规范的业务的自动化建设,因为在这类的不确定性已经被排除了,效益问题已由甲方承担了,信息系统的作用是提高业务的运作效率,没有人脑参与、没有不确定性,在这种环境下应用很容易成功。
7.3 信息工程学是面向确定性的科学
随着信息系统建设而成长起来的信息工程学是解决确定性问题的科学,它要求用户要解决问题的信息是完备的,目标是确定性的,这样信息系统就可以准确有效地设计出来,信息工程学解决技术可行性问题。
在信息技术应用中不确定性问题是不可避免的,如效益不确定、用户需求不确定、数据不完备等,这些不确定问题将由甲方负责人来拍板定夺,乙方不必考虑不确定性问题,这种分工有利于乙方专心完成信息系统的建设任务。
7.4 业务数据整合是确定性任务
2016年国家发改委等十部委联合提出了"一号一窗一网"方便公众的服务要求,政府公共服务需要对当事人相关实体数据进行处理,但一些数据会分散在不同部门的数据库中,调用不通畅是降低效率的主要原因,政务数据整合共享能够实现以实体标识符到部门数据库实际的统一调用,这是一项目标明确的任务,可以通过专业软件及数据标准化解决。
7.5 确定性项目也要有所为有所不为
确定性任务容易实现但不等于有效益,取得效益的关键在于恰当地选择目标,全面推动数据整合共享没有必要,因为不是所有的数据整合共享都有效益,无效益的数据整合共享不必做,即使会计成本划算的项目还要看其机会成本,会不会耽误更重要的项目,政府经费与人才是有限的,集中力量改进用户规模大的项目往往比多做几个小项目更有益。数据整合共享应当"有所为有所不为"才会有效益,总之确定性项目也不能什么都做,不能一刀切,精心选择目标才能提高效益。
八、不确定性问题的解决办法
8.1 解决不确定性问题的智慧
现实生活中确定性是相对的,不确定性是绝对的,确定性问题有规范的逻辑处理办法计算机能够处理,不确定性问题没有规范的逻辑处理办法计算机不会处理,不确定性问题要靠人脑来解决,人脑可以从更高的层次上思维与创新,这是电脑不及人脑的地方。
人脑解决不确定性问题的办法是创新与选择。人脑可以进行概念创新、技术创新,从而提出多种创新方案,借助于决策者的阅历、经验、直觉来评价优劣,选择最好的方案实施。解决不确定性问题没有万无一失的方案,所以决策人必须准备承担风险,这是电脑无法效仿的,电脑不懂责任感。
8.2 想象力丰富才会有好选择
人们常把技术设计与应用视为智慧,而忽略企业家选择的贡献,实际上选择是更重要的智慧。技术智慧解决的是确定性问题,商业智慧解决的是不确定性问题,技术智慧只考虑技术可行性,商业智慧考虑的是最终效益,效益问题超出了技术思维的能力。技术层次只懂得怎么做,商业智慧懂得选择做什么。技术怎么做可以学习,选择做什么却没有方法可学,只能依赖决策者的想象力与判断力,技术并不保证带来效益,效益来自企业家的勇气与悟性。
8.3 设计有生命的运行机制
数据服务系统还有因长期服务而增加的效益不确定性,因为服务环境总是不断变化的,用户需求也会不断变化,设计者不可能设计出长期有效的服务系统,为保证长期效益,设计者需要从更高层次上设计系统,需要设计自适应的机制,能够自动地调节服务功能,适应环境变化确保长久的服务效益。运行机构的激励机制很重要,激励的方向要与整体目标相一致,强有力的激励机制与高效率反馈改进机制形成运行机构的生命基因,确保了数据服务系统的长期效益。
8.4 效益层次高于技术层次
数据服务系统建设关键问题是要有效益,没有效益的数据服务不可持续,有效益才会有不断的资源供应才能使数据服务系统服务持续整个生命期,实现效益的难度高于技术可行性。技术可行性可视为第一层次目标,有可持续效益则是第二层次目标,第三层次目标是形成可持续效益的数据服务系统大量涌现的生态环境。层次越高不确定性程度也越高,抽象思维层次也越高。
爱因斯坦说过,"不能在产生问题的层次上去解决问题,要在更高层次上寻找解决问题的办法"。善于从更高层次上思维的人视野更广阔、思维更灵活,更有能力克服困难取得成功。
8.5 学习企业家的思维模式
技术人员主要面对的是确定性问题,其思维处于系统工程层次,碰到不确定性问题时他们会去请示上级,由上级对不确定的问题拍板定案后,才会继续从事信息工程业务,技术人员只关注系统可行性,其思维停留在确定性层次。
企业家是效益导向,必须正视不确定性问题,没有人能替企业家拍板排除不确定性,企业家必须亲自决策排除不确定性,让部下在确定的环境下工作,企业家是能在不确定性环境下努力推进工作的人,政府的数据系统建设领导人需要学习企业家的勇气、担当能力和创新精神。
九、数据服务的可测性与公众获得感
9.1 数据服务建设不忘最终目标
大数据应用与政务数据整合共享提出的目标是改善政府对公众的服务,目标要更多面向基层面向公众,但是做起来往往会变成面向领导,面向考核机制,这样会大大降低数据服务的效果。因此从更高层次上反思数据系统建设的过程,回到初始的目标,不忘初心非常重要。政府为推动数据建设会制定绩效考核的办法,考核办法应当向最终目标靠近,不要让部门为绩效而绩效,忘记最终目标。
9.2 公众获得感的重要性
数据服务系统设计以公众的获得感作为评价标准很必要,这是从服务的最终效果提出的效益要求,超出工程层次的测量标准,其展示的是服务效益。获得感是用户的感觉,是设计者不可控的,与信息系统的工程标准不同,政府自认为设计很好的系统公众若不喜欢就不能说是成功的,公众获得感是不确定性的标准,以公众获得感评价政府工作能够推动政府全面改进工作,并能够提高社会监督效率。
9.3 数据服务的可测性与管理能见度
城市数据服务系统与成果的可测性密切相关,一个成果不可测的系统必定是骗人的系统,设计人可以随意夸大其作用而无法证明,这样的系统是不能做的。数据服务系统的效益主要是社会效益,直接测量有难度,利用公众获得感作为社会效益的测量标准能够提高项目测量效果的直观性,这对于城市数据服务建设的可控性是有益的,使测量标准直观化,让系统服务的效果可视化,能够有效抑制虚假的数据服务。
9.4 效益导向推动政府数据建设
智慧城市建设中,城市大数据中心已成为标配的技术内容,但大数据中心的发展方向尚不清晰,仅靠领导支持并不能保证可持续,数据中心坚持以效益为导向很重要,要建立简单明确看得见看得懂的评价标准,评价数据服务公众满意度的客观标准之一是用户(包括政府用户与社会用户)规模,政府数据服务宜加强对公众的宣传,改善用户体验,促进用户规模增长,将用户稳定的使用率作为效益导向的指标。