摘要:2020年4月我国将数据列为第五大生产要素,表明数据要素正在经济社会发展中起到至关重要的作用。相较于资本、劳动等传统生产要素,数据要素具有非竞争性、易复制性、部分排他性、非均质性等独特特征,因此其在使用过程中会遇到很多不同于传统生产要素的新问题。文章分别从个人维度、市场维度、政府维度深入分析了我国数据要素使用时存在的问题。研究发现:在个人维度,数据要素使用存在个人数据攫取与数据主体知情权、数据收集与算法歧视弱势群体方面的问题;在市场维度,存在数据正反馈机制与企业规模扩大加剧市场垄断、数据交易市场混乱方面的问题;在政府维度,存在缺少抵制数据要素负面影响与促进其发挥作用的相关法律、数据准确性欠缺影响政府决策等等方面的问题。文章进而提出相应的对策,为我国今后的数据要素治理提供有益借鉴。
一、引言
正如电能、内燃机技术与原子能、电子计算机技术分别推动了第二、第三次科技革命的产生,近些年来大数据、人工智能、物联网等新兴技术的快速发展,推动全世界进入以数字经济为代表的第四次科技革命。在数字经济时代,数据成为第一生产要素,在整个经济社会发展中都起到非常重要的作用,被称作“21世纪的石油矿”。数字技术对经济体中的生产、消费以及分配模式都产生了很大的影响,极大地提升了整个经济体的运行效率。2005年,我国数字经济规模只有2.6万亿元,占国内生产总值的14.2%,至2022年,已经达到50.2万亿元,占国内生产总值的41.5%。
我国政府也认识到数据对于经济发展的重要性。在此背景下,2015年9月,国务院在《促进大数据发展行动纲要》中首次从国家层面进行总体规划,将数据列为国家重要战略资源,肯定了其对于经济运行机制、社会生活方式和国家治理能力产生的重要作用。2020年4月,中共中央、国务院发布了《关于构建更加完善的要素市场化配置体制机制的意见》,正式将数据列为第五大生产要素,与土地、劳动、资本、技术并列。2023年3月,国务院成立了国家数据局,专门负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用。同年8月,财政部发布《企业数据资源相关会计处理暂行规定》,提出2024年1月1日起企业应在会计报表附注中对数据资源相关会计信息进行披露。以上一系列政策的次第推出,充分体现出我国政府对于数据要素的重视,以及将数据要素作为经济发展新引擎的决心。
目前很多研究对数据要素给出了不同的定义。其中较为权威的是国家信息通信研究院所定义的:数据要素是指参与生产经营活动,以电子方式记录并为使用者和所有者带来收益的数据资源。可以看到数据要素的存在形式和参与生产的方式与传统生产要素均有较大的差异,数据要素具有非竞争性、易复制性、部分排他性等完全不同于传统生产要素的特征。因此,在运用和治理数据要素时不能简单地套用传统生产要素的相关方法,应积极探索适合数据要素的新方法,从而发挥其在经济增长中的特殊作用。
然而,我国对数据要素的使用和治理仍然处于起步阶段,在数据收集、数据处理、数据交易等环节缺乏符合数据要素特点的规章制度,导致我国在数据要素使用过程中存在很多的问题。这些问题如果得不到妥善解决,就会成为数据要素发挥作用的绊脚石。目前,相关研究主要集中于个人隐私保护、数据交易市场与数据垄断中的某一方面,对其他方面的问题研究不足且缺乏系统性。本文将从个人维度、市场维度以及政府维度,较为系统全面地分析我国数据要素流通使用存在的问题,并提出相应对策,以为相关决策部门提供相应的理论支撑。
二、数据要素流通中存在的主要困境及其原因分析
1.个人维度
(1)个人数据攫取与数据主体知情权
近些年来,大数据技术的发展让人们愈加关注其对个人信息造成的威胁,很多企业都会通过各种渠道收集或提供产品与服务换取人们的隐私数据,并且这些数据的获取、流通与使用过程通常是在没有取得数据主体同意的情况下进行。
Gregory指出大数据就是由人构成的,这意味着数据的获取过程通常都伴随着对人们非常有侵略性的探测、监视以及跟踪。目前信息技术高度发达,各种数字设备无处不在,人们的健康、习惯、信仰与行为等数据大多都被各种公司或研究机构在不直接接触的情况下获取。这致使人们对数据研究活动越来越不信任,以及数据化的需求与数据提供者自主权之间的不匹配等问题。当数据变为一种新的资本形式,企业或研究机构会用各种方式从任何可能的来源获取尽可能多的数据,这种动力会催生出更多新的数据收集方法。Mezzadraa和Neilson将数据收集类比于资本主义早期对于土地的强占与资源的攫取,他们认为数据的收集过程从本质上应该被理解为数据掠夺。
企业要想充分发挥数据要素的作用不仅仅需要被动地收集数据,同样需要积极地创造数据。对于很多商业模式来说,利润最重要的来源是人们使用某产品或服务产生的信息,而不是购买该产品或服务支付的货币。当人们谈论起“数据收集”“数据挖掘”等将各种数据搜集并且整理成可以使用的信息技术时,通常想象这些活动是一种中性积累。但是,从数据攫取这一角度分析这些技术的本质,就可以看到其对于目标人群的监控与剥削。现实生活中有很多可以免费使用的应用程序以及付出很少代价就可以得到的电子产品,我们在使用这些产品或服务时不自觉地变成了为企业生产数据的工具。可以看到,数据要素的发展伴随着对个人信息的收集以及隐私的侵略。结合以上特点,Zuboff将这种新的经济形式称为“监视资本主义(surveillance capitalism)”。
需要注意的是,这种对于日常生活的监视以及隐私的侵犯通常是在没有经过个体同意的情况下进行的。目前告知人们其数据被收集主要是通过收集数据的应用程序条款,然而这些条款通常非常繁琐。早在2008年,McDonald和Cranor就发现一个美国人平均每年要遇到1462个隐私条款,全部读完它们需要76天。这些条款不仅非常冗长,其内容也包含很多专业的法律知识。并且,在公司提出这些条款时没有留给人们任何选择的空间。对于人们隐私权力的侵犯同样发生在数据的传播和使用阶段。我国民众对于自身被收集数据的流通途径和用途一无所知,并且也没有出台明确的法律防止企业将收集到的个人数据分享给第三方。
这些侵犯居民隐私的活动会造成很多负面影响。首先,对于个人数据的科学研究和利用缺乏伦理标准,无法阐明收集与分析这些数据的原则和机制,可能会对被研究人群造成伤害。其次,姓名、证件号码等个人数据传播后容易被不法分子利用,进而实施电信诈骗等犯罪活动。最后,企业对大数据的使用也缺乏规范,现在企业可以肆意利用数据得到人们的生活习惯、支付意愿等信息,从而造成相同产品或服务对于不同消费者呈现不同价格的现象。这种利用数据进行的价格歧视行为很大程度上榨取了消费者剩余,给消费者造成利益损失。
(2)数据收集与算法歧视弱势群体
在收集或使用数据要素的过程中很可能加剧社会中弱势群体受到的歧视,并且现有解决方法收效甚微。在收集方面,Runes发现进行社会调查时收集到的汇总数据掩盖了人们种族、收入、教育水平、职业等很多因素的差距,当运用该数据做出决策时,会让一部分群体获得过多的收益而忽略一些弱势群体的需求。各个机构在收集数据时也主要关注社会主流人群的利益,较少考虑弱势群体。有时数据收集不但不能使弱势群体获益,还会对他们造成伤害。比如美国在对亚裔的数据收集基础设施方面投入巨大,并且经常在对收集到的亚裔数据进行分析后,以恐怖威胁、犯罪、非法滞留等理由对亚裔进行监禁和驱逐。
在使用方面,数据要素对于弱势群体的歧视主要是通过算法实现的。算法指的是完成任务的一系列规则,这些规则在以前是由计算机程序员人工编写,而在数据成为生产要素后,机器学习开始使用一种利用大型数据集自动统计推断过程开发的特殊算法。这种算法先将要研究的对象量化,再从大量量化结果中归纳模型,然后运用模型研究新的对象,最后根据反馈进行改进。算法所使用的数据来源于社会中的人,而社会本来就是不平等的,因此算法会偏向于巩固现在社会存在的权力、边缘化和优劣模式。现在很多机构都运用算法来为刑事判决、福利分配、招聘流程以及其他资源分配活动提供指导,然而这种以数据驱动的系统会产生有偏的结果,最终反映并加强社会中的不平等。例如,The Princeton Review是美国一家考试辅导公司,其通过算法将广告大量投放给亚裔群体,并且针对相同的服务有近两倍概率收取亚裔群体更高的费用。
现在有很多学者都提议使用“反分类(anti-classification)”方法解决算法导致的歧视弱势群体问题,反分类的含义是在使用算法处理任何问题时禁止使用受到保护的个人特征。然而在实践中反分类方法并没有起到防止歧视弱势群体的作用,反而可能加重这一问题。在2014年,亚马逊运用算法将每个职位与申请者进行匹配后排序,并且将性别、种族等身份特征从申请信息中剔除,旨在提高效率并减少对弱势群体的偏见,但结果却加深了在应聘过程中对于弱势群体的歧视。因为亚马逊和其他很多大公司一样,算法的训练数据主要来自白人男性,这会让一些女性以及其他种族特征降低申请人的分数,从而产生歧视弱势群体的恶性循环,亚马逊最终在应聘过程中放弃了使用算法。我国虽然不存在种族歧视问题,但是越来越多的公司在招聘时开始运用算法进行筛选,会造成一些与家庭条件相关的(比如社会实践、实习经历不足)或者与性别相关的(比如参加过女子社团)指标降低申请者的分数,从而导致对弱势群体的歧视。可以看到,反分类方法本质上是有缺陷的,这一方法看似从意识形态方面避免了对弱势群体的歧视,但没有从数理统计的角度真正解决这一问题。因此,如果一直运用现在的算法而不进行改进,数据要素的使用就会加剧弱势群体受到歧视。
2.市场维度
(1)数据正反馈机制与企业规模扩大加剧市场垄断
数据要素主要通过自身正反馈机制、促使企业吞并与合并、帮助企业滥用支配地位等方面加剧市场垄断。在数据要素自身正反馈机制方面,现代企业以及其他机构都被一种“数据祈使(data imperatinve)”驱动着,这种力量让它们要尽可能地从任何可能的来源获取数据。这就会形成一个反馈回路:拥有大量数据的机构才可以形成某些控制系统,而这些控制系统在运作的过程中又会产生更多的数据,导致数据会越来越集中在一些机构。对于企业来说,数据与权力和利润相对应,这种反馈回路会让某些企业产生无限的权力和利润,从而加剧垄断。
在促使企业吞并与合并方面,首先,数据的产生与收集需要吸引大批用户使用自己的产品,这需要高额成本开发出高质量的产品,并且需要给予使用者一定补贴,这一过程同样需要大量资金,因此一般只有大企业才有能力负担。这些大企业通过免费或低价的产品吸引顾客,然后收集他们的数据来获取源源不断的利润。而互联网产业的小型公司通常没有自己的数据库,很大程度上限制了它们的发展,最终只能倒闭或被收购。公司的合体并不局限于大公司对小公司的吞并,越来越多体量相同的公司也开始进行合并。因为数据集相互补充远比将数据储存在很多个“数据孤岛”里拥有更高的价值。在很多行业,数据的合并对于创新活动等方面有明显的促进作用。如在2015年,也就是我国的“大数据元年”,很多互联网公司,如美团与大众点评、58同城与赶集网等,通过完成合并成为各自领域的巨头。
除了企业的收购与合并造成的垄断外,数据要素也使得巨头企业能够滥用自身的市场支配地位从而造成垄断。这种支配地位指的是一些掌握大量数据资源的企业通过自身的力量与地位将其他竞争者挤出市场的一种状态,任何占据市场支配地位的企业都会阻碍其他竞争对手获取数据从而垄断市场。还有一部分企业通过自身的力量无法达到挤出其他企业的目的,便与一些企业通过协议的方式达成同盟,在同盟内部数据共享、协同经营,进而排除其他企业以实现垄断,当市场规模足够满足同盟内各企业的盈利需求时,这种“共赢”的协议垄断模式就会持续下去。可以看到,数据要素让市场更容易形成垄断。
(2)数据交易市场亟待完善
现阶段,我国数据交易市场比较混乱,主要存在产权不明确、交易机构经营不力、安全性难以保障、分配机制不健全等问题。
第一,数据产权不明确,发生交易活动时易产生纠纷。清晰的产权规定与合理的权属登记制度是数据能够在市场中顺利交易的基础。数据产权主要包含数据的所属权、使用权、收入权三个方面,明确数据产权就是要确定这些权利的界限与归属。然而数据要素由于不同于传统生产要素,其产权确定非常复杂,我国目前还没有法律对数据产权如何确定给出明确解释,也没有对数据这一新型生产要素建立符合其特征的产权登记制度。这使得数据在进行交易时主要转让的是交易权而非产权,从而影响交易各方利益分配。在数据产权确定困难的情况下,数据无法采用传统物品完备的交易方式进行交易,参与交易各方的利益也很难有法律保障。
第二,大部分数据交易机构经营不善,无法发挥其促进数据交易的作用。我国大部分数据交易机构发展现状都与预期相差甚远。在现有的40多家各类数据交易机构里,只有大概1/3的机构官网仍然正常运营,其他机构已无法通过网络与其联络业务。通过天眼查app对这些机构进行查询发现很少有机构正式员工超过10人。罗曼和田牧通过对我国第一家大数据交易所—贵阳大数据交易所进行实地调查后发现,该交易所的业绩与预期值差距非常大。
第三,对数据的安全保护做得不够到位。数据要素由于其具有的特殊性质,在交易时存在很多安全问题。数据由于虚拟性和易复制性,非常容易被泄露。一些不法分子可以通过黑客技术、雇佣商业间谍等非法途径获得其他企业计划交易的数据,让数据出售方遭受巨大损失。
第四,数据参与分配机制不健全,存在分配不公平的问题。党的十九届四中全会提出,要健全数据要素按自身贡献参与收入分配的机制,其中数据要素的自身贡献由市场决定,其获得的收入由贡献决定。但数据要素的贡献难以确定,其作用很多时候体现为促进其他生产要素的生产效率提升,难以量化其单独的贡献。同时,国内目前对于数据收入分配的主体仍然存在较多争议。一些学者认为,企业是数据要素的收入分配主体,因为企业在收集、处理这些个体产生的数据时消耗了大量资金,而正是这些资金让这些数据拥有价值;一些学者认为,数据收集对象才是数据要素收入分配主体,因为数据并不是那些企业自身创造或生产的,而是这些数据收集对象在日常生活中产生的。还有一部分学者认为大数据技术人员应该作为收入分配主体,因为是他们的劳动让数据拥有交易的价值。我国政府针对这一问题已提出解决思路,国务院在2022年12月发布的《构建数据基础制度更好发挥数据要素作用的意见》(下文中简称“数据二十条”)中指出要尊重数据产生过程中各方的权益,并由各方共同使用、共同受益。但由于具体各方贡献程度和受益比例缺乏明确规定,目前这一构想实施较为困难。数据要素自身贡献以及收入分配主体的不确定性抑制了各经济主体生产与交易数据要素的积极性,阻碍了数据交易市场发展。
3.政府维度
(1)缺少抵制数据要素负面影响与促进其发挥作用的相关法律
目前我国政府有关数据要素的相关立法还明显不足,主要体现在数据要素市场法制化程度不足、居民隐私保护缺失、反垄断措施欠缺、无法有效促进数据共享四个方面。
第一,我国数据要素市场法治化程度非常低。首先,数据要素市场缺乏顶层立法。虽然国务院以及各个部委出台了多项规范数据要素市场的相关规定与政策,但是这些政策相互之间缺乏协调性,在顶层制度设计方面欠缺统筹规划,因此无法形成完善的法律框架。其次,数据要素市场相关法律缺乏层次性。我国虽然形成了一定的多层次、多领域数据要素市场法律法规体系,但是仍然存在严重的法律法规断层以及政策不延续的问题。很多直接对数据市场进行规范的法律层次偏低而立法部门众多,导致效力低下,而顶层法律过于笼统,无法解决一些具体的事务与纠纷。最后,数据要素市场相关法律可操作性较差。顶层立法与法律层次性欠缺直接导致了我国数据要素市场相关的法律法规可操作性不足,在实践中无法实现对数据的综合性监管。同时,数据要素市场中的单行法与配套法律建设不健全也使得法律执行起来较为困难。
第二,我国缺乏保护居民隐私的法律。目前我国对居民的哪些数据不能被收集以及收集到的数据如何使用等问题还没有明确规定,使得居民个人隐私被泄露以及弱势群体受到歧视事件频频发生。
第三,我国防止互联网巨头企业借助数据要素形成垄断的相关法律不足。虽然2021年11月8日我国正式成立了反垄断局,主要是为了监管互联网巨头企业,并且因为阿里巴巴、美团涉嫌垄断对其进行了罚款,但仍然有很多企业借助数据要素形成市场支配地位,榨取消费者剩余,说明相关反垄断立法还需要继续跟进和完善。
第四,我国缺乏法律让一些企业将产生的数据进行共享,压制了数据要素的潜能。数据要素的边际报酬始终为正,且具有很强的规模经济效应。这意味着在经济社会中某行业各个企业的数据要素如果汇总在一起,其价值必然高于数据要素单独存放于各个企业的价值之和。然而各个企业没有动力与同行业的竞争对手去分享数据,这样会降低它们在行业中的竞争力,导致“囚徒困境”出现,最后所有企业都选择不分享数据。这说明全社会没有选择进行帕累托改进,数据要素使用出现了市场失灵的现象,导致其真正价值无法被发挥出来,需要相关法律法规进行纠正。
(2)数据准确性欠缺影响政府决策
数据的准确性对于数据要素发挥作用至关重要,然而政府很可能因为客观或主观原因使用传递错误信息的数据。数据要素在经济社会中发挥的主要作用之一就是提供决策所需的重要信息,因此数据的质量问题直接关系到决策是否合理。相比于企业,政府部门收集的数据更容易出现传递错误信息的问题。因为通常情况下,企业收集的数据很快就会被投入使用并产生相应的结果,如果数据错误导致公司亏损,员工会承担严重后果。而政府部门数据短时间内不会产生影响,并且数据发生问题时难以追责,导致政府部门数据收集人员的工作态度与专业素养均不如企业。并且,政府部门还有动机去刻意修改数据以完成上级考核目标。
数据传递错误信息主要有主观和客观两方面的原因。就客观原因而言,首先,目前很多领域数据量太大而无用信息太多。比如在2020年3月以来有关新冠疫情的论文数量猛增,然而这些数据大多都没有经过同行评议,造成数据准确性问题。大量质量无法保证的数据对于对抗疾病的科学家和寻求科学指导的政策制定者来说,是一种非常严重的“知识负担”。其次,数据的收集和处理工作需要很多设备以及专业技术人员的支持,因此资金和人员投入量较大,很多组织在数据的收集和处理阶段会因为资金不足、人员专业技能欠缺等问题导致数据质量降低。很多发展中国家就因为缺乏相应的资源,无法运用合格的数据来衡量和追踪本国的各种问题。最后,数据在各个部门不统一也会导致传递错误信息。Luengo-Oroz等认为各个国家在抗击新冠疫情时没有明确的、国际通用的数据标准,导致各个国家之间在抗击疫情的决策方面缺乏一致性和协调性,很大程度上降低了抗疫措施的效力。
就主观原因而言,一些政治团体会通过修改数据定义或改变统计方法来扭曲数据表达的信息以达到自身的目的,数据的定义和统计方法对于表达的含义有非常大的影响。在定义方面,Poerier对美国环境保护署有毒物质排放清单的数据定义进行了研究,发现该清单中各数据的值会随着不同政治团体所倡导的主题而改变,服务于政治目的,并不能很准确地反映出污染物的真实情况。在统计方法方面,一位深圳环境执法部门的工作人员接受采访时指出,政府收集了很多公司提供的购买生产材料记录以及其他财务数据,但是这些数据是非常容易伪造的,无法反映公司真实的环境保护情况。可以看到,政府有时收集并公布的数据是偏离事实的。
我国目前大部分统计工作都由国家及各地方统计局完成,需要什么数据以及采取何种统计方法都有国家统计局制定的标准,因此不会存在美国等国家出现的国家内各部分数据标准不一致的问题。但是我国在数据收集和处理环节还存在较大的问题。首先,很多统计工作都由没有任何统计知识的社区工作者完成,并且一些地方统计局工作人员缺乏专业知识,使得在数据的收集和处理环节容易出现较大误差。其次,我国数据收集和处理过程缺乏监管,一些地方统计局在完成统计工作后缺乏严谨的复核和纠错的过程,也导致工作人员对数据准确性的重视程度下降。最后,我国政府会将一些项目(如体育馆、地铁站选址等)交给研究机构或高校完成,而这些研究机构或高校经常将数据收集(如对居民的调查问卷等)布置给学生,严重影响了数据的准确性。当政府使用这些无法传递准确信息的数据制定政策时,政策通常无法达到其应有的效果。
三、解决数据要素流通困境的对策建议
1.保护公民隐私权力,降低个人信息泄露造成的危害
现阶段我国在使用数据要素过程中侵犯个人隐私权力主要是由数据分类不明确、数据使用者缺乏让数据主体拥有知情权的义务、数据使用者对知情权重要性认识不足等原因造成的。
由于数据要素具有非均质性,不同数据对于人们的影响有差异,因此政府在制定相关法律保护数据主体隐私时,应该考虑将数据要素分为公开数据和隐私数据。对于公开数据,数据主体在创造时已经知道这些数据可以被公众任意接触到,因此可以适当放宽使用限制,着重挖掘该数据蕴含的价值,需要注意的是数据即使公开使用者也应向数据主体表明使用目的。对于隐私数据,由于会对个体产生非常重大的影响,应该制定严格的保护政策,只有在威胁人身安全、打击犯罪时才能够被国家机关使用。同时政府应注重对自己拥有的隐私数据的保护,由于国家安全的需要,以及对一些行业的垄断等原因,政府拥有大量民众的隐私数据,一定要对这些数据的储存方式和用途进行严格审核。
同时,当人们的隐私数据被收集和使用时,确保人们的知情权与拒绝权非常重要。企业或科研机构在运用数据要素时信任是非常重要的问题。Gilbert等通过调查发现,如果运用个人数据进行研究时事先征求数据主体同意,很多人是愿意参与这些研究的。因此数据要素的使用者应解决好数据主体知情权与接受度等方面的问题,从而取得数据主体的信任,这样才能够在保护隐私的基础上得到想要的研究结果。应规定任何组织在收集数据前,必须告知该数据的流通路径以及潜在的用途,同时不得将任何产品或服务与同意提供不必要的个人数据绑定在一起,真正给予人们知情权和拒绝权。
然而我们需要认识到,每次数据被转移或用于其他用途时都征求所有数据主体的意见是一件非常困难的事情,并且可能阻碍数据要素和数字经济的发展。剑桥大学认为,“通用数据保护条例(GDPR)”中对个人数据用途的限制严重遏制了国家创新潜力。我国也应注意过度保护隐私可能产生的弊端,可以考虑规定交易和用于其他用途的数据在涉及个人隐私时,必须进行脱敏处理,从而在保证个体隐私权的前提下最大程度发挥数据要素的作用。
2.促进经济主体平等,防止市场垄断与歧视弱势群体
针对数据要素可能带来的垄断问题,我国应该主要采取以下措施:首先,应规定企业不能通过数据壁垒、数字技术壁垒限制其他企业发展。我国应加强数据和技术共享机制,在保证研发积极性的前提下让所有企业拥有公平的竞争环境。其次,应该要求垄断企业对自己的产品或服务合理定价,防止企业刻意压低价格获得垄断地位。很多运用数据要素的企业通过补贴等手段短期内吸引了大量用户,用户量的增加让企业可以获得更多的数据,从而提升自己的产品与服务,这会让很多用户产生对于该企业产品或服务的依赖,企业也会继续保持低价阻止其他企业进入。反垄断部门应规定数据垄断企业的产品价格应反映其产品价值,禁止刻意压价。最后,应该对于科技巨头的收购和合并行为加强监管,防止单个企业掌握过多用户数据,从而占据市场支配地位。我国已经开始采取此类措施,2021年7月由腾讯主导的虎牙和斗鱼合并因为所占直播市场份额过高被叫停,同年11月我国正式成立了国家反垄断局,其重点任务之一就是互联网行业反垄断监管。我国应继续强化对科技巨头合并的监管,防止单个企业通过数据聚集控制市场。
同时,我国应注意防止数据要素导致人与人之间的不平等加剧。数据驱动技术运作的机制就是通过算法从已经发生的事中寻找规律,从而将过去与未来联系起来,数据分析很可能会依赖过去有偏差的数据,加剧未来社会的不平等。因此,算法的设计应该考虑如何修正以往数据存在的偏差。然而现在绝大部分算法都不对外公开,并且对于算法的有效性、公平性等验证也是由开发人员自己进行。我国应该请算法研发人员以外的专业人员对每个算法进行测试,客观指出该算法的局限性与缺点,同时召集相关专家为算法的公平性等指标制定行业标准,确保算法不会歧视弱势群体。我国政府现已开始关注这一问题,在“数据二十条”中指出应加强大型数据企业对弱势群体的帮扶。
3.充分发挥政府作用,促进数据要素健康高效发展
数据作为一种新的生产要素,想要充分发挥其作用,除了出台政策引导企业外,必然离不开政府的大力作为,政府应主要在以下几个方面发挥作用。
第一,在统计数据真实性方面。造成数据传递错误信息的原因主要有客观原因和主观原因两类。客观原因相比于主观原因更容易解决,首先,我国应该加强政府官员和企业管理者对数据统计工作重要性的认识,给予政府和企业的统计部门足够的资金。这些资金既要用于购买高端的信息化设备,保障统计部门硬件完善,又要提升工作人员的福利待遇,吸引高层次人才进入统计部门。其次,我国应该加强对统计部门在职人员的培训与监管,可以通过定期组织考试来监督统计人员坚持学习专业技能。在此基础上,还要加强对于工作成果的监管。应成立专家小组对统计结果进行匿名评估,实行明确的奖罚制度,保持工作人员的责任心和积极性。最后,我国应该加强各基层、各企业统计部门之间数据的衔接性与协调性,保证各部门数据可融合、统一使用。
主观原因主要包括企业为了逃避处罚或夸大经营效果、政府官员为了政绩而刻意更改统计数据,这一类问题需要从数据质量和数据解读两个方面去解决。从数据质量方面来讲,首先,我国应该对于各个指标进行更加严谨和科学的界定,完善统计工作各个环节的规章制度,这样可以减少企业与政府在统计数据方面的自主性。其次,我国应该经常组织对统计人员的教育活动,加强《统计法》的执行力度,对违反规定流程、私自篡改数据的统计人员给予严厉的处罚,从而建立一支高效率、实事求是的统计队伍。从数据解读方面来讲,在使用数据时不应该只关注数据的具体数值,应该关注指标详细的解释,在分析数据时应该对数据收集的文化环境以及数据相关者的利益予以考量,研究这些因素有助于理解数据偏差并进行修复;同时应该重视数据中的缺失值,将缺失值也当作数据,考虑缺失的原因等,这样才能在分析数据时得到全面、真实的信息。
第二,在数据要素市场建设方面。首先,政府应保证数据要素产生过程中各方都获益。数据要经过整理、清洗等步骤才能变为有价值的数据要素,然而这些步骤的实行者很多时候不是数据主体,因此政府应明确规定生产数据要素各方所有权比例确定方法,当交易数据要素获利时按规定分配各方利益。其次,政府应该为数据要素定价制定合理程序,数据要素的非均质性使其定价非常困难,政府可考虑放弃统一定价,让数据交易双方在谈判中确定价格并成立第三方监管机构监督谈判过程,确保各方利益不受损。最后,政府应注重对于交易数据种类的监管,由于数据交易非常隐蔽,一些涉及个人隐私、国家安全的数据也在市场上交易,政府应对于交易此类数据的人员进行严惩,保证交易数据的合法性。
第三,在数据要素汇总方面。目前的政策使得各经济主体都不会去分享自己的数据,从而无法发挥出数据要素的全部潜力,对整个社会造成效率损失。如同传统的市场失灵问题一样,数据要素的市场失灵问题也需要政府解决。政府应该成立国家级别的数据共享平台,要求各个企业或科研机构提交研发、生产、产品使用过程中产生的数据,然后将有互补作用的数据汇总后返还给企业研发部门和科研机构并对研发成果给予相应的奖励,从而大幅度增加我国各行业科技研发效率。
第四,在数据人才培养方面。目前我国严重缺乏数据人才,2025年大数据核心人才的缺口将达230万。同时我国大数据行业大专及以下学历求职者供不应求,而硕士及以上学历供大于求,这说明我国大数据行业缺乏应用型人才。因此我国应该推动高职及大专院校开设大数据相关专业,完善大数据人才培养体系。不但要重视大数据专业学生的理论知识学习,还应该多让学生去企业进行锻炼,培养其应用理论知识解决实际问题的能力。
↓↓了解更多资讯,请识别下方二维码↓↓
国脉集团是数据资产化先锋企业,主要提供培训、咨询和产品设计服务。为数据资源拥有者提供专业、规范、合规的全流程资产化服务,提升机构数据管理服务能力,实现数据资源价值最大化。运用最先进的培训理念方法和平台工具提供高绩效培训服务。研发“一头一体两翼”企业数据资产化咨询服务方法论,提升数据资产化战略设计、就绪度评估与咨询、入表和产品化全流程咨询服务。基于战略思维和实操需求研发“易”系列产品,并与数源方合作研发系列数据产品。 主要课程包括数据资产入表、数据经纪人、公共数据运营和政府CDO、数据精品等精品课程。 主要产品:数据易投、数据易贷、数据易保、数据易售。