自党的十九届四中全会首次将数据纳入生产要素,特别是中共中央国务院相继发布《关于构建更加完善的要素市场化配置体制机制的意见》和《关于构建数据基础制度更好发挥数据要素作用的意见》(“数据二十条”)后,我国数据要素化推进步伐明显提速。浙江、上海、北京、深圳、广东、福建、四川、贵州、海南、山东、湖南、安徽、重庆、天津、湖北等地积极贯彻落实党中央、国务院战略部署,在数据要素制度体系、国家数据基础设施、公共数据开发开放、公共数据授权运营、数据产业与数商发展、数据交易与跨境流通、数字中国建设、以及数据安全体系等方面,开展了积极探索实践,取得了初步成效。在数据要素制度体系方面,浙江、广东、深圳、上海、江苏、山东、河北、重庆、四川、北京等开展了《公共数据管理条例》立法等,对数据产权、加工生产、流通交易、监管治理、数据安全等方面进行了全方位探索实践;在数据基础设施建设方面,上海、浙江、海南、北京、福建、贵州、山东、重庆、天津等地,各自在网络基础设施、算力基础设施、融合基础设施、政务数据一体化平台、公共数据授权运营平台、数据交易平台等方面超前布局;在公共数据开发开放方面,几乎所有地方都对公共数据采集汇聚、共享开放作出了明确规定。北京、浙江、上海、海南、福建、山东、湖南、湖北等省市都出台了公共数据授权运营管理办法;在公共数据授权运营方面,全国已有20多个省市成立了省级数据集团公司,分别以省属国资企业、国有资本全资企业、国有控股企业、混合所有制等四种方式,已探索出集中统一授权、分领域专区授权、分地域分散授权等不同授权运营方式;在数据技术和产业方面,上海作为“数商”概念的发源地,积极引领数据技术和产业发展,北京、深圳、贵州、山东、湖南、安徽、湖北等地也积极推进特色数据产业发展;在数据交易和跨境流通方面,上海、北京、深圳等地正积极创建国家级数据交易所,其他许多地方正建设区域级数据交易机构,并积极鼓励数据企业开展合规的场外交易。上海、北京、海南、深圳、广东等地正根据自身特点开展数据跨境流通试点示范;在数字中国推进方面,大多数地方将数字经济、数字社会和数字社会一体化协调推进,特别是重庆、安徽、山东、天津等地将“数字重庆”、“数字江淮”、“数字山东”、“数字天津”建设作为推进全省数据要素化的牵引,湖南以“数字博物馆”建设为小切口,带动数字文博产业甚至数字文化产业集聚式生态式发展;在数据安全体系建设方面,我国已构筑起国家层面的《数据安全法》《个人信息保护法》《网络安全法》《关键信息基础设施保护条例》(“三法一例”)等数据安全法律体系。上海、北京、深圳、海南等地正在创新运用区块链、隐私计算、联邦计算等数据安全技术构建数据安全可信加工交易平台。
各地方根据自身基础和特点在数据要素化方面的探索实践,特别是在数据制度体系、数据基础设施、公共数据开发开放、公共数据授权运营主体、数据技术和产业、数据交易与跨境流通、数字中国建设、数据安全体系等方面的一些做法,事实上已构建起了国家层面的数据要素化总体框架和实现路径。《交大评论》和京数智科技将联合刊出“一总纲八环节”共9期系列评论文章,系统阐释“六横两纵”国家数据要素化总体框架,以及国家数据要素化总体框架八个关键环节的内涵、特点、做法、发展趋势等。
系列评论文章为:
1.国家数据要素化总体框架之一——总纲
2.国家数据要素化总体框架之二——环节一:数据要素制度体系
3.国家数据要素化总体框架之三——环节二:国家数据基础设施(NDI)
4.国家数据要素化总体框架之四——环节三:公共数据开发开放
5.国家数据要素化总体框架之五——环节四:公共数据授权运营
6.国家数据要素化总体框架之六——环节五:数据产业与技术
7.国家数据要素化总体框架之七——环节六:数据交易与跨境流通
8.国家数据要素化总体框架之八——环节七:数字中国建设
9.国家数据要素化总体框架之九——环节八:数据安全体系
本期为系列评论文章之六《国家数据要素化总体框架之五——数据产业与技术》(下篇),主要论述数据产业的发展特点、取得成效、存在问题、发展趋势等。
三、数据产业的特点
数据产业有广义数据产业和狭义数据产业两种概念。广义数据产业的核心要义是传统信息产业在数据要素化发展新阶段围绕数据新型生产要素发生了升级迭代;狭义数据产业的核心要义是在数据要素全生命周期各环节正在涌现出多种新型产业业态。
(一)广义数据产业的特点
广义数据产业是适应于数据要素化发展新阶段、在传统信息产业基础上发展起来的的一种新型产业形态,既有对传统信息产业的守正,也有新型数据要素产业的创新。在对传统信息产业的守正方面,一方面传统信息产业已成为新型数据产业的重要组成部分,构成了新型数据产业坚实的基础,另一方面传统信息产业的发展都被赋予了新的内容,实现了围绕数据要素的技术升级和迭代,即电子信息制造业、软件与信息服务业、网络通信产业等传统信息产业都围绕数据要素进行了智能化升级,如电子信息制造业的智能终端、软件和信息服务业的人工智能软件、网络通信业的智能路由等;在新型数据要素产业创新方面,一方面数据的采集、清洗、存储、加工、分析、流通、交易、治理、应用等各环节的自动化、网络化、智能化水平不断提高,大规模多源异构数据管理、大规模图计算、智能数据工程等人工智能、大数据、云计算等新型技术不断快速迭代升级,形成新型的数据采集存储产业、数据加工分析产业、数据流通交易产业、数据治理应用产业等数据要素产业形态,另一方面数据各环节的加工分析和交易流通的安全可信能力不断提高,区块链、隐私计算、委托计算、数据编织等技术不断取得创新突破,形成新型的数据可信安全产业。因此,广义数据要素产业既包括传统信息产业升级迭代后形成的数据基础产业和网络信息安全产业,也包括新产生的数据要素产业和数据可信安全产业。因此,广义数据产业具有继承性和创新性两方面特点:
1.继承性特点
人类社会发展进入工业文明以后,新兴产业大都呈现出对既有产业内涵的延伸和继承。进入数字文明后,这种延伸和继承的特征更加突出和显著。如电子产业是在原有机械和电力产业基础上发展起来的,信息产业是在原有电子产业再加上新出现的软件产业、网络产业、通信产业基础上发展起来的。同样,数据产业也是延伸和继承了原有信息产业的内涵和特征并迭代升级而形成的一种新型产业形态。在产业形态方面,数据产业的基础仍然是对电子信息制造业、软件业和通信网络产业等传统信息产业延伸和继承;在产业构成方面,则围绕数据要素对原有信息技术和信息产品进行了技术迭代和产品升级,形成以数据资源为核心的数据技术、数据产品和数据企业。因此,继承性是数据产业的基本特点,数据产业是在传统信息产业和数字产业基础上发展起来的,并围绕数据要素升级迭代后信息产业和数字产业构筑起了数据产业的坚实基础。
2. 创新性特点
数据产业之所以能成为数据要素化发展新阶段的一种独立产业形态,主要是由于创新形成新型的产业业态所致。过去30多年来,随着全球信息化和数字化进程的不断推进,全球数据规模爆炸性增长,数据质量快速提升,在信息化阶段和数字化阶段隐身于信息化系统和数字基础设施之后的数据资源,随着经济社会快速进入数据要素化发展新阶段,正快速从以前的“配角”变身为“主角”,正逐渐从以前的“后台支撑”作用转变为“前台主导”作用。由此,围绕数据要素采存算管用全生命周期各环节,不断催生出数据采集存储产业、数据加工分析产业、数据流通交易产业、数据治理应用产业等不同形态的数据要素产业新业态,不断涌现出技术型数商、服务型数商和应用型数商等不同类型的数据要素型企业,不断创新出人工智能、大数据、区块链等快速迭代升级的数据要素型技术和数据要素型产品。
(二)狭义数据产业的特点
狭义数据产业即数据要素产业,是经济社会进入数据要素化发展新阶段后,数据资源规模和质量出现了质的跃升、数据在社会生产活动中的关键要素作用越来越显著的背景下,技术、产品、企业等产业构成要素围绕数据资源不断迭代、升级、创新,而不断形成新型数据技术、数据产品、数据企业,并在数据要素全生命周期各环节分别形成新型的数据采集存储产业、数据加工分析产业、数据流通交易产业和数据治理应用产业等,由此构建出一种适应数据要素化发展阶段新特点的新型产业形态。因此,狭义数据产业或数据要素产业在数据、技术、产品、企业、生态等产业构成要素方面分别表现出与其他产业不同的五方面特点:
1.数据资源核心要素特点
数据资源是数据要素产业的核心。工业社会以土地和劳动力为核心要素,其生产活动都是围绕土地和劳动力组织开展;信息社会以技术和资本为核心要素,其生产活动都是围绕技术和资本组织开展;进入数据要素化发展新阶段后,数据作为一种新型生产要素,在社会生产活动中的关键要素作用越来越显著,正在超越技术和资本成为最核心的要素资源,数据技术、数据产品、数据企业、数据生态等数据产业的主要构成要件都是围绕数据资源而形成和构建的。一方面,随着数据要素在社会生产中的广泛深入应用,其协同优化、复用增效、聚合增值、融合创新等乘数效应得到充分发挥,技术、资本、劳动力等传统生产要素的价值潜能能得到更加充分地释放,社会生产效率会得到极大提高;另一方面,各种技术、产品、企业都围绕数据资源进行迭代、升级、创新,形成以数据资源为核心的技术体系、产品体系、企业体系和生态体系,构建起新型的数据要素产业形态。
2. 数据技术快速迭代特点
数据技术是数据要素产业发展的最大推动力。以人工智能、大数据、云计算、区块链、隐私计算等为代表的数据技术,在数据采存算管用全生命周期各环节能发挥各自不同作用,推动数据资源在各行各业场景中广泛应用,有效发挥数据要素的协同优化、复用增效、聚合增值、融合创新等乘数效应。如数据智能感知技术、数据清洗技术、数据挖掘技术、数据分析技术等大数据技术能广泛应用于数据采集、加工、分析等各环节,使得原本零散分布、良莠不齐、杂乱无章的无用数据资源,变为集中汇聚、去除噪声、结构清晰的高价值数据产品;如精准画像、智能匹配、智能关联、知识图谱、知识泛化等人工智能技术能广泛应用在数据分析、治理、应用等环节,能够根据应用场景的不同需求创新出个性化、多样化、灵活性强的各种数据产品和服务;分布式技术、虚拟化技术、云存储技术等云计算技术在数据汇聚、存储等环节的广泛应用,使得原本耗费巨大、易失性强的数据存储成本更低、存储更方便、更安全;可信数据空间、区块链和隐私计算等技术在数据加工、分析等环节的广泛应用,可以对大量涉密涉敏的高价值数据进行脱敏脱密,实现数据的大范围流通和应用。因此,人工智能、大数据、云计算、可信数据空间、区块链、隐私计算等数据技术是一个数据企业的核心竞争力,也是推进数据产业发展的最大推动力。除此之外,数据要素化发展新阶段的数据技术发展也遵循过去30多年来形成的信息技术发展普遍规律,如集成电路集成度每18个月翻一番的摩尔定律,芯片尺寸不断缩小但性能不断增强、功耗不断减少的登纳德定律,集成电路每10年在通用和专用间循环转换和牧本定律,计算机峰值计算速度每年翻一番的Bill Joy定律,联接带来万物互联的价值跃升的梅特卡夫定律,占据主导地位企业不断开发新一代产品的达维多定律,GPU将推动AI性能逐年翻倍的黄仁勋定律等,人工智能、大数据、云计算、可信数据空间、区块链、隐私计算等数据技术表现出迭代周期更短、技术性能更强等方面特点。
3.数据产品不断升级特点
数据产品是数据要素产业发展的外在表现形式。数据产品可以是裸数据形态的原始数据,也可以是经过区块链、隐私技术、多方联邦计算等数据安全技术加工形成的脱敏脱密数据,还可以是通过人工智能、大数据等技术分析生成的指数、核验、报告、模型、智能服务等数据应用产品和服务。通常情况下,价值越大的数据,涉敏涉密程度越高,其生产流通范围的限制就越大,数据流通需要的加工程度就越大。因此,数据产品只有很小部分是可以直接流通的原始数据,绝大多数都是经数据技术区块链、隐私技术、多方联邦计算、大数据、人工智能等数据技术处理后形成的数据产品和服务,由于数据技术具有迭代周期更短、技术性能更强的特点,大多数依附于数据技术形成的数据产品和服务,也随着数据技术的不断更新迭代而快速升级,并且升级后的数据产品的功耗水平更低。
4.数据企业大小共生特点
数据企业是数据要素产业发展的外在表现形式。单纯依赖于技术创新发展的信息技术企业和互联网企业具有大者恒大、强者恒强、赢者通吃的特点,而不仅依赖于数据技术而且还高度依赖于数据资源的数据企业,由于存在大量高质量数据持有机构,即使技术力量雄厚、规模庞大的数据平台企业也必须学会与持有独特数据的小企业、小机构共生合作,如医疗机构持有的个人健康数据、教育机构掌握的个人教育数据、市场监管机构掌握的企业经营数据等。并且数据领域的颠覆性技术出现概率更大,如人工智能大模型技术、脑机接口技术、量子技术等的颠覆性技术的突破,过去默默无闻的小企业由于掌握了颠覆性数据技术而一夜成名,而长期领先于业界的知名企业也可能顷刻间跌落神坛,如OpenAI公司采用了大模型技术路线推出ChatGPT而一夜成名,更由于很快推出文生视频Sora而进一步巩固了在人工智能产业的领先地位,反观长达10多年引领全球人工智能技术发展的谷歌则顷刻间让出了全球老大地位,并且差距被迅速拉大。除此之外,数据资源和数据产品的顺畅生产和流通,不仅需要以上新型技术型数商的持续创新,还需要一大批提供数据授权运营、数据交易、数据合规、数据审计、数据质量评估、数据风险评估等新型服务型数商,以及提供数据开发利用工具、数字化转型服务等的新型应用型数商,构成大型技术型数商与中小型服务型数商和应用型数商共生共融的企业生态格局。
5.数据生态多层融合特点
数据生态是数据要素产业发展的生命力。不同国家、地区和企业之间数据产业的竞争,归根到底表现为数据生态间的竞争。数据生态由数据资源生态、数据技术生态、数据产品生态和数据企业生态等不同层次构成,其中,数据资源生态是数据生态的核心,谁掌握了海量的高价值数据资源,谁就控制了数据要素产业的源头;数据技术生态是数据生态的基础,谁创新出了新的数据生成存储技术、加工分析技术,谁就能创新出更加个性化、适应市场需求的数据产品和服务,谁就能占领更大的数据市场;数据产品生态是数据生态的连接,数据全生命周期上中下游不同环节数据产品相互依存、相互影响,构成一个个有生命力的数据产品生态体系。通常,在数据产品生态中具有基础性、应用性的数据产品往往成为一个数据产品生态的体系控制者;数据企业生态是数据生态的载体,掌握了核心数据资源和核心数据技术的企业,往往在相关领域具有较高的市场占有率,成为数据生态体系中的龙头企业,生态圈上的其他企业则围绕生态龙头企业进行布局,形成一个有活力的企业生态体系。
四、数据产业发展的成绩和问题
(一)取得成绩
经过过去30多年信息化和数字化发展,特别是互联网、移动互联网、工业互联网、智慧城市、数字政务等应用的迅速发展和日益繁荣,海量的数据资源得到自动采集、存储和应用,数据技术和产品取得明显突破,数据企业不断涌现壮大,为“十五五”时期我国数据产业加快发展奠定了坚实基础。
1.数据产业规模快速壮大
2023年,全国软件和信息技术服务业规模以上企业超3.8万家,累计完成软件业务收入12.3万亿元,同比增长13.4%。全国规模以上电子信息制造业实现营业收入15.1万亿元,营业收入利润率为4.2%。全国通信业务收入累计完成1.68万亿元,比上年增长6.2%。据有关机构估算,2023年我国以数据技术、数据服务、数据应用为主的数据要素产业规模达2.1万亿元,年均增长20%以上。
2.数据资源规模迅速增长
随着互联网、移动互联网、工业互联网、智慧城市、数字政务、智慧城市等信息化和数字化应用的全面普及,对数据资源的采集、存储、加工和应用水平不断深化。截至2023年底,我国互联网普及率达77.5%,比2012年的42.1%提高近一倍,IPv6活跃用户数达到7.63亿,上网人数达10.92亿人,移动电话用户总数达17.27亿户,其中5G移动电话用户达8.05亿户,约占全球的五分之四。互联网和移动互联网已成为个人数据资源自动化采集、存储、加工、应用的最大工具;截至2022年底,全国一体化政务数据共享枢纽已接入各级政务部门5951个,发布各类数据资源1.5万类,累计支撑共享调用超5000亿次,208个省级和城市的地方政府上线政府数据开放平台,实名注册用户超过10亿人,国家政务服务平台总使用量超过850亿人次,已初步实现地方部门500万余项政策服务事项和1万多项高频应用的标准化服务,大批高频政务服务事项实现“一网通办”“跨省通办”,全国96.68%的办税缴费实现“非接触式”办理,电子发票服务平台用户数量突破千万级。电子证照共享服务体系已汇聚31个省份、新疆生产建设兵团和26个部门900余种电子证照、56.72 亿条目录,累计提供电子证照共享服务79亿次,有效支撑“减证便民”。数字政务和智慧城市的高效推进使公共数据规模日益庞大、质量日益提升、应用价值日益增大;截至2023年底,我国5G、千兆光纤网已融入71个国民经济行业应用中,应用案例已经超过了9.4万个,建设5G工厂300余家,“5G+工业互联网”建设项目超过8000个,工业企业关键工序数控化率、数字化研发设计工具普及率分别达到了62.2%和79.6%,具备行业、区域影响力的工业互联网平台超过340个,重点平台工业设备连接数超过9600万台套,制造机器人密度跃居全球第五位,智能制造装备产业规模达3万亿元,市场满足率超过50%。5G、千兆光纤网和工业互联网已成为企业数据生成、加工、利用的重要平台;我国农业生产信息化率超过25%,农作物耕种收综合机械化率从2018年的67%提高到73%,安装北斗终端农机已达220万台,植保无人机总量超过20万架,年作业面积突破21亿亩次;我国电子商务、移动支付、线上社交规模全球领先,网约车、网上外卖、数字文化、智慧旅游等市场规模不断扩大。网络视频用户数达到10.3亿人,网络支付用户达到9.1亿人,在线旅游预订的用户规模达到5.09亿人,全农国网络零售额达到2.49万亿元。2023年我国数据生产量超过32ZB,占全球数据总产量20%,位居世界第二。2022年底,我国存力总规模超 1000EB,数据存储量达724.5EB,同比增长 21.1%,占全球数据总存储量的 14.4%。数据要素在工业、农业、服务业等各行各业应用不断普及,我国已成为名副其实的全球数据生产和应用大国。
3.关键数据技术取得突破
党的十八大以来,我国将科技自立自强摆在核心位置,加强核心技术攻关,已取得重大突破。一是国家战略科技力量不断强化。建设运行首批国家实验室,北京、上海、粤港澳大湾区国际科技创新中心和怀柔、张江、大湾区、合肥综合国家科学中心引领带动效应持续显现,成渝、西安区域科技创新中心加快建设。二是核心技术创新取得突破。量子计算原型机、类脑计算芯片、碳基集成电路等基础前沿领域取得原创性突破;三是龙头企业的数据技术产品具有雄厚基础。在软硬件方面,国内骨干软硬件企业陆续推出自主研发的大数据基础平台产品,一批数据服务企业面向特定领域研发数据分析工具,提供创新型数据服务。在平台建设方面,互联网龙头企业服务器单集群规模达到上万台,具备建设和运维超大规模大数据平台的技术实力。在智能分析方面,部分企业积极布局深度学习等人工智能前沿技术,在语音识别、图像理解、文本挖掘等方面抢占技术制高点,目前我国数据参数超过10亿的人工智能大模型已超过100个。在开源技术方面,我国对国际大数据开源软件社区的贡献不断增大。截止2022年底,我国5G标准必要专利数量占全球比重超过38%,量子通信领域专利申请量占全球50%以上,数字经济核心产业发明专利有效量达160万件,年均增速超过18%。人工智能、区块链、物联网等新兴领域形成一批自主底层软硬件平台和开源社区,关键产品技术创新能力大幅提升,形成规模化应用效应。
4. 数据要素企业快速发展
近年来、随着数据关键要素作用的不断释放,互联网平台企业进一步聚焦于数据价值的挖掘和服务业态创新;传统企业数字化转型步伐明显加快,数字化含量不断提高;一大批中小企业为数字化转型提供技术、中介和应用等服务,形成技术型数商、服务型数商和应用型数商。一方面,互联网平台企业是我国发展速度最快、数据资源最集中、数据技术最先进、数据产品和服务最丰富的数据龙头企业,数据资源在互联网平台企业的深度应用,大幅度提升网络社交、电商、广告、搜索等服务的个性化和智能化水平,催生共享经济等数据驱动的新兴业态。2022年,我国市值超百亿美元的互联网平台企业有28家,包括字节、腾讯、阿里、百度、京东、美团、滴滴、希音(SHEIN)、TEMU等,全球占比达21.6%。目前,我国电子商务、移动支付、线上社交规模全球领先,网约车、网上外卖、数字文化、智慧旅游等市场规模不断扩大。网络视频用户数达到10.3亿人,网络支付用户达到9.1亿人,在线旅游预订的用户规模达到5.09亿人,全国网络零售额达到2.49万亿元;另一方面,传统产业数字化转型步伐加快,驱动生产方式和管理模式变革,推动制造业向网络化、数字化和智能化方向发展。电信、金融、交通、工业、医疗、政务、文化等行业利用已积累的丰富数据资源,积极探索客户细分、风险防控、信用评价等应用,加快服务优化、业务创新和产业升级步伐,不仅提升了各行业传统企业的数字化水平,推动其不断转型为数据企业;此外,在推动各行各业数字化转型进程中,催生了一批为其数字化转型提供各种服务的数据企业诞生,包括技术型数据、服务型数商和应用型数商等。
(二)存在问题
我国数据产业具备了良好基础,面临难得的发展机遇,但仍然存在数据资源开发利用程度不高、数据技术水平总体落后、数据企业发展迟缓、数据生态零散割裂严重等困难和问题,需要通过数据要素市场化改革加以破解。
1.数据资源开发利用不高
数据资源供不出、流不动、用不好,已成为我国数据要素市场化配置改革需要解决的最核心问题,也是制约数据产业发展的首要问题。
在数据资源供给方面,政府机构、平台企业和央国企掌握了全社会规模最大、价值最高的数据资源,但是,各数据主体普遍存在“不敢、不愿、不能”开发利用数据资源的问题。“不敢”源于《数据安全法》《个人信息保护法》《网络安全法》《关键信息基础设施保护条例》(“三法一条例”)的制度限制,数据超范围采集等不当采集方式,以及数据超范围使用、一揽子授权同意等不当利用方式,都会触发法律限制,各数据持有主体普遍具有“数据原罪”,几乎全部“戴着镣铐跳舞”,普遍不敢将其持有的数据对外开放使用,法律底线变成了数据开发利用红线;“不愿”源于数据资源的数据主体、加工主体、利用主体和收益主体割裂,特别是数据主体作为数据提供方,需要付出很大成本对数据资源进行目录化、标准化、可用化等,并要承担由于数据提供出去后可能出现的数据安全责任,但是当数据资源得到应用并获得收益时,却不能给予数据提供方相应的回报,造成数源单位没有动力开展数据资源共享开放工作;“不能”源于对数据资源的加工补偿,从无序杂乱无价值的数据变为标准化、目录化、有价值数据资源的过程,是一个技术含量较高的工作,不仅需要专业的技术技能,而且还需要充足的资金投入。目前,除互联网平台公司外,政府机构、央国企等数源主体不仅缺乏高水平的专业数据技术,也缺少数据治理的专门投入,造成数源单位即使有心,但也无力对数据资源进行共享和开放。
在数据资源流通方面,数据要素不同于传统生产要素的最大区别是“确权难、定价难、流通难”。“确权难”一方面表现在数据资源从其产生到利用的每一个环节都对数据价值做出了贡献,都对数据产权收益有一定的索取权,另一方面表现在由数据持有权派生出来的数据加工权、数据经营权和数据收益权,都不能侵犯数据主体的对数据先有权,即数据利用涉及到数据主体利益时,特别是涉及个人利益时,应征得个人数据主体的同意。由此造成数据大规模流通时,仍旧会产生由于数据权属不清而产生的法律纠纷;“定价难”是由于数据的场景依附性特点、易腐性特点和公共数据公益性特点造成的。数据资源对应用场景的依附性都非常强,同样数据由于不同主体和不同场景应用,产生的价值可能天壤之别;数据资源易腐性特征也非常明显,大多数数据一经使用就可能被无限复制,数据价值就大打折扣;公共数据都是由财政投资形成的,具有天然的公益特点,对公共数据收费使用可能形成对公众的两次收费,而如果免费使用又很难覆盖公共数据开发过程中的成本;“流通难”是由于数据流通交易市场不健全造成的,根子上仍然是数据安全红线导致的结果。当前,我国对数据安全和反不正当竞争相关法律,对个人信息安全和国家数据安全底线太低,管制太严,网络爬虫采集数据全部视为非法,而公共数据开放共享情况又不理想,造成“前端靠爬、后端靠谈、应用靠胆”的数据资源开发利用局面。由于大量数据的来源在现有法律制度下几乎都有不合法之嫌,数据持有人不敢将数据拿到通过合法渠道或放到数据交易所进行交易,也是数据黑市和数据灰市泛滥而无法禁绝的主要原因。
在数据资源利用方面。目前,我国除互联网市场的数据应用水平较高、发展速度较快外,其他行业和领域普遍存在应用领域不广泛、应用程度不深、认识不到位等问题,特别是与工业、农业和传统服务业等实体经济融合不够。数据应用水平不高除了由于法律制度限制而“不敢用”外,数据“不能用”和“不好用”也是数据利用方面存在的突出问题。“不能用”和“不好用”源于大多数据主体缺既乏数据分析加工的能力和技术,也没有大规模的应用场景;拥有丰富应用场景的各行各业既缺乏数据资源,也大多不具备数据分析加工能力;而拥有数据分析加工能力的技术服务商,往往缺乏数据资源,也没有丰富的应用场景。因此,数源单位和数据应用机构加大数据智能、人工智能、隐私计算等数据技术的投入,或通过将数据资源授权给具有技术和安全能力的机构进行运营,是加快数据资源利用的一个有效手段。
2.数据技术总体水平落后
数据技术创新与支撑能力不强也是我国数据产业发展面临的突出问题。主要表现在三方面:
一是数据空间、隐私计算等数据安全可信流通利用技术还未实现突破。数据安全可信流通利用是数据要素化发展新阶段,数据要素在经济社会中不断发挥关键要素作用,提出的新问题和新特征,需要对30多年互联网发展形成的信息流通规则、标准、技术、产品等进行系统性重构和颠覆性创新。当前业内提出的区块链、数据空间、隐私计算等技术路线仍处于探索阶段,还没有形成大规模的场景应用。
二是人工智能等核心数据技术与国外差距拉大。在算法方面,我国人工智能的训练算法和训练架构几乎都源自于美国谷歌、Meta等美国科技巨头,这些科技公司以开源和免费AI框架抢占了全球人工智能算法的创新源头;在算力方面,当前,支撑全球AI大模型的高算力芯片主要是英伟达研发的A100和H100 GPU智能芯片,这两款芯片已被美国政府限制出口我国。后来,英伟达为中国专门设计了符合美国出口标准的A800和H800芯片,其运行速度和性能只有A100和H100的70%,但近期仍然被美国政府列入禁运清单。目前,我国算力芯片生产厂商有华为海思、景嘉微、芯动科技、摩尔线程、沐曦科技、天数智芯等30多家,但国产GPU性能与英伟达的A100和H100相比还有很大差距,大多数都无法应用于人工智能大模型训练。在数据方面,尽管国内存量数据资源丰富,但由于数据挖掘不足、市场流通不畅等因素,导致中文高质量数据集极度稀缺,企业多采用自采、自建中文数据集方式,甚至采用外文标注数据集、开源数据集,或者爬取网络数据。目前,全球通用的50亿大模型数据训练集里,中文语料占比仅为1.3%,风靡全球的ChatGPT训练数据中的中文资料比重不足千分之一,而英文资料占比超过92.6%。造成我国大模型训练数据量先天不足,而结果显示出来的“聪明”程度就有了很大差异。例如,ChatGPT大模型的训练数据量达44TB,而我国相关企业大模型数据量仅为1TB。
三是对开源技术和相关生态系统影响力弱。在新型计算平台、分布式计算架构、大数据处理、分析和呈现方面等方面,我国基本上都是依赖OpenStack、Openshift、TensorFlow、PyTorch等云平台架构和算法框架,OpenStack和Openshift两个开源架构占据我国90%以上云平台份额,TensorFlow和PyTorch两个开源框架占据了我国85%以上算法框架份额。我国在云平台架构和算法框架等核心基础技术方面基础薄弱,对OpenStack、Openshift、TensorFlow、PyTorch等主流的开源云平台架构和算法框架贡献很小、影响力很弱,在缺乏核心技术的情况下使用这些算法资源,就很难搭建起自主可控的人工智能模型,也会随时面临“闭源”、“制裁”等“卡脖子”风险。
3.数据企业发展速度放缓
我国数据企业发展阻力较大,主要表现在以下三方面:
一是平台企业与美国企业差距拉大。平台企业是数据资源最集中、数据技术最先进、数据应用最丰富的数据企业,美中两国的平台企业在全球互联网市场上和数据流通市场上长期处于领先地位,但是,与美国相比,中国平台企业发展速度缓慢、发展质量不高。2023年全球市值前10的企业名单中,美国高科技企业入围7家,其中,苹果以3.03万亿美元高居榜首,微软以2.51万亿美元位居第二,谷歌母公司Alphabet为1.52万亿美元、亚马逊为1.34万亿美元、英伟达为1.05万亿美元、特斯拉为8868.9亿美元、Meta为7331.1亿美元,7家美国平台企业市值合计超过11万亿美元。反观排名前10的中国互联网平台,腾讯2.35万亿元,下降5100亿元;拼多多1.38万亿,上升8000亿;阿里1.33万亿,下降1600亿;美团4300亿,下降3000亿;小米3900亿,上升1500亿;网易3500亿,下降400亿;京东3100亿,下降700亿;百度2800亿,与去年持平;理想汽车2500亿,上升900亿;快手1950亿,上升50亿。其中,拼多多、小米、理想汽车、快手等4家市值上升,市值共上升10450亿元;百度1家市值持平;腾讯、阿里、美团、网易、京东等5家市场都在下降,市值共下降10800亿元。2023年前10名总市值达7.27亿元,不到美国前7家平台公司市值的十分之一,市值总体下降了350亿元。
二是企业数字化转型速度不快。总体来看,我国数字化应用仅在互联网、金融、政府等领域应用较多,而在工业、农业、传统服务业等行业和领域的应用场景还远远不够丰富,特别是数据要素化与实体经济融合发展方面还有很大差距,传统企业的数字化含量还很低,数据要素在传统企业发展过程中的价值潜能还远未发挥出来,传统企业向数据企业转型升级还有较长的路要走。
三是中小型数商成长环境不宽松。在数据要素化发展过程中,不仅需要大型数据平台企业快速发展、大中型央国企转型为以数据为关键生产要素的数据企业,更需要一大批为经济社会数字转型提供技术服务、中介服务和应用服务的中小型数商,构建起大中小数据企业繁荣发展的企业生态。但是,从具体实践来看,我国中小型数商在算力资源、数据资源、合规合法等方面的成本偏高。中小型技术型数商已越来越难得到高算力计算资源的支持,其人工智能技术产品与国外差距有不断扩大趋势;中小型应用型数商在获取公共数据等高价值数据资源方面难度较大,成本较高;中小型服务型数商提供的数据合规认证、评估、测评等服务,受到数据安全合规制度的严厉约束。中小型数商的生存生长环境有待改善和提高。
4.数据生态零散割裂严重
目前,由于数据资源大多分散在各地区、各行业、政府机构和平台企业中,以人工智能为代表的数据技术和产品严重依赖于国外开源架构体系、数据企业也没有形成内生性相互依存的企业生态,从数据资源生态、到数据技术和产品生态、直到数据企业生态都处于生态零散割裂状态。与美国以互联网平台企业为龙头形成的全球数据资源生态、数据技术与产品生态、大中小数据企业相互依存的企业生态间的差距有不断增大趋势。
五、数据产业发展趋势
“数据二十条”发布以后,特别是国家数据局成立以来,标志着我国进入数据要素化发展新阶段,数据要素市场化配置改革进程空前加速,数据产业作为数据要素化发展新阶段的新型产业形态,将在全社会达成普遍共识,并会得到国家政策的全力支持,数据技术、数据产品、数据企业、数据生态等方面都将表现出新的发展趋势。
1.“数据产业”和“数据要素产业”内涵将形成共识
粮食和能源分别是农业时代和工业时代最重要的要素资源,粮食产业和能源产业是农业社会和工业社会最重要的战略性、支柱产业。随着人类社会进入数字时代,数据已成为数字时代最重要的要素资源,数据产业是也必然是数字社会最重要的支柱产业。因此,与粮食产业和能源产业一样,数据产业是已成为国家战略性、支柱性产业。因此,国家数据主管部门应会同国家统计局、工信部等部门,将数字产业化、大数据产业、数字经济产业、数字经济核心产业、数据要素产业、数据服务产业等不同称谓统一为“数据产业”,并明确数据产业包含数据基础产业、数据要素产业和数据安全产业。其中数据基础产业包括软件产业、硬件产业、网络产业等,数据要素产业包括数据采集存储产业、数据加工生产产业、数据流通应用产业等。
2.国家将出台促进数据要素产业发展的“新18号文”
2000年6月,国务院印发《鼓励软件产业和集成电路产业发展若干政策》(国发〔2000〕18号),从投融资政策、税收政策、产业技术政策、出口政策、收入分配政策、人才吸引与培养政策、采购政策、软件企业认定制度、知识产权保护、行业组织和行业管理、集成电路产业政策等11个方面,对软件产业和集成电路产业发展出台了广泛全面的优惠政策,并成立了“18号文件办公室”负责相关政策的具体实施。国发18号文发布10周年和20周年后的2011年1月和2020年7月,国务院又相继出台了《进一步鼓励软件产业和集成电路产业发展的若干政策》(国发〔2011〕4号)和《新时期促进集成电路产业和软件产业高质量发展的若干政策》(国发〔2020〕8号),从财税政策、投融资政策、研究开发政策、进出口政策、人才政策、知识产权政策、市场政策、政策落实(国际合作政策)等8个方面,对软件产业和集成电路产业进一步鼓励发展。国发18号文及其后来的国发4号文和国发8号文,是政府鼓励基础性、战略性产业发展的典型成功案例,经过持续20多年的政策持续扶持,我国软件产业和集成电路产业快速发展,产业规模迅速扩大,技术水平显著提升,有力支撑了国家信息化建设,促进了国民经济和社会持续健康发展。
与20多年前全球经济社会正处于信息化发展新阶段,我国软件产业、集成电路产业和信息产业处于发展起步阶段,特别需要政府政策大力鼓励扶持一样,当前,全球经济社会发展正在大步进入数据要素化发展新阶段,我国数据要素产业正处于起步阶段,同样特别需要政府政策的大力扶持。应充分借鉴国发18号文的成功经验和做法,国家数据局应会同国家发改委、财政部、商务部、信息产业部、国家税务总局、国家市场监管总局等部门研究制定鼓励数据要素产业发展的政策措施,由国务院出台《新时期大力促进数据要素产业发展的若干政策》,从投融资政策、税收政策、产业技术政策、进出口政策、收入分配政策、人才政策、市场政策、数据要素型企业认定制度、行业组织和行业管理等方面,加大对数据要素产业的扶持力度。
3.人工智能、行业数据集、隐私计算等将成为主流数据技术
数据技术是数据产业发展的基础,人工智能、行业高质量数据集、区块链、隐私计算等数据技术由于能够为数据创造和提供价值增值、安全互操作、可信流通等功能,将成为主流数据技术,并将得到国家层面的政策扶持和数据要素企业的优先发展。人工智能技术将在数据分析加工、数据治理应用中得到广泛应用,并将创新出更多个性化、满足多场景需求的数据产品和服务;包括文本、图像、音频、视频等多模态行业高质量数据集,是人工智能大模型“聪明”程度的基础,包括大模型平台研发预训练集、指令微调数据集和测试集,具有数据采集、存储、清洗、标准化、标注等治理能力;区块链、隐私计算、数据空间等技术具有保障数据可信安全流通利用的功能,将在行业数据基础设施、区域数据基础设施和国家数据基础设施建设方面发挥更大作用。
4.“数据产品登记备案”将成为体系化常态化的工作
“软件产品产品登记备案”工作的组织实施,不仅成为软件企业认定的前提,同时也成为是“国发18号文”能够有效贯彻的重要基础。主要有四个环节:一是标准制定。工业和信息化部、国家市场监管总局负责制定软件产品国家标准;二是软件产品申请登记。软件产品的开发、生产单位向当地软件产品登记机构申请软件产品登记备案;三是软件产品核报和备案。省、自治区、直辖市及计划单列市软件产业主管部门核报工业和信息化部备案;四是公示和发放证书。工业和信息化部在指定媒体上对报备的软件产品进行公示;公示7个工作日无异议的,由省、自治区、直辖市及计划单列市软件产业主管部门核发软件产品登记号和软件产品登记证书。
我国已开始数据产品登记的探索工作。2024年2月19日,国家数据局正式启动了全国数据资源调查工作,调查对象包括省级数据管理机构、工业和信息化主管部门、公安厅(局),各省重点数据采集和存储设备商、消费互联网平台和工业互联网平台企业、数据交易所、国家实验室等单位,中央企业,行业协会商会,国家信息中心等5类单位共11份调查表,调查的内容包括数据生产总量、存储总量、开放总量、数据产品可交易数量等,调查指标项目总数超过300项。在摸清家底的情况下,我国将逐步启动数据产品登记备案工作,为数据要素型企业认定和促进数据要素产业发展奠定基础。数据产品登记备案工作将充分借鉴软件产品登记备案的成熟经验,从五方面开展数据产品登记备案:一是标准制定。由国家数据局会同国家市场监管总局制定数据产品标准;二是成立机构。国家数据局应成立专门机构—“数据产业促进办”,专门负责全国数据产品登记、备案工作;三是数据产品申请登记。数据产品的采存算管用全生命周期各环节单位向当地软件产品登记机构申请软件产品登记备案;四是软件产品核报和备案。省、自治区、直辖市及计划单列市数据要素产业主管部门核报国家数据局备案;五是公示和发放证书。国家数据局对报备的数据产品进行公示;公示7个工作日无异议的,由省、自治区、直辖市及计划单列市数据要素产业主管部门核发数据产品登记号和数据产品登记证书。
5.“数据要素型企业认定”将在全国范围体系化开展
“软件企业认定”工作的组织实施是“国发18号文”能够有效贯彻的重要基础。主要有四个环节:一是标准制定。由工业和信息化部、教育部、科技部、国家税务总局等有关部门制定了软件企业的认定标准;二是成立专门机构。工业和信息化部成立专门机构—“18号办”,专门负责全国软件企业认定推进工作;三是软件企业初选、审核、批准和发布。各地行业协会负责软件企业名单初选,报经同级工业和信息化主管部门审核,并会签同级税务部门批准后正式公布;四是软件企业年审。软件企业实行年审制度,年审不合格的企业,即取消其软件企业的资格,并不再享受有关优惠政策。软件企业认定成为软件企业享受国家政策优惠重要依据,并有助于提升企业形象和增强品牌影响力。
我国将开展数据要素型企业认定工作,将数据要素型企业认定作为获得政府各项优惠政策的前提和基础。应充分借鉴软件企业认定成熟经验,从四方面开展数据要素型企业认定工作:一是标准制定。由工业和信息化部、教育部、科技部、国家税务总局等有关部门制定数据要素型企业认定标准;二是成立专门机构。国家数据局成立专门机构—“数据产业促进办”,专门负责全国数据要素型企业认定推进工作;三是数据要素型企业初选、审核、批准和发布。由各级数据局委托地(市)级数据行业协会、学会、联盟等社会团队机构负责数据要素型企业名单初选,报经同级数据管理部门审核,并会签同级税务部门批准后正式公布;四是数据要素型企业年审。数据要素型企业实行年审制度,年审不合格的企业,即取消其数据要素型企业的资格。
6.企业协同、区域协同的数据产业生态格局将逐步构建
新型举国体制是我国发展壮大数据产业的独特优势,我国将从构建数据企业协同发展格局、优化数据产业区域布局两个方面,推动全国一体化数据产业生态建设。一是构建企业协同发展格局。培育一批数据龙头企业和创新型中小企业,形成多层次、梯队化的创新主体和合理的产业布局。支持龙头企业整合利用国内外技术、人才和专利等资源,加快数据技术研发和产品创新,提高产品和服务的国际市场占有率和品牌影响力,形成一批具有国际竞争力的综合型和专业型龙头企业。支持中小企业深耕细分市场,加快服务模式创新和商业模式创新,提高中小企业的创新能力。鼓励生态链各环节企业加强合作,构建多方协作、互利共赢的产业生态,形成大中小企业协同发展的良好局面。二是优化数据产业区域布局。引导地方结合自身条件,突出区域特色优势,明确重点发展方向,深化数据应用,合理定位,科学谋划,形成科学有序的产业分工和区域布局。在全国建设若干国家数据要素综合试验区,在大数据制度创新、公共数据开放共享、数据创新应用、数据产业集聚、数据要素流通、数据中心整合、数据国际交流合作等方面开展系统性探索试验,为全国数据要素市场化配置改革积累经验。在数据产业特色优势明显的地区建设一批数据产业集聚区,发挥产业集聚和协同作用,以点带面,引领全国大数据发展。统筹规划大数据跨区域布局,利用数据资源推动数据共享、数据消费、资源对接、优势互补,促进区域经济社会协调发展。
↓↓了解更多资讯,请识别下方二维码↓↓
国脉集团是数据资产化先锋企业,主要提供培训、咨询和产品设计服务。为数据资源拥有者提供专业、规范、合规的全流程资产化服务,提升机构数据管理服务能力,实现数据资源价值最大化。运用最先进的培训理念方法和平台工具提供高绩效培训服务。研发“一头一体两翼”企业数据资产化咨询服务方法论,提升数据资产化战略设计、就绪度评估与咨询、入表和产品化全流程咨询服务。基于战略思维和实操需求研发“易”系列产品,并与数源方合作研发系列数据产品。
主要课程包括数据资产入表、数据经纪人、公共数据运营和政府CDO、数据精品等精品课程。
主要产品:数据易投、数据易贷、数据易保、数据易售。