文|中国科学院科技基础能力局副局长、自动化研究所副所长曾大军
人工智能技术的突破性进展正深刻重塑全球产业格局,而高质量数据集作为人工智能模型训练与应用的基石,已成为国家科技发展的核心要素。2024年中央经济工作会议明确提出“人工智能+”行动,标志着数据要素的战略地位从“支撑”升级为“引领”。高质量数据集不仅是技术创新的“燃料”,更是推动超级人工智能、具身智能、自动驾驶等未来产业落地的关键引擎。
建设高质量数据集面临的挑战
当前,高质量数据供给的结构性矛盾亟需改善,数据合成技术链与产业链的协同有待加强,数据治理与隐私保护的规范性缺乏行业标准,数据发展政策与规划有待进一步细化。
首先,我国在医疗、法律、工业、科学等行业的高质量数据集存在供给性矛盾,公共数据开放程度低且标准不统一。以工业领域为例,大量数据因企业间壁垒未被有效利用。具身智能领域也存在数据采集瓶颈,真实场景数据获取成本高昂,缺乏统一的标注和评估标准,这严重制约了相关技术的发展与应用,使得人工智能在这些领域的模型训练和优化面临数据“瓶颈”,难以充分发挥其潜力,进而影响了我国人工智能在各垂直领域的整体发展进程。
其次,数据合成技术连和产业链的协同不足,面临"质量与效率"的双重困境。通过人工智能生成多样化合成数据的技术成熟度较低,难以满足大模型训练对于海量、多样化数据的需求。同时,商业模式相对滞后,缺乏成熟的“人工智能+数据”平台,数据汇聚与治理主体尚未成熟,无法有效整合各方资源,形成协同发展的良好生态。
再次,数据发展政策存在“有框架缺细则”的结构性缺陷。虽然我国已经推出了一系列促进数据发展的政策与规划,但针对人工智能新一代高质量数据集专项规划尚未落地,数据流通机制与标准亟需细化。在生态建设方面,尚未形成完善的、涵盖数据采集、标注、存储、管理、应用等全链条的生态系统,各环节之间的衔接不够紧密,协同效应不足。
最后,数据治理与隐私保护机制尚不完善。一方面,数据安全法律法规尚不完善,数据产权界定不清晰,数据交易规则和监管机制不健全,导致数据滥用、数据泄露等风险频发,严重威胁个人隐私和企业商业秘密;另一方面,数据治理技术手段相对滞后,数据分类分级、数据脱敏、数据加密等技术应用不足,难以满足数据全生命周期的安全管理需求。
以落地为导向,推进高质量数据集建设
针对建设高质量数据集存在的供给、技术、政策与机制等方面的问题,结合“人工智能+”政策指引,建议以落地为导向,切实推进高质量数据集建设。
一是加强数据供给与流通。建议由相关部门推动公共数据的开源开放,扩大数据供给范围与规模,特别是在医疗、教育、科研、法律、工业、农业等重点领域,促进数据共享与流通。同时,企业间的合作与数据流通机制亟需完善,行业间应共同制定数据标准,打破数据孤岛,构建完备的数据生态体系。
二是完善政策支持体系,加大财政资金投入。政府应通过完善政策体系,进一步推动高质量数据集建设,重点支持数据资源的构建和数据技术的研发。应统筹中央和地方的财政资金、产业引导基金,加大对数据产业的政策扶持,尤其是在数据集建设、数据技术发展、数据平台建设等方面。通过政策激励,吸引更多社会资本参与到数据资源的开发与应用中,为人工智能技术创新提供资金保障和政策支持。
三是构建专业人才队伍,提升数据科学与人工智能技术能力。高质量数据集建设离不开人才的支撑,建议加强数据科学与人工智能领域的专业人才培养。通过优化教育体系,设置针对数据生成、自动化标注、领域建模等关键技术的课程和实践项目,培养学生的数据处理与分析能力。同时,加强在职人员的技能提升,尤其是在数据处理和人工智能领域的能力建设,以适应快速发展的技术需求,为高质量数据集建设提供人才保障。
四是建设国家级数据要素平台,强化基础设施支持。建议建立集数据资源、计算能力与人才为一体的国家级数据要素平台,作为人工智能创新和应用的基础设施。该平台应整合全国范围内的高质量数据资源,覆盖医疗、工业、交通等多个领域,提供丰富的数据素材和强大的计算支持,助力人工智能模型的训练与优化。同时,平台应汇聚数据科学与人工智能领域的专业人才,推动跨行业的技术交流与合作,为高质量数据集建设提供全方位支撑。
五是加强隐私保护机制,确保数据安全与合规性。建议加强数据隐私保护法律法规的建设,明确数据产权和交易规则,推动数据泄露、滥用等风险的防控。通过出台严格的数据隐私保护政策,要求企业和科研机构在数据收集、存储、使用等环节遵循数据最小化原则,确保用户隐私不被侵犯。同时,推动数据治理技术的研发与应用,如数据脱敏、加密技术、匿名化技术等,确保数据在全生命周期内的安全性和合规性。
↓↓了解更多资讯,请识别下方二维码↓↓
国脉集团是数据资产化专业服务机构,为数据资源拥有者提供专业、规范、合规的全流程数据资产化服务,包括培训、咨询和产品设计等,实现数据资源价值最大化。主要服务于政府数据管理机构、央国企数据运营企业、城市数据运营平台和数据富集型平台企业,打造数据资产网、数据资产研究院和产业专家网络等支撑体系,同时在营商环境与政务领域继续保持领先优势。 主要课程包括数据资产入表、数据经纪人、公共数据运营和政府CDO、数据精品等精品课程。 数据资产化服务:数据资产化战略布局、数据资产入表、数据产品开发及交易等关键任务; 数据要素×项目服务:政策扶持、案例奖项申报、金融支撑和市场变现; 数据产业园区和试验区咨询服务:园区规划、咨询、资源导入