本报(chinatimes.net.cn)记者刘诗萌 北京报道
作为AI时代的“新石油”,数据要素,尤其是高质量智能数据更是AI时代的新底座。“十五五”开局之年,为深入实施“人工智能+”行动,国家层面首次对数据赋能人工智能发展作出了系统性部署。
6月8日,国家数据局发布《关于推进行业高质量数据集建设行动的实施方案》(下称《实施方案》),围绕行业高质量数据集供给、流通、应用等关键环节,部署六大专项行动,为强化数据赋能人工智能创新发展指明方向。
“高质量数据集既是人工智能训练和优化的基础资源,也是推动数据要素价值释放的重要载体。”中国信息通信研究院人工智能研究所副总工程师闫树接受《华夏时报》记者采访时表示,《实施方案》是落实国家“人工智能+”行动和培育数据要素市场的重要举措。当前,人工智能已进入以大模型、智能体、具身智能为代表的新阶段,数据成为驱动人工智能创新发展的关键生产要素。《实施方案》聚焦行业高质量数据集建设,实际上是在夯实人工智能发展的数据底座,为我国数字经济和人工智能产业高质量发展提供支撑。
六大专项行动全周期布局
算力、算法和数据是人工智能的三大基石,而其中数据是当前制约人工智能进一步发展的最大瓶颈之一。随着“人工智能+”进入规模化落地与产业深耕的关键阶段,对行业高质量数据集建设提出了全新要求。
《实施方案》明确了六个专项行动,分别为强基扩容行动、标注攻坚行动、提质增效行动、应用赋能行动、管理服务行动和价值释放行动。在闫树看来,这六大专项行动并不是彼此孤立的,而是围绕行业高质量数据集建设全生命周期进行系统布局,形成了从数据资源供给到应用落地、再到价值释放的完整链条。六项行动环环相扣,构成了“资源汇聚—加工治理—质量提升—场景应用—规范管理—价值释放”的闭环体系。
具体来看,强基扩容行动解决的是“怎么供给”的问题,重点推动行业数据资源汇聚和规模化供给;标注攻坚行动解决的是“怎么加工”的问题,通过高质量标注提升数据可训练、可学习、可应用水平;提质增效行动解决的是“好不好用”的问题,建立质量评估、治理优化和验证机制,提高数据集质量和可信度;应用赋能行动解决的是“怎么应用”的问题,推动高质量数据集在行业大模型、智能体和重点场景中落地应用;管理服务行动解决的是“怎么管理”的问题,完善标准规范、平台工具和服务体系;价值释放行动解决的是“价值怎么释放”的问题,推动数据资源向数据资产转化,探索数据流通交易和价值实现路径。
值得注意的是,在强基扩容行动中,《实施方案》还明确了聚焦24个具体的行业领域推进高质量数据集建设。其中包括科学研究、工业制造、农业农村、智慧能源、交通运输等19个重点领域,以及低空经济、具身智能、智能驾驶、智慧海洋、生物制造等5个创新领域。
闫树指出,对于重点行业而言,高质量数据集是推动行业智能化升级的重要基础。例如在工业制造、医疗健康、交通运输、能源电力等领域,高质量数据集能够支撑行业大模型、智能决策系统和智能装备研发应用,提高生产效率、优化资源配置、增强行业创新能力;对于创新行业而言,高质量数据集则是培育新质生产力的重要支撑。当前具身智能、低空经济、自动驾驶、科学智能等新兴领域快速发展,但普遍面临专业数据不足、场景数据稀缺的问题。《实施方案》将这些前沿方向纳入重点支持范围,有助于加快形成数据驱动创新、场景牵引应用的发展模式,推动新技术、新产品、新业态加速落地。
高质量数据需求爆发式增长
行业高质量数据集为何重要?
在中国发展高层论坛2026年年会上,国家数据局党组书记、局长刘烈宏表示,随着人工智能从基础大模型向行业大模型纵深拓展,与实体经济的结合度越来越高,行业高质量数据集正取代通用语料,成为决定模型落地效果的关键变量。只有推动人工智能与各行各业深度融合,才能将技术势能转化为发展势能。
国家数据发展研究院院长胡坚波也撰文指出,当前人工智能技术正加速向各行业领域渗透,高质量数据需求呈现爆发式增长态势。随着互联网上公开数据的挖掘空间持续收窄,模型能力的持续提升须深度挖掘金融、医疗、工业等领域积累的专有、非显性化数据,行业高质量数据集已从补充性资源转变为产业发展刚需。另外,具身智能、世界模型等新范式需要理解物理世界的空间结构与运行规律,也催生了对3D、视频等多模态行业数据的规模化需求,同时对数据采集与标注的质量提出了更高标准。
诺亦腾机器人市场公关负责人檀煜鑫向《华夏时报》记者表示,具身智能要让机器人在真实世界中感知、决策和执行,离不开大规模、多模态、高精度的真实数据。然而,这类数据获取成本高、场景覆盖少、标准化程度低,成为制约行业从“演示”走向“落地”的关键短板。具身智能产业下一阶段竞争的关键,不只是机器人本体本身,更要看能否形成高质量、可复用、可流通的数据资产。《实施方案》从供给、标注、提质、应用全链条系统部署,对具身智能而言,意味着国家层面的基础设施支撑。当高质量数据集不再是“各家自采自用”的孤岛,而是形成标准化、可流通、可跨本体复用的产业资源,具身智能的规模化落地将从根本上加速。
记者注意到,近期国家出台了多个人工智能领域的文件,都涉及高质量数据集的建设。4月底,工信部、国家数据局联合印发《关于联合实施2026年“模数共振”行动的通知》,提出面向钢铁、石化化工等20个领域推动产出一批推广价值高、技术可行性强的人工智能应用场景,构建一批行业通识和行业专识高质量数据集。而在6月10日工信部印发的《“人工智能+信息通信”创新发展实施意见(2026—2028年)》中,也明确提到面向信息通信领域模型训练和应用需求,在重点场景打造一批信息通信行业高质量数据集。
刘烈宏在上述演讲中表示,国家数据局将2026年明确为“数据价值释放年”,聚焦数据赋能人工智能创新发展,将深入实施强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六大行动,力争形成一批更好满足人工智能就绪度要求、有效训练先进模型或智能体、真正解决行业难题的高质量数据集,实现供给量、质齐升,使人工智能深入千行百业、加速人工智能与实体经济的深度融合。
责任编辑:徐芸茜 主编:公培佳