来源:中国经济网 发布人:学林网 发稿日期:2025-01-18
推动数据标注产业化,不仅夯实了人工智能算法训练的基石,也有助于释放数据要素的价值。新形势下,促进数据标注产业高质量发展,需要在需求牵引、创新驱动、生态培育等方面找准发力点。
日前,一份名为《关于促进数据标注产业高质量发展的实施意见》的文件,迅速让“数据标注产业”跃入大众视野,也引发很多人的好奇:“数据标注”究竟是个什么样的产业?国家为何如此重视这个新事物?
对于“数据标注”,专家的解释很直接:就是给文本、语音、图片、视频等各种各样的数据“打标签”。但别小看这些标签,正是有了它们,数据才可以更好地被人工智能算法理解和使用,人工智能系统的性能与准确性才能有效提升。从某种意义上说,没有高质量的数据标注,就没有高性能的人工智能系统。
通常情况下,训练一个领先的大模型,需要数百万条甚至数千万条标注数据。遗憾的是,我国虽是全球第二大数据资源国,但还算不上数据资源强国。有机构统计显示,2023年我国数据资源为32ZB(泽字节),保存数据仅有2.9%,这一数字远低于发达国家平均水平。换句话说,数据质量低、大量数据被浪费等现象,客观上制约了我国数据资源价值的发挥,而通过推动数据标注产业化,不仅夯实了人工智能算法训练的基石,也有助于释放数据要素的价值。
促进数据标注产业高质量发展,有其必要性。当前,全球主流基础大模型中,中文语料仅占全部语料的1%,高质量中文数据不足很大程度是我国基础大模型能力的短板所在。正因如此,全面提升中文语料质量,已成为破解我国大模型发展的关键环节之一。打造具有国际影响力的数据标注企业和品牌,将有助于构建完整的人工智能产业链,提升我国在全球人工智能领域的市场份额和话语权。
近年来,人工智能技术的迭代升级和应用场景的持续拓展,推动数据标注产业不断呈现出自动化、专业化和高端化的特点,数据标注产业正逐步从传统的劳动密集型产业向知识密集型产业转变,数据标注员作为国家认可的新工种,其专业化要求也在不断提高。同时,数据标注的应用领域加快拓展深化,除了传统的语音转写、图片文字识别等,来自垂直大模型公司的新需求也越来越多,标注的内容也更加丰富多彩。
新形势下,促进数据标注产业高质量发展,需要在需求牵引、创新驱动、生态培育等方面找准发力点——
在深化需求牵引方面,通过释放公共数据标注需求和挖掘企业数据标注需求,依法依规有序推动公共数据标注与开发利用。支持跨部门、跨地区、跨层级公共数据融合应用,鼓励政府部门和企业协同开展政务大模型所需数据的标注和训练,在现代农业、智能制造、信息服务等重点领域发掘公共数据标注需求。
在增强创新驱动方面,加强数据标注领域的关键技术攻关、标准制定和创新载体建设。支持软硬一体、自主可控的数据标注领域技术和关键设备的研发应用。培育建设数据标注领域重点实验室、技术创新中心等创新载体。
在培育繁荣生态方面,着力壮大数据标注产业的经营主体,推动其规模化、标准化、集约化发展。积极完善产业生态,畅通数据采集、标注、人工智能应用产业链,推动上下游协同发展,培育一批深耕行业的数据标注瞪羚企业、独角兽企业。
此外,还要持续优化支撑体系,在加大财税金融支持力度、推动数据标注服务纳入政府采购范畴等方面,提升数据标注的公共服务能力。尤其是在人才培养上,要深化产学研融合,鼓励行业联盟、高校、科研院所与企业建立长期合作机制,进一步畅通人才发展通道,强化数据标注产业发展的人才支撑。 (作者:顾阳 来源:经济日报)
原标题:【每周经济观察】找准数据标注产业发展着力点
最后一篇