□ 本报记者 聂 伟
“火了!”
11月5日,“2025全国高质量数据集和数据标注产业供需对接大会”在南京成功举办。大会围绕大模型训练、行业智能化转型中的数据需求,设置了医疗健康等5个行业供需对接专场,吸引国内500余家企业参与,现场达成合作90余项,交易额超9亿元。
作为全国首个高质量数据集和数据标注产业供需对接大会,首次试水即“火热出圈”的背后,不少与会专家、学者、企业家代表也提出了“冷”思考:数据标注和高质量数据集建设领域,眼下还存在怎样的卡点堵点亟待破解?如何更好地助推江苏人工智能+千行百业?
江苏是数据要素资源大省
江苏作为数据要素资源大省,想要抢抓人工智能发展机遇,高质量数据集建设势在必行、必须先行。
会上发布了一组最新数据:截至今年10月底,我省在医疗、交通、工业、能源、文旅等重点领域形成高质量数据集321个,数据总规模超93PB。
93PB是一个什么概念呢?专家解释说,PB是一个数据存储单位,用于描述如大型数据库、科研机构或企业的数据存储中心等场景中的非常大数据量。以电影为例,一部时长2小时的高清电影约1GB,93PB相当于9300万部电影。
什么样的数据集,才称得上高质量数据集呢?“数据量不一定很大,但一定要精!”出门问问创新科技有限公司是AI语音交互行业先行者、国内“AIGC(人工智能生成内容)第一股”,该公司研发负责人孙鹏飞告诉记者,高质量数据集在不同行业里,定义标准是不一样的;但关键的一点,数据是为AI大模型服务的,符合大模型训练需要的数据集才是高质量的。
高质量数据集的茁壮生长,离不开一块阳光、水肥充足的“数据田”。省数据局副局长王万军娓娓道来:在政策环境优化上,我省构建“1+N”的人工智能高质量发展政策体系,在算力、算法、数据和人工智能应用上系统发力。作为其中关键一环,今年8月,省数据局等八部门联合印发《江苏省发展数据标注产业建设高质量数据集实施方案(2025—2027年)》,把数据标注和高质量数据集一体统筹,聚焦江苏数据资源富集、场景应用丰富的17个领域,引导供需企业协同推进高质量数据集建设。还会同八部门印发《江苏省培育壮大数据企业行动方案(2025—2027年)》,开展涵盖数据资源等6类数商引育工作,抓住企业这一关键力量,加快高质量数据集生态圈建设。
数据标注有专业门槛
“人工智能,不是凭空产生的,也不是凭空进化的,你可以理解为一个小朋友从幼儿园到上大学。”苏州柏川数据科技有限公司副总经理朱丹给记者打起了比方。
要上好大学,就得不断学习。应试教育和素质教育两手都要硬。先要“填鸭式”学习人类的知识积累,没有海量、全面的学习,它可能会“偏科”;再学方法,从量变引发质变。“当个机器人,也不容易呀!”朱丹笑着说。
这当中,数据标注至关重要。“标注就是找特征、找意外情况。以智能驾驶为例,智驾第一追求就是安全性。所以,我们要把马路上有一块滚石或有抛洒物等风险点都标出来,这就是人工智能最应该学的知识点!”朱丹说。
数据标注,看上去简单,其实有行业门槛。很多视频、2D照片等,普通老百姓看得懂,很快就能上手,但一些鸟瞰图、三维图,就需要一些数学知识积累;对医学类数据进行标注,就需要有较高水平的专业知识。
眼下,困扰数据标注的问题正在于此。“一些细分领域、垂类领域的大模型进展缓慢,主要有两个原因,一个是数据供给不足,很多原始数据没有采集上来;第二个就是加工能力不足,需要人工标注。”有位与会专家坦言道。
随着人工智能领域越来越细分、水平越来越高,不是每个数据标注师都能跨界其他领域,行业渴盼一支高水平、专业性强的数据标注师队伍。
高质量数据集建设要“算好账”
“我们交流发现,有一些前景很好的高质量数据集,被供数方忍痛舍弃了!以后一旦需要了,就得重新花成本去采集、加工。”有专家告诉记者,一面是持续增长的数据采集总数,另一面是居高不下的存储成本。
记者从一些数据企业了解到,很多人工智能暂时用不到的高质量数据,“需要找个仓库存放起来,租仓库、自建仓库以及仓库保管运行费,都是成本!”有些企业自建存储中心,或是租赁第三方存储,像华为、阿里可提供云存储服务。
但随着各行各业都重视数据,数据大潮会持续汹涌而来。作为基础和底座,如何降低数据存储成本,已成为整个行业重要课题。“是否可以像建设算力中心一样,在我国中西部地区,建一些冷存储中心,把暂时用不到的数据,低成本保存,等到合适时,再拿出来。”一些企业代表吐露心声。
数据行业,是一个知识密集型叠加资金密集型的行业,除了存储成本,还有融资成本,也制约了不少企业的做大做强。“一个价值100元的数据集,80元是采买原始数据的成本。”为此,不少企业呼吁,金融机构能否加大对数据采集端、标注端的扶持力度,对有切实市场价值的高质量数据集,以类似于“订单贷”或“信用贷”等形式介入,为企业发放启动资金,让企业可以从从容容采集、加工数据,完成交易,形成良性产业循环。
高质量数据集“如何建”?中国电子技术标准化研究院副院长范科峰表示,为加快推进行业高质量数据集建设,在国家数据局指导下,全国数标委积极推动高质量数据集建设指南、格式要求、分类指南、质量评测规范等标准研制工作,不久前正式发布了4项高质量数据集系列技术文件。通过“标准化”方式解决高质量数据集建设目前所面临的突出问题。
国家数据发展研究院院长胡坚波表示,我国正按照“1+3+5+N”的思路,依托1个高质量数据集管理服务平台,从3个层次推进高质量数据集基础设施化,通过5类建设主体,以N个典型应用场景为牵引,聚焦重点行业领域和创新领域,建设高质量数据集,服务人工智能模型开发和应用。
聚焦企业痛点难点,江苏将围绕高质量数据集的价值实现,从高质量数据集建设供需两侧发力,编制数据富集领域建设指南和数据标注产业图谱,加快数联网、可信数据空间试点以及高质量数据集公共服务平台建设,夯实高质量数据集建设、流通和交易、应用基础;强化高质量数据集建设相关中小企业培育,支持企业做大做强;促供需,推动省级资源与地方需求精准匹配,组织数据集建设供需双方、专业化第三方的供需对接会,支持先行先试企业加速高质量数据集构建和应用转化。




