数据作为人工智能的三大核心要素之一,直接决定人工智能的能力上限。作为数据要素资源大省,江苏正全速推进数据产业提质发展,为人工智能产业构筑坚实的发展基石。

荔枝新闻中心记者黄蒙说:“数据是人工智能的核心要素。随着人工智能产业的飞速发展,对高质量数据的需求也与日俱增。这也催生出了数据采集、数据标注等新兴产业。现在我们就来到了一家位于无锡的数据企业,看看这里是如何‘生产’高质量数据的。”

走进江苏省具身智能机器人工业数据采集与实训中心,一排排人形机器人在训练师的指导下,学习分类生产线上的各类物料。当人工智能触达物理世界,“物品是什么、如何抓取、摆放到什么位置”这些与物理环境交互反馈的真实数据,已然成为人形机器人研发的关键环节。

天奇股份具身智能事业部人形机器人数据采集员乔旭说:“我们这是一个真实产线的模拟场景,它采集了相机的视觉数据、手臂关节的轨迹数据。数据采集后交付给大模型开发的工程师进行大模型训练,随后植入到机器人本体中,就可以到工厂中实际使用了。”
当前,训练一个具身智能大脑需要百万级“人类行为数据”。在无锡这家数据采集中心,近百台机器人正源源不断产出适用于不同工业场景的训练数据。伴随着具身智能机器人的爆发式增长,这类数据产品更是呈现出供不应求的市场态势。

天奇股份具身智能事业部大模型算法首席科学家童随兵说:“数据是提升我们模型智能化程度的一个催化剂。基于新数据,我们就能够持续进化机器人。年前已经交付了30万条机器人的操作数据,今年大约有500万条的数据交付量。要把数据采集中心打造成为长三角的数据平台。”

如果说人形机器人的“大脑训练”尚处于起步阶段,那么发展较早的大模型正依托海量数据支撑,持续拓展知识应用边界。在国内最大数据标注企业——澳鹏科技(无锡)有限公司,医学标注专家正通过专业标注“教导”医疗大模型。随着人工智能技术加速向垂直领域渗透,越来越多的专业技术人才投身数据标注行业,成为“专业AI导师”。

澳鹏数据医疗标注专家许加路熹说:“您可以看到我们这一个病例是脑胶质瘤的转移灶。我给了6个选项、6个相应的选择处理交给大模型。我的任务是让这两个模型回答这个问题的正确率低,让这道题难到大模型回答不上来。”
记者:“你是这些大模型的‘考官’。”
许加路熹说:“是的,我给它们出一个非常高阶的医疗的病例难题去难倒它们。工程师可以根据我们反馈的题目去发现大模型它还有哪些不足的地方。”
除AI医疗领域外,澳鹏的数据标注服务已覆盖具身智能、大模型、自动驾驶等多个前沿领域。凭借数据标注领域的领先技术积累,企业近五年复合营收增长率高达90%,2025年营收超7亿元,服务客户覆盖国内头部AI企业、互联网公司及车联网企业。

澳鹏数据客户服务部高级总监王芳说:“数据标注就是教AI去理解这个世界。我们前期会教AI去认图去识字。现在,我们更多的是在为AI编写高阶的思维教科书。在技术专家这块,我们是有代码、金融、医疗、法律等十大垂类的专家人才。其中,医疗团队有500多人,有15%的人都是有执业医师资格证。”
为助推更多数据企业提速发展,今年,江苏正式启动全省首批2110家数据企业入库培育工作,标志着江苏数据企业培育体系全面落地。以无锡为代表,当地目前已建成70个高质量数据集,覆盖工业制造、医疗健康、智慧交通等14个重点行业领域;集聚数据标注企业25家,产业营收达44.8亿元,其中仅数据标注业务营收就突破7.4亿元。

无锡市数据局副局长袁禄来说:“坚持‘人工智能+’行动到哪里,高质量数据集建设和应用就跟到哪里。今年,我们计划新增高质量数据集100个、新招引25家数据标注企业,力争数据标注产业规模增速能突破60%,争创国家级数据标注产业创新试验区。”
去年以来,江苏加快推动“人工智能+”行动,推动人工智能赋能科学研究、产业发展、新兴产业、消费提质、民生服务、社会治理和对外合作7大领域,持续加大数据资源供给,推动高质量数据集、语料库开放共享与流通交易。针对数据产业,江苏专门出台“发展数据标注产业建设高质量数据集”实施方案,明确到2027年底,江苏将建成全国领先、全球具有影响力的数据标注产业集群,产业规模全国占比超10%,年均复合增长率超20%,为人工智能高质量发展提供强劲数据支撑。
记者│江苏广电总台荔枝新闻中心
黄蒙 李泽灏
记者│江苏广电总台无锡中心站
路明杰
编辑│江苏广电总台荔枝新闻中心
张萌
