上海库帕思科技有限公司按上海市整体部署打造了全国首个语料运营公共服务统一门户,深化众包众创和开源开放的语料运营机制。库帕思曾于WAIC2024期间发布《语料库建设导则》,今年则集中发布了10项团体标准、3项行业标准、1项指南。
WAIC2025语料创新发展论坛 库帕思董事长山栋明称,数据正发生一系列变化,如从传统的互联网向学术密集型转变、从两维平面向立体高维转变、从原生数据向合成语料转变、从关注预训练向后训练转变。为此,公司的做法包括重构语料数据的方法体系及基础设施、链接行业生态。
励讯集团中国区高级副总裁张玉国在接受采访时表示,语料资源长期供给不足,其根源在于数据资源供给机制尚不健全。“一个成熟的数据市场,应能支持企业按照自身需要,自主采购、加工、标注数据并高效完成合规验证。目前这一市场链条尚未打通。”
WAIC2025期间,中国电子云面向国家关键行业推出全链路AI解决方案,亦涵盖多模态数据治理平台。据悉,中国电子云目前与国内超过五家国家实验室和超过十家央企达成了高质量数据集合作意向。
黄锋称,近年大家越来越重视多模态的数据治理平台工具链,但是市面上现在相对成熟的平台不多。“中国电子云多模态数据治理平台的定位,是通过一系列的治理动作把原始的数据集变成AI ready的数据集,包括文本解析、关键信息提取、数据标准化、归一化、去重等工作。平台的产出是高价值、高密度、标准化的数据,可以直接用于模型训练,也能有效提升模型的效果和性能。”
“今年以来B端客户对大模型应用落地意愿增强了,但落地快不快也得看企业自身的数据好不好。”一家AI方案商相关负责人也对如此表示。
对于上述现象,中国工程院院士、清华大学教授郑纬民总结为,“企业拥抱AI有章可循:找准核心问题、用好高质量数据、微调基础大模型即可见效。”
高质量数据集是指用于训练、验证和优化大模型而收集、整理、标注形成的覆盖行业核心专业知识和生产经营活动的数据资源集合。2023年12月31日,国家数据局等17部门联合印发的《“数据要素×”三年行动计划》提出,推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集。今年4月30日,《高质量数据集建设指南》发布。
谈及为何国家数据局强调高质量数据集,黄锋分析称,真正要落地智能体应用时,如果做行业模型所需的数据集没有准备好、从数据知识库的构建到应用开发平台的数据没有准备好,大概率会模型效果不好。
值得注意的是,WAIC期间,不少领域的企业介绍了各自高质量数据集的建设进展。
例如:东航数科董事长高志东称,东航正在着力构建安全、营销、服务、运行、机务、管控等多领域数据集。高志东坦言,在此过程中东航遇到了跨主体数据共享难度大、缺乏统一标准、多源异构数据融合难等挑战。
此外,广州国家实验室助理研究员邵健表示,为解决可穿戴设备“数据质量”问题,当前广州国家实验室正建设一个25万人规模的高质量多模态数据资源库,依托多模态数据和高质量可穿戴数据,希望发掘出能反映呼吸疾病早期进展的数字标志物,实现对于相关病症“预测风险”。