首页 业界 要闻 快讯 热点 推荐 聚焦 头条
 
站内搜索:

Oppo F19被证实具有33W快速充电

微软推出Windows Terminal 1.0开

您现在的位置:主页 > 快讯 > 快讯
“数据是AI的新战场” AI高质量数据集交易爆发式增长 需求集中于行业知识底座构建
更新时间:2025-07-05 20:52:14

  目前各大模型企业迫切希望获得更多更好的高质量数据集,需求集中于头部企业行业知识底座构建,人工智能高质量数据集的需求量、交易量激增,已成为数据流通最活跃的领域。不过,高质量数据集的建设、流通环节均面临诸多问题,目前数据交易所并非模型语料最主要的采购途径。

  目前北数所已交付的人工智能高质量数据集数据规模达1814TB,总交易量接近2500TB,覆盖20个应用模型场景。北数所为模型企业提供了475个高质量数据集,已达成交易171个,数据源覆盖行业32个。

  当前大模型语料主要面临质量参差不齐、产权不清晰、加工方式不统一、垂类领域缺口大、获取成本高、数据合规性等制度待完善在内的痛点。

  例如在成本方面,语料获取过程主要面临合规成本,而加工过程主要是专家成本。

  “数据标注基地以前是做通用人工智能训练数据,现在侧重垂类行业,基于自动标注等技术的演进,已经从粗放式标注到了精细化标注阶段,但在法律等非常窄非常垂的领域,交叉型人才还是很稀缺的。”一位供职于数据交易所的人士告诉。

  需要注意的是,不同行业数据面临的问题也存在差异。如政务领域,有上市公司人士告诉,数据分散与壁垒、政务数据标准化不足、敏感信息处理难题、政策时效性问题、地方性政策覆盖不足等问题急需得到解决。