1月27日,脸书母公司Meta成立了四个专门研究小组来研究量化巨头幻方量化旗下的国产大模型DeepSeek的工作原理,并基于此来改进旗下大模型Llama。
黑崎资本首席战略官陈兴文告诉
全球算力陷入“结构性过剩与短缺并存”的困境?
陈兴文指出,DeepSeek通过MIT协议开源8个核心模型并全链路公开训练细节,其以“技术裸奔”姿态重构了行业竞争规则——开源生态的透明性不仅打破闭源体系的技术黑箱垄断,更通过全球开发者社区的协同创新形成指数级迭代能力。这种开源策略直接颠覆硅谷“算力军备竞赛”逻辑,使得DeepSeek低成本大模型对算力投入的需求可能会从训练侧向推理侧倾斜,即未来对推理算力的需求将成为主要驱动力。而英伟达等硬件商的传统优势更多集中在训练侧,这可能会对其市场地位和战略布局产生影响。
模型在557万美元超低成本下实现性能突破,证明算法创新可对冲硬件劣势,为算力受限地区开辟新路径。尤其在地缘技术博弈加剧的背景下,DeepSeek通过囤积高端芯片与优化低性能芯片组合的双轨策略,结合强化学习替代监督微调的技术突破,成功将硬件约束转化为算法创新驱动力,这种逆境突围重新定义了全球AI竞争格局,这种技术范式的转变正在催生产业链价值重构。
在算力基建层面,模型训练从粗放型算力堆砌转向精细化能效管理,倒逼数据中心向绿色高效转型。数据要素价值随之凸显,特定领域的行为数据、专业语料库成为模型优化的战略资源,驱动数据采集、清洗、标注产业升级。更深远的影响体现在AI应用生态:开源模型大幅降低技术准入门槛,使得中小企业能快速部署智能客服、自动化文档处理等轻量化应用,而模型轻量化与边缘计算结合,正加速AI能力向物联网终端渗透,为智能家居、工业物联网等场景创造落地条件。
陈兴文表示,当前全球算力市场正陷入“结构性过剩与短缺并存”的困境。中国市场中,大量跨界资本涌入智算中心建设,导致2024年全国建成超1.3万个智算中心,但平均利用率不足30%,千卡集群年亏损达2700万元。这种过剩本质上是低端算力的盲目扩张与高端智能算力短缺的叠加结果——实际需求端,大模型训练所需的智能算力缺口达53%,更深层矛盾在于技术迭代速度远超硬件建设周期,当企业耗时18个月建成智算中心时,市场主流芯片已从A100升级至H800,设备贬值率超40%。
这种粗放式扩张反衬出DeepSeek技术路线万美元成本便训练出性能对标GPT-4o的模型,通过MLA架构和强化学习飞轮机制,将训练效率提升至Meta Llama3的11倍,百万Token推理成本压至0.55美元。这种“算法优化对冲硬件约束”的模式,不仅证明尖端AI发展无需依赖无限堆砌算力,更直接动摇了美国技术霸权的根基。
陈兴文表示,DeepSeek的崛起之所以被称为“美股最大威胁”,源于其对美国AI商业逻辑与芯片霸权的双重解构。技术层面,其开源策略形成全球开发者协同创新的“开源飞轮”,相较OpenAI闭源模式展现出指数级迭代优势,吸引Meta、Google工程师反向研究其RL技术框架。
产业层面,其通过算法创新实现低算力依赖,削弱了英伟达高端GPU的不可替代性,导致市场重估英伟达估值逻辑,引发其股价单日暴跌5.8%,连带日本芯片测试设备商Advantest市值蒸发8.6%。
地缘博弈层面,DeepSeek验证了中国AI企业“用架构创新压缩技术代差”的可能性,纽约时报评价其“使美国芯片封锁沦为战略败笔”,周鸿祎更直言这是“中国突破硅谷技术铁幕的里程碑”。资本市场对此剧烈反应:纳斯达克期货下跌1.9%,反映投资者重新评估全球AI产业权力结构。
陈兴文表示,这场变革的本质是AI竞争从“资本密集型”向“创新密集型”的范式迁移。短期算力过剩实则是低端产能出清的前奏,DeepSeek的技术路径预示未来算力市场将两极分化:通用算力加速淘汰,智能算力向算法优势企业集中。