专访智源研究院院长王仲远：实现更广泛意义上的AGI至少需要5~10年甚至更久

更新时间：2025-03-29 22:09:39

　　3月27日，2025中关村论坛年会在京开幕，论坛将持续至3月31日。今年论坛年会的主题是“新质生产力与全球科技合作”。

　　3月29日下午，北京智源人工智能研究院院长王仲远在未来人工智能先锋论坛上作了的演讲。

　　在该场论坛上，智源研究院发布首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain，可实现跨场景多任务轻量化快速部署与跨本体协作，推动单机智能迈向群体智能。

　　论坛开始前，王仲远接受了智源研究院是在科技部和北京市支持下，联合北京人工智能领域优势单位共建的人工智能领域的新型研发机构。王仲远是第二任院长，他在2018年荣获“35岁以下科技创新35人”；并有微软、Facebook、美团、快手的工作经历。

　　目前算力限制仍是大模型发展的瓶颈因素

　　如今，由于工程上的优化，训练更大规模参数的模型成为可能。这时候如果Scaling Law还有效的话，模型的性能就有可能进一步提升。

　　所以，现在的模型，尤其是基础模型看起来遇到了一定的瓶颈，或者说其性能提升相对缓慢，一个很重要的因素是数据，另外算力限制也是瓶颈，所以我不认为现在的算力就足够使用了，我认为整个大模型的技术还远未到尽头，算力仍不可或缺。

　　今年在人工智能应用上会出现大爆发

　　中国拥有海量的应用场景和应用需求，这是我们的优势。当基础模型能力提升后，其实我们有众多的产品经理和创业者，可以将模型进行落地应用，尤其是大语言模型的落地应用，存在巨大的产业爆发潜力。

　　当然，我也反复强调过，大语言模型是远远不够的。即使不谈机器人，我们也可以看到，真实的产业中存在大量多模态数据，比如流程图、医疗领域的X光片数据、CT数据以及各行业的传感器数据等，它们都不是简单的文本数据。所以，多模态大模型是绕不开的一种能力。

　　现在的多模态大模型，尤其是多模态理解模型，应该说还处于相对早期的阶段，虽然有一些解决方案，比如以大语言模型为核心的解决方案。但很多大语言模型在增加了多模态能力后，其原有的语言能力会有所退化。这也是智源研究院去年着重向统一原生多模态方向突破的重要原因。

　　去年，智源研究院正式发布Emu3，这是统一原生的多模态大模型，能够将文本、图像、从一开始就进行原生的统一，将理解和生成进行统一。我们认为，这种统一的多模态大模型有望助力大模型在各行业落地，取得更好的效果。

　　具身智能是实现AGI的一个核心能力

　　如今的大语言模型除了其通用性以外，在很多特定领域，比如数学、编程等，已能接近硕士乃至博士水平。从这些方面来看，我们可以认为人工智能已经部分达到了某种程度的AGI。

　　但如果从更广泛的意义来看，比如让人工智能理解人类的语言、解决实际生活中的具体问题，像做家务、做饭、洗碗等，距离实现这种程度的AGI，我认为还有很长距离，可能还要很多年，至少5到10年甚至更长时间。因为在这个过程中，它依赖于本体的能力，依赖于对世界模型构建的进展，依赖于不同的落地场景中数据的积累等，所以还需要经历很长的周期。

上一篇：胖东来工资表刷屏！基层员工平均月薪9886元、店长78058元！于东来透露：梦想是退休后路边打牌赢汽水下一篇：礼来阿尔茨海默病药记能达®在华上市