国华的世界

这是国华对读过的书, 看过的电视/电影, 听过的音乐, 访游过的地方, 经历过的事物, 和时事的感想或点评.
个人资料
国华P (热门博主)
  • 博客访问:
正文

AI:世界模型替换大语言模型?

(2025-11-24 12:51:00) 下一个

在过去两年里,大语言模型(LLM)在语言理解、文本生成、推理、指令执行等方向取得突破,使AI在理解语义层面变得越来越可靠。但是,深度学习领域的领军人物,如Meta公司的Yann LeCun、谷歌DeepMind的Demis Hassabis(下图 infobae)

以及魁北克人工智能研究所(Mila)的Yoshua Bengio(下图 universitat wien),都认为世界模型,而非大语言模型,对于构建真正智能、科学且安全的人工智能系统至关重要。专家们不认为当下风靡世界的大语言架构能够达到通用人工智能(AGI)的目标,因为大语言模型存在一些致命缺陷。

大语言模型的局限

大语言模型(LLM)通过模仿人类的言谈来预测下一行动。这是一种依靠嵌入的人类知识的被动过程,实际上被人类语言及相关的行动给筐住了。用通俗语言来说,就是几十亿、几百亿、乃至几千亿的大语言模型训练的数据,都是过去的、静态的知识。生成式人工智能将大量互不关联的经验法则,近似地对特定场景做出反应。我们输入问题后,大语言模型会根据所收集的别人在类似情况下的反应,给出答案,或曰解决方案。这很像盲人摸象的寓言,每个人一次只触摸大象的一部分,因此无法了解它的全貌。一个人摸到象鼻,就以为整头大象像蛇;另一个人摸到象腿,就以为它更像树;第三个人抓住象尾,就说它是绳子。有人形象地将大语言模型的这种能力称之为“鹦鹉学舌。”

Meta公司的首席人工智能科学家、图灵奖得主杨乐昆(Yan LeCun 下图 Instagram)近期在谈及语言大模型和他现在极力主张的“世界模型”时指出,当前的大型语言模型架构不太可能达到通用人工智能(AGI)的四个难以突破的致命弱点:理解物理世界的能力,持久记忆能力,推理能力和复杂规划能力。

1. 理解能力 语言只是对感知的一种非常近似的表征,但远远不能表达出我们的一切所见所闻。大语言模型根据前人(即训练数据)、而非自身(对物理世界的直观感知和)理解(即环境刺激),作决定(即反应模式)。对比你从文字上读到或视频里看到的邮轮旅游与你亲身乘坐邮轮旅游的感受。多半你的亲身体验要比从媒体了解的邮轮旅游更加丰富,理解更深和准确。

2. 持久记忆 大语言模型通过上下文窗口(context window)处理信息(即token)。包括prompt在内的所有输入信息,一旦超过上限,便会卡顿。重开新上下文窗口后,前面窗口的信息多半已经遗忘或丢失。这意味着一切从零开始。

3. 推理能力 大语言模型在执行需要深层次认知技能(常识理解和抽象推理)来帮助人类解决“烧脑”的复杂现实任务时颇感力不从心。确实,大语言模型可凭简单直接的“直觉式”推理来生成答案,但这样的答案往往不准确,甚至是错误的。

4. 复杂规划能力 大语言模型在规划能力方面仍有显著不足,尤其在处理图结构类型的理解与规划是表现不佳。

世界模型

正是基于目前为止尚无解决办法的大语言模型自身缺陷,包括Meta公司的首席人工智能科学家、图灵奖得主杨乐昆(Yan LeCun)在内的一些AI大咖认为当前的大型语言模型架构不太可能达到通用人工智能(AGI)。同时,这些AI大咖提出了世界模型。那么,什么是世界模型呢?简而言之,世界模型就是人工智能系统对现实世界的“内心理解”和“心理模拟”。世界模型是一种能够对现实世界环境进行仿真,并基于文本、图像、视频和运动等输入数据来生成视频、预测未来状态的生成式AI模型(下图 ResearchGate)。世界模型最好被理解为一系列能力的连续体,四个对世界建模能力至关重要的核心维度:

  • 物理理解:培养对现实世界物理的直观理解,理解物体的动力学以及因果关系。
  • 预测功能:它可以通过运行内部“假设”情景模拟来预测未来结果。
  • 自适应学习:它主动构建并完善其环境的心理地图,并通过与现实世界的互动不断更新其内部模型。
  • 计划与控制:它利用对未来结果的预测来计划和执行实现其目标的最佳行动方案。

具体表现就是,世界模型能够理解和模拟物理世界的规律,如重力、摩擦力、运动轨迹等。这样它(世界模型)在处理与物理世界有关的问题时,能够提供更准确、更符合现实的预测和决策支持。而且,世界模型具有反事实推理能力。例如,它(世界模型)可以回答“如果环境条件改变,结果会怎样”这类问题,从而为复杂问题的解决提供更多的思路和可能性。

从语言到世界

大语言模型让AI学会了理解语言,世界模型则让AI尝试理去解世界。世界模型通过大量数据学习现实世界的物理规则,实施因果推理,从而预测、生产合乎现实规律的未来。世界模型最早可追溯至2018年,谷歌大脑研究科学家David Ha与瑞士AI实验室IDSIA负责人Jürgen Schmidhuber在经典论文《Recurrent world models facilitate policy evolution》。他们在论文中提出,智能体要想高效学习,就必须在大脑中构建世界的内部模型。这种模型能够通过感知输入,去预测外部世界在未来的变化,在内部“想象”出一系列可能的结果,从而据此选择行动。

让世界模型走出学术圈,成为AI产业热词,是视频生成技术的突破。2024年2月15日,OpenAI发布Sora模型,并在官方论文中提出,视频生成模型正在成为世界模拟器(world simulator)。Sora不仅能生成语义上合理的视频,还能在物理规律、光影运动、空间连续性等层面维持一致性,让AI演绎世界成为可能(下图 Fello AI)。几乎在同一时间,Meta发布了由杨乐昆团队主导的项目视觉自监督模型 V-JEPA(Visual Joint Embedding Predictive Architecture),首次在视觉领域明确提出构建世界模型的研究方向。十余天后,DeepMind发布了Genie模型,一个“可玩世界”的生成模型,可从普通视频素材中学习环境规律,并生成可实时交互的二维游戏场景。用户可以控制角色在生成的世界中移动、碰撞、跳跃,这种“生成—交互—反馈”的闭环。由此,Sora、V-JEPA与Genie,分别代表了世界模型演化的三个方向,生成世界、理解世界、参与世界,共同组成了世界模型认知层面的突破。

世界模型:美中两种路径

世界模型开始落地,在美国企业里有了实实在在的产品。波士顿动力发布了具有体操技能、并能完成一些简单但危险工作的机器人,特斯拉的自动驾驶系统FSD(Full Self-Driving),能够在驾驶员的监督下,通过多摄像头视频流在内部重建外部环境,智能、精确地完成包括路线导航、转向、变道和泊车等功能。大陆公司也紧追不舍:华为公司在2024年4月发布ADS的3.0(乾崑),采用端到端架构,依托多源传感重建动态场景,实现“车位到车位”和“VPD泊车代驾”功能。此外,小鹏的XPlanner(规划与控制大模型),百度Apollo推出了ADFM自动驾驶基础模型,也都显示,世界模型正在从虚拟场景落地走向真实世界,从“认知世界”转向“执行世界”。FSD、ADS、XPlanner、Apollo构建了AI的落地行动,将智能具象化的通道。但由于认知方式与产业逻辑的分歧,美中两国正走在两条不同的路径上。

在美国,OpenAI、DeepMind、Google、Meta、Anthropic五大巨头构成了最具体系化的“世界建模阵营”。它们均从语言模型出发,沿着认知 - 生成 - 具身(Embodied)的路线,把AI从语言理解延伸到物理模拟。Sora 2不仅整合了音视频统一建模和动态光照控制,还新增 “Cameo”功能,让用户可以直接把自己嵌入生成的世界中。DeepMind发布的Genie 3,允许从自然语言直接生成三维、可操作的虚拟世界,用户能实时控制角色,与环境交互并观察反馈。Meta V-JEPA 2以自监督方式让AI理解视频中的时序与动力规律,成为世界模型“视觉直觉”的雏形。它不依赖标签数据,而是通过预测画面未来帧的方式,逼近人类感知世界的方式。与此同时,尽管Google Gemini 2.5 Pro与Anthropic Claude 4.5不算严格意义上的世界模型,但它们都在让语言模型具备理解世界的能力。由此,美国的研究体系已经形成了完整的认知链条,从理解语言、预测视觉变化到生成并模拟世界。

而中国大陆的世界模型,其侧重方向是依托产业链协同推进落地。从智能驾驶到行业智能体,再到具身机器人,大陆企业更关注AI在真实物理环境中的可感知、可预测与可执行性。可以说,中国企业更看重系统集成与工程落地。智能驾驶之外,国内世界模型的思想和策略也正在进入更多行业场景。如华为盘古大模型引入物理建模框架,将世界模型理念应用到气象预测、制造、制药等工业领域;百度文心在视频理解和数字人交互中融入动态世界建模机制,等等。这里尤其要提及大陆在具身智能方向的系统化突破:宇树的R1人形机器人(下图 TikTok/ROBOT PHILOSOPHY),支持图像与语音多模态融合,可进行动态行走与交互;优必选Walker S2具备灵巧双臂与自主换电功能,更贴近工业执行场景;傅利叶的GR-3C人形机器人版本,可用于康复与人机协作;大陆的AI正推动世界模型从算法概念真正落地到机器身体。

大语言模型与世界模型携手同行 

尽管美中两国为代表的世界模型演变生态逻辑不同,但从更长的技术周期看,这种分野正逐渐进化为互补关系。世界模型的最终方向,肯定不是生成完美的视频,也不是控制一辆汽车,而是打通“理解-预测-行动”的完整闭环。从这个层面来说,美中两国正共同构建通向通用智能的现实路径。

如今,世界模型正在让AI理解现实世界,一个有时间、有空间、有因果的动态系统,具身智能已经成为全球AI研究的共识。如OpenAI投资的Figure AI,正在以GPT系列模型驱动人形机器人的决策系统;特斯拉的FSD与Optimus,分别在道路和工厂场景中验证世界模型驱动的闭环控制;中国大陆的机器人企业也在让模型直接掌控传感器与电机,使算法真正落地到身体。AI正在经历一场从虚拟智能到物理智能的转变。在虚拟世界中,它生成一段视频或一段话,而在物理世界中,它必须理解摩擦力、时间延迟和人的意图。未来的智能体将是一个多层协作系统:上层的大语言模型负责目标规划与逻辑推理,中层的世界模型负责环境建模与因果预测,底层的执行系统则负责感知、行动与反馈。当这三层闭合,AI才真正拥有“意图-计划-行动”的完整循环,这正是通用智能的现实路径。

 

参考资料

弗若斯特沙利文. (2025). 2025年中国世界模型发展洞察. Frost & Sullivan. 链接 https://img.frostchina.com/attachment/17584704/ayurnM6G7TWccfR3DFtre2.pdf

北京创新乐知网络技术有限公司. (2025). 讲清楚了!一文看懂什么是世界模型.  CSDN.  链接 https://blog.csdn.net/m0_59164520/article/details/148878934     

极智GeeTech. (2025). 世界模型崛起,AI路线之争喧嚣再起. 36Kr欧洲总站. 链接 https://eu.36kr.com/zh/p/3559837738555779

脑极体. (2025). 大语言火爆的今天,我们为什么还要拥抱世界模型? 链接 https://cloud.kepuchina.cn/h5/detail?id=7309771082936344576

Cuofano, G. (2025). The AI world models revolution. The Business Engineer. 链接 https://businessengineer.ai/p/the-ai-world-models-revolution

MIT科技评论. (2025). 杨立昆:“AGI即将到来”完全是无稽之谈,真正的智能要建在世界模型之上. MIT科技评论Technology Review. 链接 https://www.mittrchina.com/news/detail/14583

Nuriyev, Y. (2025).LLMs were just the warm-up. IT’s next revolution is wrld models. Yan Nuriyev. 链接 https://whoisyan.com/llms-were-just-the-warm-up-ais-next-revolution-is-world-models/

Pavlus, J. (2025). ‘World models,’an olde idea in AI, mount a comeback. Quanta magazine. 链接 https://www.quantamagazine.org/world-models-an-old-idea-in-ai-mount-a-comeback-20250902/

[ 打印 ]
评论
目前还没有任何评论
登录后才可评论.