预测下一个物理状态：智源研究院发布全球首个通用世界基座模型

从预测文字到预判物理：AI 范式变革的里程碑

2026年6月12日，第八届北京智源大会上，智源研究院院长王仲远正式发布了“悟界”系列大模型的最新成果。其中，全球首个通用世界基座模型 “悟界·Physis-v0.1” 的亮相，标志着人工智能正在经历一场从“数字世界语言游戏”向“物理世界认知与交互”的深刻范式变革。

如果说大语言模型（LLM）的核心能力是预测下一个 Token（词元），那么世界基座模型的核心使命，则是预测下一个物理状态。这不仅是技术路径的切换，更是 AI 理解世界方式的根本跃迁。

传统的生成式 AI 在文本、图像、视频领域取得了巨大成功，其本质在于对数据分布规律的捕捉与复现。但是，这些模型对物理世界的运行规则——如重力、摩擦力、物体刚性、因果时序——往往缺乏内化理解。

“悟界·Physis-v0.1”的突破性在于，它不再仅关注数据的表面特征，而是致力于学习物理世界的内在演化机制。

核心任务： Next Physical State Prediction（下一物理状态预测）。模型需要根据当前的环境状态和施加的动作，准确推演下一步物理情景。
能力要求： 模型必须理解并遵守物理规则，具备长程记忆能力，以保证预测在时间上的连续性和逻辑一致性。
本质区别： 不同于文本生成的“语义正确”，物理状态预测追求的是“物理正确”。例如，预测一个球从桌面滚落，模型需要考虑其质量、桌面摩擦力、初速度乃至空气阻力，而非仅仅匹配一个“球掉落”的画面。

这一技术路线的确立，意味着 AI 正在从处理非实体的信息符号，转向处理具有实体属性和时空约束的真实问题。

作为一个通用世界基座模型，“悟界·Physis-v0.1”并非针对某一垂直场景的特化模型，而是致力于构建一个能够理解世界运行规律的底层系统。其技术特性可归纳为四个核心维度：

这四大能力的统一，使得“悟界·Physis-v0.1”具备了从模拟沙盘到现实世界执行的基础智能。

如果说“悟界·Physis-v0.1”是构建物理认知的理论基石，那么智源同期发布的 “悟界·RoboBrain Orca-v0” 就是这一理论落地的关键实践。

具身智能行业长期面临硬件成本高、数据获取难、模型能力弱、落地场景窄四大挑战。RoboBrain Orca-v0 正是为解决“模型能力弱”这一核心瓶颈而生的“具身大脑”。

核心架构： 它以“下一物理状态预测”为核心，融合大量多模态交互数据（视觉、触觉、力反馈、本体感觉）进行训练。
能力提升： 该模型强化了世界模型在机器人本体上的表征能力，明显改善了机器人在少量样本下的学习与泛化能力。机器人不需要海量试错，就能适应新物体、新场景，并做出符合物理规律的动作决策。
产业协同： 据智源官方透露，该模型已与国内超过 50 家机器人及具身智能企业开展合作，覆盖从物流搬运到精密装配的多个场景，显示了从科研模型向产业赋能转化的强劲势头。

除了基础模型和具身大脑，智源还在智能体（Agent）领域发布了四款产品，进一步丰富了“悟界”系列的应用生态。这些智能体为了让 AI 不仅会“想”，更会“做”和“协作”。

它们可以基于世界模型提供的物理认知，在更复杂的开放环境中自主规划任务、拆解步骤、执行动作并动态调整策略。这标志着 AI 正逐步从单纯的“预测工具”向具备闭环执行力的“任务解决者”演进。

“悟界·Physis-v0.1”的发布，其深层价值在于为多个关键领域带来了技术和商业上的想象空间：

智源研究院院长王仲远在大会上指出，从“悟道”到“悟界”，反映了智源对 AI 发展方向的根本性判断：人工智能的未来，必须在物理世界中找到落脚点。

“悟界·Physis-v0.1”的发布，不仅是一个技术产品，更是人工智能发展航向调整的信号灯——从追求语言模型的规模效应，转向探索物理认知的深度。这标志着 AI 正学步走出文本与图像的虚拟摇篮，开始尝试理解并作用于真实世界的运行法则。

放眼未来，随着世界基座模型的不断进化，我们有望见证一个“物理智能”时代的到来。届时，AI 将不再是屏幕后冰冷的代码，而是能够主动与我们互动、理解我们的物理空间，并辅助我们改造世界的智慧伙伴。从预测下一个 Token 到预测下一个物理状态，这条路，或许正是通往通用人工智能（AGI）最坚实的一步。