从预测文字到预判物理:AI 范式变革的里程碑
2026年6月12日,第八届北京智源大会上,智源研究院院长王仲远正式发布了“悟界”系列大模型的最新成果。其中,全球首个通用世界基座模型 “悟界·Physis-v0.1” 的亮相,标志着人工智能正在经历一场从“数字世界语言游戏”向“物理世界认知与交互”的深刻范式变革。
如果说大语言模型(LLM)的核心能力是预测下一个 Token(词元),那么世界基座模型的核心使命,则是预测下一个物理状态。这不仅是技术路径的切换,更是 AI 理解世界方式的根本跃迁。
技术的本质:预测下一个“物理状态”
传统的生成式 AI 在文本、图像、视频领域取得了巨大成功,其本质在于对数据分布规律的捕捉与复现。但是,这些模型对物理世界的运行规则——如重力、摩擦力、物体刚性、因果时序——往往缺乏内化理解。
“悟界·Physis-v0.1”的突破性在于,它不再仅关注数据的表面特征,而是致力于学习物理世界的内在演化机制。
- 核心任务: Next Physical State Prediction(下一物理状态预测)。模型需要根据当前的环境状态和施加的动作,准确推演下一步物理情景。
- 能力要求: 模型必须理解并遵守物理规则,具备长程记忆能力,以保证预测在时间上的连续性和逻辑一致性。
- 本质区别: 不同于文本生成的“语义正确”,物理状态预测追求的是“物理正确”。例如,预测一个球从桌面滚落,模型需要考虑其质量、桌面摩擦力、初速度乃至空气阻力,而非仅仅匹配一个“球掉落”的画面。
这一技术路线的确立,意味着 AI 正在从处理非实体的信息符号,转向处理具有实体属性和时空约束的真实问题。
“悟界·Physis-v0.1”的核心技术能力
作为一个通用世界基座模型,“悟界·Physis-v0.1”并非针对某一垂直场景的特化模型,而是致力于构建一个能够理解世界运行规律的底层系统。其技术特性可归纳为四个核心维度:
- 物理正确性: 模型预测的状态符合基本物理定律,不产生“反物理”的幻象。
- 动作因果可溯: 每一个物理状态的改变,都可以回溯到特定的动作或外力,建立起清晰的因果链。这在机器人控制、自动驾驶等场景中非常关键。
- 长程一致性: 模型在长时间序列的预测中,能保持状态逻辑的连贯性,而非随时间推移出现信息混乱或衰减。这得益于其创新的长程记忆架构。
- 通用泛化能力: 模型能够将学到的物理规则泛化到未见过的场景、物体和物理环境中,展现出类似人类常识的物理直觉。
这四大能力的统一,使得“悟界·Physis-v0.1”具备了从模拟沙盘到现实世界执行的基础智能。
从基座到应用:具身智能的“大脑”
如果说“悟界·Physis-v0.1”是构建物理认知的理论基石,那么智源同期发布的 “悟界·RoboBrain Orca-v0” 就是这一理论落地的关键实践。
具身智能行业长期面临硬件成本高、数据获取难、模型能力弱、落地场景窄四大挑战。RoboBrain Orca-v0 正是为解决“模型能力弱”这一核心瓶颈而生的“具身大脑”。
- 核心架构: 它以“下一物理状态预测”为核心,融合大量多模态交互数据(视觉、触觉、力反馈、本体感觉)进行训练。
- 能力提升: 该模型强化了世界模型在机器人本体上的表征能力,明显改善了机器人在少量样本下的学习与泛化能力。机器人不需要海量试错,就能适应新物体、新场景,并做出符合物理规律的动作决策。
- 产业协同: 据智源官方透露,该模型已与国内超过 50 家机器人及具身智能企业开展合作,覆盖从物流搬运到精密装配的多个场景,显示了从科研模型向产业赋能转化的强劲势头。
智能体生态:探索 AI 自主决策的边界
除了基础模型和具身大脑,智源还在智能体(Agent)领域发布了四款产品,进一步丰富了“悟界”系列的应用生态。这些智能体为了让 AI 不仅会“想”,更会“做”和“协作”。
它们可以基于世界模型提供的物理认知,在更复杂的开放环境中自主规划任务、拆解步骤、执行动作并动态调整策略。这标志着 AI 正逐步从单纯的“预测工具”向具备闭环执行力的“任务解决者”演进。
现实意义:重塑 AI 与物理世界的连接
“悟界·Physis-v0.1”的发布,其深层价值在于为多个关键领域带来了技术和商业上的想象空间:
- 机器人产业: 打破传统编程限制,实现机器人“一脑多用”,降低部署和迁移成本。
- 自动驾驶: 在仿真环境中进行更真实的物理推演,提升极端场景下的安全预判能力。
- 工业仿真与设计: 为物理实验、虚拟样机测试提供更精确的“数字孪生”大脑,加速研发周期。
- 影视与游戏: 从“人工建模”转向“物理生成”,创造一个更加动态、真实且可交互的数字世界。
智源研究院院长王仲远在大会上指出,从“悟道”到“悟界”,反映了智源对 AI 发展方向的根本性判断:人工智能的未来,必须在物理世界中找到落脚点。
总结与展望
“悟界·Physis-v0.1”的发布,不仅是一个技术产品,更是人工智能发展航向调整的信号灯——从追求语言模型的规模效应,转向探索物理认知的深度。这标志着 AI 正学步走出文本与图像的虚拟摇篮,开始尝试理解并作用于真实世界的运行法则。
放眼未来,随着世界基座模型的不断进化,我们有望见证一个“物理智能”时代的到来。届时,AI 将不再是屏幕后冰冷的代码,而是能够主动与我们互动、理解我们的物理空间,并辅助我们改造世界的智慧伙伴。从预测下一个 Token 到预测下一个物理状态,这条路,或许正是通往通用人工智能(AGI)最坚实的一步。