Matrix-Game 2.0

用于实时长视频生成的交互式世界基础模型。...

Matrix-Game-2.0 是一个用于实时长视频生成的交互式世界基础模型。它基于基于自动回归扩散的图像到世界框架构建,可以生成基于键盘和鼠标输入的实时[25fps]长视频,从而实现细粒度控制和动态场景演化。

提供了三种预训练模型权重,包括通用场景、GTA 驾驶场景和 TempleRun 游戏场景。

【模型功能】

  1. 跨不同场景风格生成:适配多样化视觉美学与地形布局。

  2. 精确控制视频生成:在 GTA 等场景中实现细节可控与动态建模。

  3. 长视频生成:具备强大的自动回归能力,支持长时段视频创作。

  4. 多场景应用:支持 Minecraft 与 TempleRun 等交互式视频生成。

论文地址:https://matrix-game-v2.github.io