Stereocrafter 是腾讯 AI Lab 与 ARC Lab 联合推出的开源框架,专注于将任意单目 2D 视频转换为高保真度的立体 3D 视频。该框架通过深度估计、视频 splatting(点云扩散)与立体视频修复三阶段管线,解决了传统 2D 转 3D 流程中常见的深度不连续、边缘伪影等问题,为虚拟现实(VR)、增强现实(AR)及裸眼 3D 显示设备提供高质量的沉浸式内容源。
核心功能
- 端到端 2D 转 3D 视频管线:从输入单目视频直接输出左右眼立体视频,无需人工标注或额外相机硬件,降低 3D 内容制作门槛。
- 视频级深度估计:基于时序稳定的深度网络,逐帧估计场景深度,并通过光流约束保持帧间深度一致性,避免闪烁。
- 视频 Splatting 与重投影:利用 3D 点云扩散技术将原始帧像素映射到虚拟立体视角,生成初始左右视图,同时处理遮挡区域。
- 立体视频修复模块:针对重投影产生的空洞和伪影,采用生成式模型进行高保真度补全,确保输出画面清晰、无鬼影。
- 多设备自适应输出:支持不同立体格式(如并排、上下、帧顺序等),可直接用于 VR 头显、3D 电视、影院放映系统等显示设备。
- 开源可复现:完整代码与预训练模型已在 GitHub 公开,开发者可基于项目进行二次优化或集成到现有工作流。
适用人群
该框架主要面向 3D 内容创作者、影视后期工作室 以及 VR/AR 应用开发者。典型场景包括:将传统 2D 电影或用户自拍视频快速转换为立体内容用于家庭观影;为游戏引擎(如 Unity、Unreal)提供立体视频素材作为环境背景;以及教育和医疗领域中对现有 2D 教学或手术视频进行 3D 化改造以提升沉浸感。还有,社交媒体上的短视频创作者也可利用其生成具有立体效果的片段,增强用户交互体验。
亮点与行业地位
Stereocrafter 在 2025 年第一季度 于 GitHub 开源后迅速获得关注,其核心创新在于将视频级深度估计与生成式修复结合,大幅提高了立体视频的时空一致性。相比传统基于单帧深度图的方案,该框架在遮挡区域修复和动态场景适应性上表现更优。目前同类开源工具(如 DepthCrafter、MiDaS 的组合使用)通常需要复杂后处理,而 Stereocrafter 提供了一键式完整流水线。由于项目仍在持续更新,未来计划增加对更高分辨率(4K+)和实时处理的支持。需要关注的是,该框架通过 Apache 2.0 许可证 完全开放,无使用限制,但高分辨率处理对 GPU 显存有一定要求(建议 16GB 以上)。对于商业用途,可直接基于源码部署,无需额外授权费用。