Stereocrafter 是腾讯 AI Lab 与 ARC Lab 联合推出的开源框架，专注于将任意单目 2D 视频转换为高保真度的立体 3D 视频。该框架通过深度估计、视频 splatting（点云扩散）与立体视频修复三阶段管线，解决了传统 2D 转 3D 流程中常见的深度不连续、边缘伪影等问题，为虚拟现实（VR）、增强现实（AR）及裸眼 3D 显示设备提供高质量的沉浸式内容源。

核心功能

端到端 2D 转 3D 视频管线：从输入单目视频直接输出左右眼立体视频，无需人工标注或额外相机硬件，降低 3D 内容制作门槛。
视频级深度估计：基于时序稳定的深度网络，逐帧估计场景深度，并通过光流约束保持帧间深度一致性，避免闪烁。
视频 Splatting 与重投影：利用 3D 点云扩散技术将原始帧像素映射到虚拟立体视角，生成初始左右视图，同时处理遮挡区域。
立体视频修复模块：针对重投影产生的空洞和伪影，采用生成式模型进行高保真度补全，确保输出画面清晰、无鬼影。
多设备自适应输出：支持不同立体格式（如并排、上下、帧顺序等），可直接用于 VR 头显、3D 电视、影院放映系统等显示设备。
开源可复现：完整代码与预训练模型已在 GitHub 公开，开发者可基于项目进行二次优化或集成到现有工作流。

适用人群

该框架主要面向 3D 内容创作者、影视后期工作室 以及 VR/AR 应用开发者。典型场景包括：将传统 2D 电影或用户自拍视频快速转换为立体内容用于家庭观影；为游戏引擎（如 Unity、Unreal）提供立体视频素材作为环境背景；以及教育和医疗领域中对现有 2D 教学或手术视频进行 3D 化改造以提升沉浸感。还有，社交媒体上的短视频创作者也可利用其生成具有立体效果的片段，增强用户交互体验。

亮点与行业地位

Stereocrafter 在 2025 年第一季度 于 GitHub 开源后迅速获得关注，其核心创新在于将视频级深度估计与生成式修复结合，大幅提高了立体视频的时空一致性。相比传统基于单帧深度图的方案，该框架在遮挡区域修复和动态场景适应性上表现更优。目前同类开源工具（如 DepthCrafter、MiDaS 的组合使用）通常需要复杂后处理，而 Stereocrafter 提供了一键式完整流水线。由于项目仍在持续更新，未来计划增加对更高分辨率（4K+）和实时处理的支持。需要关注的是，该框架通过 Apache 2.0 许可证 完全开放，无使用限制，但高分辨率处理对 GPU 显存有一定要求（建议 16GB 以上）。对于商业用途，可直接基于源码部署，无需额外授权费用。

Stereocrafter

核心功能

适用人群

亮点与行业地位

0 个评论