JoyHallo 是由京东健康团队开源的数字人视频生成模型，专注解决中文普通话音频驱动下的高保真面部动画生成难题。项目基于扩散模型架构，通过集成 wav2vec2 音频特征嵌入与半解耦结构，在唇形同步的流畅度和自然度上达到了开源社区的领先水平。产品本身定位为开源研究工具，面向开发者与企业用户，无需额外付费即可部署使用。

核心功能

普通话与英语双语驱动：同时支持中文普通话和英语音频输入，生成对应的数字人口播视频，尤其针对普通话语音特点（如声调、连读变调）进行了适配优化，弥补了主流研究以英语为中心的数据缺口。
高精度唇形同步：基于 wav2vec2 提取细粒度音频特征，结合半解耦的面部动画生成模块，使唇部运动与发音之间的匹配度有效增强，在真实感与流畅性上优于同期多个开源方案。
半解耦面部动画结构：将表情、头部姿态和唇部动作的生成过程部分解耦，减少不同面部区域之间的相互干扰，从而在保持人物身份特征的同时实现更自然的动态表现。
预训练模型即用：提供已训练好的模型权重，开发者可以直接加载并快速生成视频，无需从头训练或收集大量中文数字人数据集。
开源且可复现：代码、模型及推理脚本完全公开，支持自定义输入图像/视频源，方便二次开发与学术对比。

适用人群

JoyHallo 主要面向两类用户：一是数字人技术的研究者，他们可以利用该模型进行普通话语音驱动面部动画的基准测试、算法改进或跨语言对比实验；二是企业对数字人内容有定制需求的开发者，例如在线教育、医疗咨询、虚拟客服等场景中，需要生成固定形象的员工或讲师口播视频。典型使用流程包括：提供一段参考人物图像（或短视频）和对应的音频文件，模型自动输出唇形同步的长视频内容。

亮点与行业地位

作为京东健康团队的开源成果，JoyHallo 在 2024 年正式发布后迅速成为中文数字人领域最受关注的项目之一。其最主要的差异化优势在于 针对普通话的专项优化——此前主流音频驱动模型（如 Wav2Lip、SadTalker 等）多基于英语数据训练，在中文声调上容易出现口型漂移或表情僵硬。JoyHallo 通过引入大规模普通话语音-视频数据集与半解耦结构，将唇形同步的准确率提升了多个百分点。在多个社区评测中，其生成结果的流畅度和真实感均被评价为“目前效果最好的开源数字人项目之一”。

在价格方面，项目以 Apache-2.0 协议开源，任何个人或机构均可免费使用并修改代码。同类替代品中，TANGO 等方案专注于口型同步，但缺乏对中文的深度支持；商业产品如 HeyGen 则闭源且按分钟计费。JoyHallo 为预算有限的中小团队提供了一个零成本的入局选择。需要注意的是，该模型对 GPU 显存有一定要求（推荐 16GB 以上），且视频生成的速度尚无法达到实时交互级别，更适合离线批量生产场景。

JoyHallo

核心功能

适用人群

亮点与行业地位

0 个评论