DiffSensei 是由北京大学、上海人工智能实验室和南洋理工大学联合推出的开源 AI 漫画生成框架,专注于黑白漫画面板的可控生成。该框架通过集成扩散模型与多模态大语言模型(MLLM),能够在保持角色一致性的前提下,根据文本描述动态调整角色的表情、姿势和动作,支持多角色、多状态的复杂漫画场景创作。与通用图像生成工具不同,DiffSensei 针对漫画的叙事逻辑和画面连贯性做了专项优化,特别适合需要精确控制角色特征与面板布局的创作者。
核心功能
- 角色特征动态控制:通过掩码交叉注意力机制,DiffSensei 能够根据输入文本精确调整每个角色的表情、姿势和动作,确保角色在多个面板间保持一致的视觉风格。
- 多角色多状态生成:框架内建的 MangaZero 数据集支持同时生成多个角色,且每个角色可在不同面板呈现不同状态(如站立、奔跑、对话),满足复杂剧情需求。
- 文本到面板的端到端生成:用户只需输入自然语言描述(如“主角愤怒地举起右手,背景是废弃工厂”),即可直接输出对应的黑白漫画面板,无需手动分镜或拼接。
- MLLM 适配器增强语义理解:多模态大语言模型作为文本与图像生成的桥梁,能解析长句、隐喻或包含多角色交互的复杂指令,显著降低生成结果与预期不符的概率。
- 开源框架与数据支持:项目代码与 MangaZero 数据集均已开源,开发者可基于此二次训练或自定义漫画风格,形成自己的专属生成管线。
适用人群
本框架主要面向漫画创作者、插画师、独立漫画家以及 AI 内容研究者。典型场景包括:快速生成故事板(storyboard)以验证分镜节奏;为已有脚本自动绘制初稿面板;在创作中需要反复调整角色表情或动作时,通过文本指令瞬间获得不同版本。对于缺乏绘画技巧但希望将原创故事转化为漫画的爱好者,DiffSensei 也提供了一条低门槛的技术路径。还有,研究漫画生成算法或扩散模型的团队,可以借助其开源设计和大规模标注数据进行学术探索。
作为学术界主导的 AI 漫画生成系统,DiffSensei 填补了当时在“可控多角色漫画”方面的空白。相比商业闭源工具(如部分以二次元风格为主的在线生成器),它的核心优势在于对黑白漫画的专项支持、对角色一致性的严格保障,以及完全开放的二次开发能力。项目发布后,在 GitHub 和知乎等平台获得较高关注,常被列为“AI 漫画生成”领域的代表性方案。目前 DiffSensei 为免费开源项目,无定价,用户可自行下载模型权重并在本地或云端部署使用。