DiffSensei 是由北京大学、上海人工智能实验室和南洋理工大学联合推出的开源 AI 漫画生成框架，专注于黑白漫画面板的可控生成。该框架通过集成扩散模型与多模态大语言模型（MLLM），能够在保持角色一致性的前提下，根据文本描述动态调整角色的表情、姿势和动作，支持多角色、多状态的复杂漫画场景创作。与通用图像生成工具不同，DiffSensei 针对漫画的叙事逻辑和画面连贯性做了专项优化，特别适合需要精确控制角色特征与面板布局的创作者。

核心功能

角色特征动态控制：通过掩码交叉注意力机制，DiffSensei 能够根据输入文本精确调整每个角色的表情、姿势和动作，确保角色在多个面板间保持一致的视觉风格。
多角色多状态生成：框架内建的 MangaZero 数据集支持同时生成多个角色，且每个角色可在不同面板呈现不同状态（如站立、奔跑、对话），满足复杂剧情需求。
文本到面板的端到端生成：用户只需输入自然语言描述（如“主角愤怒地举起右手，背景是废弃工厂”），即可直接输出对应的黑白漫画面板，无需手动分镜或拼接。
MLLM 适配器增强语义理解：多模态大语言模型作为文本与图像生成的桥梁，能解析长句、隐喻或包含多角色交互的复杂指令，显著降低生成结果与预期不符的概率。
开源框架与数据支持：项目代码与 MangaZero 数据集均已开源，开发者可基于此二次训练或自定义漫画风格，形成自己的专属生成管线。

适用人群

本框架主要面向漫画创作者、插画师、独立漫画家以及 AI 内容研究者。典型场景包括：快速生成故事板（storyboard）以验证分镜节奏；为已有脚本自动绘制初稿面板；在创作中需要反复调整角色表情或动作时，通过文本指令瞬间获得不同版本。对于缺乏绘画技巧但希望将原创故事转化为漫画的爱好者，DiffSensei 也提供了一条低门槛的技术路径。还有，研究漫画生成算法或扩散模型的团队，可以借助其开源设计和大规模标注数据进行学术探索。

作为学术界主导的 AI 漫画生成系统，DiffSensei 填补了当时在“可控多角色漫画”方面的空白。相比商业闭源工具（如部分以二次元风格为主的在线生成器），它的核心优势在于对黑白漫画的专项支持、对角色一致性的严格保障，以及完全开放的二次开发能力。项目发布后，在 GitHub 和知乎等平台获得较高关注，常被列为“AI 漫画生成”领域的代表性方案。目前 DiffSensei 为免费开源项目，无定价，用户可自行下载模型权重并在本地或云端部署使用。

Diffsensei

核心功能

适用人群

0 个评论