DiffSensei 是由北京大学、上海人工智能实验室及南洋理工大学联合推出的开源 AI 漫画生成框架，专注于黑白漫画面板的创作。该框架将基于扩散的图像生成器与多模态大语言模型（MLLM）深度融合，实现对漫画中多个角色的外观、姿态及互动关系的精细化控制，打破了传统 AI 漫画工具难以保持人物一致性与剧情连贯性的瓶颈。作为学术界与产业界协作的成果，DiffSensei 为漫画创作者提供了一条从文本描述直接转化为可控分镜的技术路径，核心价值在于降低漫画制作门槛的同时保留作者对角色与叙事的绝对主导权。

核心功能

多角色外观与互动控制：通过掩码交叉注意力机制，DiffSensei 能够同时区分并约束画面中的不同角色，确保每个角色的面部特征、服饰细节及动作在前后分镜中保持稳定，支持复杂的双人或多人交互场景。
MLLM 驱动的语义对齐：集成多模态大语言模型作为适配器，将自然语言描述中的角色身份、情绪词、场景指令转化为图像生成器的输入条件，实现“说谁画谁”级别的精准控制。
黑白漫画风格生成：原生输出高对比度、线条清晰的灰度画面，模仿传统漫画的网点与笔触质感，无需再经二次风格迁移，适合印刷与网络连载需求。
分镜一致性保持：基于扩散模型的时序约束，允许用户通过参考先前生成的画面来锁定同个角色的外形，避免“每格换脸”的常见问题，尤其适合中长篇故事创作。
开源可定制：提供完整的训练与推理代码，用户可在本地部署并根据自己的画风数据集进行微调，或修改角色库、场景元素，完全不受闭源服务的限制。
文本到漫画面板：支持直接输入对话、旁白与场景描述，自动生成带有基本分格布局的黑白漫画面板，为后续精修提供高质量底稿。

适用人群

漫画家与插画师可利用 DiffSensei 快速生成中、近景分镜样稿，大幅缩短草图阶段耗时；未接受专业绘画训练的漫画爱好者可通过文字描述直接将自己的故事概念转化为视觉面板；游戏与影视行业的前期设计人员亦可借助该框架快速进行角色互动预览与故事板迭代；另外，学术研究机构与 AI 开发者可基于其开源代码探索多角色图像生成、可控内容生成等前沿课题。

作为当前少数能精准控制多角色漫画叙事的开源方案，DiffSensei 在技术层面首次将多模态大模型与扩散模型在漫画领域实现深度耦合，相关论文与代码一经发布即引起 AI 绘画社区关注。其与主流闭源工具相比，优势在于对角色一致性的强力约束和对细微表情、肢体语言的语义理解能力。由于项目仍处于学术孵化阶段，暂未提供云服务平台，但开源版本已具备生产级可用性，适合有一定代码基础的创作者自主搭建。

DiffSensei

核心功能

适用人群

0 个评论