1. 为什么角色一致性是最大的坑
理解问题的本质,才能正确地解决它
40-50%
返工量花在修脸上
3-5x
不做角色卡的出图量是做了的倍数
#1
新手劝退原因排名
AI 图像生成模型(无论是 Stable Diffusion、Midjourney 还是即梦)的工作原理是: 根据文字描述从"噪声"中逐步生成图像。每次生成都是独立的随机过程。
这意味着:即使你用完全相同的 prompt,两次生成的人脸也大概率不一样。第 1 张图的"林远"和第 15 张图的"林远"可能完全是两个人。
如果不做任何处理:观众看到前 5 秒的主角和后 30 秒的主角长相不同, 会产生强烈的违和感,直接划走。这是 AI 漫剧最核心的技术挑战。
💡 好消息
2025-2026 年,各大工具都推出了"角色参考"功能(即梦的角色参考、可灵的角色一致性、 MJ 的 --cref 参数)。虽然还不完美,但已经比一年前好了 10 倍。 掌握正确方法后,80% 的镜头可以做到角色基本一致。
2. 角色卡制作
角色卡是一切一致性技术的基础。做好角色卡,后面的工作量减半。
角色卡是一套标准化的角色参考资料,包含:
- 正面全身图(母图)—— 所有后续生成的基准
- 侧面图(左 45 度、右 45 度、正侧面)
- 表情图(微笑、愤怒、悲伤、惊讶、冷漠、邪笑——至少 6 种)
- 服装图(每套服装的全身图)
- 参数卡(记录生成该角色时的所有参数)
角色卡制作步骤(以即梦为例)
角色名:林远 性别:男 年龄:25岁 身高体型:178cm,偏瘦但不羸弱 脸型:方脸偏窄,下颌线明显 眉毛:剑眉,微微上扬 眼睛:单眼皮,眼神锐利 鼻子:高挺直鼻 嘴唇:薄唇,嘴角微微下垂(给人冷淡感) 发型:黑色短发,偏分,额前有碎发 肤色:偏白 整体气质:外表平凡但眼神中有不甘,隐忍中带着锋芒 默认服装:白色衬衫,灰色西裤,黑色皮鞋(微旧)
A 25-year-old Chinese man, 178cm, slim but not frail build. Square-narrow face with defined jawline, sharp eyebrows slightly upturned, single-fold eyelids with piercing gaze, high straight nose, thin lips with slightly downturned corners giving a cold expression. Black short hair, side-parted with bangs falling on forehead. Fair skin tone. Wearing a slightly worn white dress shirt, grey dress pants, black leather shoes. Manga style, semi-realistic, high detail, clean lines. Full body, front view, standing pose, neutral expression, white background.
注意:Prompt 结尾加上white background和full body, front view,方便后续做参考图。
在即梦/MJ 中用上面的 prompt 生成 4-8 张图。 从中选出一张最符合你心中角色形象的作为"母图"。
选定后,记录下这张图的所有参数: 种子值(Seed)、模型版本、采样步数、CFG 值、图片尺寸。 这些参数后续不能改动。
母图选择标准:
- 五官清晰、不模糊
- 姿势端正、不歪斜
- 表情中性(方便后续加表情变化)
- 服装完整、没有变形
- 风格统一(不要选那种突然变了画风的)
用母图作为参考图(开启角色参考功能),生成不同角度:
| 角度 | Prompt 追加 | 用途 |
|---|---|---|
| 正面 | front view, looking at camera | 对话镜头、表情镜头 |
| 左 3/4 侧 | three-quarter view from left, slight turn | 最常用的叙事角度 |
| 右 3/4 侧 | three-quarter view from right, slight turn | 对手戏中的反打角度 |
| 正侧面 | side profile view, looking left/right | 行走、沉思、远眺 |
| 背面 | rear view, from behind | 离去、面对场景、背影 |
用母图作为参考图,生成 6 种常用表情。 表情图用近景或特写景别(close-up)。
| 表情 | Prompt 追加 | 适用场景 |
|---|---|---|
| 微笑 | gentle smile, warm eyes, close-up portrait | 日常、温馨时刻 |
| 愤怒 | angry expression, furrowed brows, clenched jaw, intense eyes | 冲突、对峙 |
| 悲伤 | sad expression, teary eyes, downcast look | 感情线、回忆 |
| 惊讶 | shocked expression, wide eyes, slightly open mouth | 反转、揭秘 |
| 冷漠 | cold expression, emotionless, indifferent gaze, poker face | 隐忍、蓄势 |
| 邪笑/冷笑 | smirk, one corner of mouth raised, cunning eyes, menacing | 反击、揭穿、计划得逞 |
═══ 角色参数卡 ═══ 角色名:林远 母图文件:lingyuan_front_v3.png 母图 Seed:1847293650 模型/底模型:即梦 2.1 / SD XL Turbo 采样器:Euler a 采样步数:30 CFG Scale:7.0 角色参考权重:0.75 去噪强度:0.45 图片尺寸:768×1344 (9:16) LoRA:无 负面提示词:ugly, deformed, extra fingers, blurry, low quality 备注:角色参考权重低于 0.6 会崩脸,高于 0.85 会死板 ═══════════════════
3. 中英文特征映射表
写中文角色描述后,需要转化为英文 Prompt。以下是常用映射。
| 中文 | 英文 Prompt |
|---|---|
| 剑眉 | sharp eyebrows, upward-angled brows |
| 柳叶眉 | thin arched eyebrows, willow-leaf brows |
| 星目 | bright sparkling eyes, star-like eyes |
| 单眼皮 | single-fold eyelids, monolid eyes |
| 双眼皮 | double eyelids |
| 丹凤眼 | phoenix eyes, upturned eyes |
| 杏仁眼 | almond-shaped eyes |
| 高挺鼻梁 | high straight nose bridge, sharp nose |
| 小巧鼻子 | small delicate nose, petite nose |
| 薄唇 | thin lips |
| 丰满嘴唇 | full plump lips |
| 方脸/国字脸 | square face, strong jawline |
| 瓜子脸 | oval face, V-shaped face |
| 圆脸 | round face, soft facial features |
| 下颌线明显 | defined jawline, sharp jaw |
| 中文 | 英文 Prompt |
|---|---|
| 黑色短发 | black short hair |
| 偏分碎发 | side-parted hair with bangs |
| 长直发 | long straight hair |
| 高马尾 | high ponytail |
| 双马尾 | twin tails, pigtails |
| 古风发髻 | traditional Chinese hair bun, ancient hairstyle |
| 银白色头发 | silver white hair |
| 大波浪卷 | wavy hair, big curls |
| 中文 | 英文 Prompt |
|---|---|
| 高瘦 | tall slim build |
| 高大魁梧 | tall muscular build, broad shoulders |
| 娇小纤细 | petite slender build |
| 霸道总裁气质 | dominant CEO aura, confident posture, sharp suit |
| 清冷气质 | cold aloof demeanor, icy beauty |
| 温柔气质 | gentle warm aura, soft expression |
| 少年感 | youthful look, boyish charm |
| 白皙皮肤 | fair skin, pale complexion |
| 小麦色皮肤 | tan skin, wheat-colored complexion |
4. 5 种角色一致性方案对比
根据你的技术水平和工具选择,挑选最适合的方案
| 方案 | 适用工具 | 难度 | 效果 | 成本 |
|---|---|---|---|---|
| 参考图绑定 | 即梦、可灵 | * | *** | 免费 |
| 角色参考+种子锁定 | 即梦、MJ | ** | **** | 免费 |
| 四视图 UID | 通用 | ** | *** | 免费 |
| IP-Adapter | ComfyUI | *** | **** | 中(需显卡) |
| LoRA 训练 | ComfyUI/SD | **** | ***** | 中(需显卡) |
原理:将角色母图上传为"参考图",工具会在生成新图时参考这张图的面部特征。
操作:在即梦中,点击"角色参考"按钮 → 上传母图 → 调整参考权重到 0.7-0.8 → 正常输入 prompt 生成。
优点:零学习成本,30 秒上手。大部分正面/3/4 侧面镜头效果不错。
缺点:侧面和大角度变化时容易崩。服装变化也可能影响面部一致性。
适合:纯新手、场景简单的短剧、角度变化不大的对话剧。
原理:种子(Seed)决定了生成的随机起点。相同种子+相同参数=相似的输出。 配合参考图,双重保障。
操作:(1) 生成母图时记录种子值 → (2) 后续所有该角色的图都使用相同种子 → (3) 同时开启角色参考功能 → (4) 只修改 prompt 中的动作/表情/场景部分。
优点:一致性比纯参考图高约 30%。免费,操作简单。
缺点:种子锁定会限制姿势变化的多样性。部分在线工具不支持手动指定种子。
原理:生成角色的正面、左侧面、右侧面、背面四张图,拼成一张"四视图"参考图。 生成任何角度时,模型都能找到最匹配的参考。
操作:(1) 用 promptcharacter turnaround sheet, front view, side view, back view, 4 views生成四视图 → (2) 或者分别生成四个角度后拼成一张图 → (3) 将四视图作为参考图使用。
优点:侧面和背面一致性大幅提升。免费方案中最均衡的。
缺点:四视图本身的生成质量不稳定,可能需要多次尝试。
原理:IP-Adapter 是一个控制图像风格和角色特征的技术。 它能从参考图中提取"角色特征向量",在生成新图时注入这个向量。
操作:需要在 ComfyUI 中安装 IP-Adapter 节点 → 导入参考图 → 设置 IP-Adapter 权重(推荐 0.6-0.8)→ 配合 ControlNet 控制姿势。
优点:一致性效果很好,角度变化时也能保持。可以和各种 ControlNet 配合。
缺点:需要本地部署 ComfyUI、有一定学习成本、需要显卡(推荐 8GB+ VRAM)。
适合:有技术基础的创作者,追求更高一致性。
原理:用 10-20 张角色图片微调 Stable Diffusion 模型,让模型"学会"你的角色。 训练后只需在 prompt 中加一个触发词就能生成该角色。
操作:(1) 准备 10-20 张高质量角色图(不同角度、不同表情)→ (2) 用 Kohya_ss 或 LoRA Easy Training Scripts 训练 → (3) 训练约 30-60 分钟(RTX 3060 以上)→ (4) 得到 .safetensors LoRA 文件,加载到 SD/ComfyUI 中使用。
优点:一致性最高,各种角度和表情都能保持。一次训练终身使用。
缺点:学习成本最高,需要显卡(推荐 12GB+ VRAM),训练数据准备有讲究。
适合:长期做同一角色的创作者、工作室级别生产。
💡 推荐路径
新手先用方案 1(参考图绑定)跑通流程。觉得效果不够再升级到方案 2(+种子锁定)。 需要更多角度变化时用方案 3(四视图)。 技术能力允许且要做长期系列时,直接上方案 5(LoRA)。
5. 参数冻结清单
哪些参数绝对不能动,哪些可以微调,哪些随便改
| 参数 | 等级 | 说明 |
|---|---|---|
| 底模型/模型版本 | 绝不能动 | 换模型 = 角色 100% 崩。整个系列必须用同一个模型版本。 |
| 采样器(Sampler) | 绝不能动 | 不同采样器产出风格差异大。锁定后不要换。 |
| LoRA 文件及权重 | 绝不能动 | 如果用了 LoRA,版本和权重都必须固定。换 LoRA = 换角色。 |
| 角色参考权重 | 绝不能动 | 确定好的角色参考权重不要调。推荐 0.7-0.8。 |
| 负面提示词 | 绝不能动 | 负面提示词影响模型对"不要生成什么"的理解,改动会影响面部特征。 |
| CFG Scale | 可微调 | 范围 +-1 以内可以微调。调太大画面会变硬/过饱和,调太小细节会丢失。 |
| 去噪强度(Denoise) | 可微调 | 用于图生图时。0.3-0.5 保持角色一致,0.6+ 会产生较大变化。 |
| 种子(Seed) | 可微调 | 锁定种子可提高一致性,但要换姿势时可能需要换种子。 |
| 图片分辨率 | 可随意改 | 根据平台要求调整。竖屏 9:16、横屏 16:9,不影响角色一致性。 |
| 场景/背景描述 | 可随意改 | 场景描述不影响角色面部(前提是参考图权重足够高)。 |
| 动作描述 | 可随意改 | 正常修改动作描述。但极端姿势(倒挂、高速运动)可能导致面部变形。 |
6. 崩脸问题排查
遇到角色不一致?按表逐项排查
| 问题表现 | 可能原因 | 解决方案 |
|---|---|---|
| 每张图脸都不一样 | 没有使用参考图功能 | 必须开启角色参考功能,上传母图。 这是最基本的一致性保障。 |
| 同一集前后脸变了 | 生成参数不一致 | 检查是否所有图都用了相同的模型、采样器、参考图权重。 建立参数卡,每次生成前核对。 |
| 侧脸和正脸差别大 | 参考图只有正面,角度泛化差 | 制作四视图参考图(正面+两侧+背面), 或者用 IP-Adapter 提取角色特征。 |
| 换服装后角色不像了 | 服装描述过强,盖过了面部特征 | 提高角色参考权重(0.8-0.85)。 或者在换服装时,先生成一张新服装+正面的图作为新参考。 |
| 表情变化时脸变形 | 表情 prompt 过于极端 | 使用温和的表情词汇(gentle smile 而不是 laughing hysterically)。 避免"crying with tears"等会大幅改变面部结构的词。 |
| 偶尔有一张特别离谱 | 随机性导致的偶发问题 | 正常现象。每个镜头多生成 3-5 张,挑最一致的。 不要试图修复,直接重新生成更快。 |
| 两个角色同框时互相影响 | 多角色参考互相干扰 | 分别生成单人图,然后用剪映/PS 合成。 或者只参考主要角色,次要角色用 prompt 控制。 |
| 画风/色调突然变了 | Prompt 中混入了风格描述词 | 保持风格描述词一致(如 manga style, semi-realistic), 不要在某些镜头加 watercolor/oil painting 等风格词。 |
⚠️ 终极建议:接受不完美
以当前 AI 的技术水平,做到 100% 角色一致是不现实的。 目标应该是 80% 一致—— 观众在正常观看速度下不会觉得"换人了"就够了。 不要为了最后 20% 的一致性花 5 倍的时间去修图。记住:观众看的是故事,不是角色的痣在左边还是右边。