如何用AI制作短剧，且保持人物和背景的连贯性？

来源：

作者：Dio-AI
链接：https://www.zhihu.com/question/1912652598873393039/answer/2001332410709726545
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

纯 AI 短剧一致性怎么控？角色资产库（CHAR）怎么设计? 这篇文章将给你一套从“每帧换演员”到“稳定上镜”的可落地方法，落地角色所使用的免费工具是ComfyUI工作流。如果你不会ComfyUI也没关系，请你滑到文章下面“不会Comfy UI？小白如何用在线生图工具把角色一致性做稳 ”。

好的，那先问你 3 个扎心问题（如果中了 2 个以上，你就需要 CHAR）：

同一个角色，换个镜头就“变脸”，像换了演员？
衣服、发型、配饰每次都随机，上一秒西装下一秒卫衣？
视频里第一帧很像，往后 2 秒就开始跑偏，越动越不像？

一句话答案：把角色当“资产”管理，而不是当“提示词”管理
一致性做不起来，通常 prompt 写的不好，而是你缺少一套“角色资产库”。我们把角色拆成四层：最硬的“身份 ID（脸）”锁住；可变的“外观资产”做成开关；上层用“风格”和“镜头语言”统一口味。

一、你到底在控什么：脸、衣服、风格、镜头，全都要分层

很多人只盯着“脸像不像”，结果一换衣服/角度/光线就崩。正确做法是：把一致性拆成可控变量。

层级	你要锁住的东西	落地手段
身份 ID（脸）	五官比例、脸型、关键特征点	参考图/ID 模块（InstantID/PhotoMaker 等）
外观资产（可变）	发型、服装、配饰、道具、伤痕	做成“套装/版本”，用命名+参考图约束
画面风格	色彩、材质、光影、镜头质感	固定风格词/LoRA/统一 base 模型
镜头语言	景别、机位、镜头运动、节奏	分镜表格里固定字段，避免“乱切”

二、CHAR 资产库：不是玄学，就是“1 个文件夹 + 3 张表”

先给你一个可以直接照抄的目录结构（你做 10 个角色，也不会乱）：

然后是 3 张表：角色卡、外观套装表、生成参数表。你只要把它们填满，一致性就“有抓手”了。

表 1：角色卡（CHAR Card）

字段	怎么写才好用（直接拿去填）	例子（Leo）
角色ID	CHAR_001 这类可排序编号	CHAR_001_Leo
一句话识别	别人 3 秒能记住的标签	“温柔但很倔的维修师”
关键特征点	3-5 个“不会变”的点	左眉尾小痣；薄唇；轻微黑眼圈
体型/比例	身高体型、肩宽、腿长等	175cm，偏瘦，肩略窄
发型基准	默认发型（可变要做版本）	黑色短碎发
配色基准	固定 2-3 个主色	深蓝 / 灰 / 暖黄
禁区	明确不允许出现的元素	不戴眼镜；不变成胡子大叔

表 2：外观套装表（Outfit / Props Pack）

套装ID	包含内容	参考图要求	使用场景
OUT_A_工作装	深蓝工装+工具腰包	全身1张+半身1张	修车厂/外景
OUT_B_便装	灰卫衣+牛仔裤	全身1张+侧面1张	日常/室内
PROP_扳手	同一把扳手	近景1张（道具清晰）	特写镜头

表 3：生成参数表（最容易被忽略，但最关键）

一致性最怕“参数漂移”。你今天 CFG=7，明天 CFG=3，出来当然像两个人。把参数记录下来：

项目	建议固定项	备注
Base 模型	同一底模（如 SDXL 某款）	换底模≈换演员
分辨率	同一比例（如 1024×1024 / 1216×832）	比例一变，脸会漂
采样器/步数	同一采样器 + 步数范围固定	步数差太大也会变
CFG	InstantID 场景通常更低	低 CFG 更容易跟参考（见官方节点建议）
Seed	关键镜头固定 seed	方便回滚/复现
负面词	统一一套基础负面词	避免“突然长胡子/变老”

三、真正落地：3 条路线（按成本从低到高）

你不需要一上来就训练 LoRA。先用“参考图驱动”把脸稳住，再决定要不要训练。

路线 A：不训练，靠参考图（最快上手）

适合：你想先跑通一集，或者角色数量多、更新快。核心是 IP-Adapter / InstantID / PhotoMaker 这类“用图锁人”的方法。

（1）利用 IP-Adapter 锁定角色

图 3｜ComfyUI InstantID 基础工作流（截图来自 cubiq/ComfyUI_InstantID）

（2）利用 InstantID 锁定角色

图 4｜IP-Adapter 在 ComfyUI 的示例工作流（截图来自 cubiq/ComfyUI_IPAdapter_plus）

（3）利用 PhotoMaker 锁定角色：
PhotoMaker 适合“用多张照片更稳地还原同一个人”。如果你手里有多张参考图（不同角度/不同表情），PhotoMaker 这类方法往往更稳。

图 5｜PhotoMaker 示例 1（截图来自 TencentARC/PhotoMaker）

路线 B：轻训练（LoRA），把“衣服/风格”也做成资产

适合：主角长期出镜，衣服/画风要稳定。做法：脸用参考图锁，衣服或画风用 LoRA 固化。

路线 C：重训练（DreamBooth 等），追求更强一致性

适合：你要做系列化、角色长期经营，且愿意付出训练成本。通常用于把“角色身份 + 风格”更深地写进模型。

四、实战小案例：10 镜头怎么不崩（你照着做就行）

我们拿一个虚拟主角 Leo 举例。目标：同一集里 10 个镜头，脸不漂、衣服不乱、情绪连贯。
Step 1：先产出一套“参考包”
最低配：3 张清晰脸（正面/侧面/微表情）+ 2 张全身（工作装/便装）+ 3 张情绪（冷静/紧张/开心）。
把这些图放进对应的 CHAR 文件夹，并在表 2 里把套装写清楚。
Step 2：分镜表里，把“可变项”提前标出来

镜头	景别/机位	情绪	套装	关键约束（可抄）
S01	中景/正面	冷静	OUT_A	固定光源方向；脸部参考权重中等
S02	近景/45°	紧张	OUT_A	锁眉尾痣；保持黑眼圈；不加胡子
S03	全景/侧逆光	开心	OUT_B	风格词不变；衣服必须是灰卫衣

Step 3：一套“可复用 prompt 提示词模板”
【正向模板】
<角色一句话识别>，<关键特征点>，<套装描述>，<场景>，<景别/镜头>，<光影>，<画风>
【负向模板（基础版）】
extra fingers, bad hands, deformed, old face, beard, glasses, watermark, text, logo
【参数建议（示例）】
分辨率：固定；采样器/步数：固定范围；CFG：保持一致；关键镜头固定 seed

五、视频一致性：先稳关键帧，再做 I2V（别反过来）

纯 AI 短剧最容易翻车的地方是“动起来就跑”。我的经验是：先用上面的 CHAR 方法把 3-5 张关键帧做稳（同一角色同一套装同一风格），再把关键帧送进 I2V/视频模型做运动。

六、最后给你一份排查清单（收藏就够用）

Base 模型是否换过？（换了≈换演员）
分辨率比例是否漂移？（比例一变，脸最先崩）
CFG/步数是否大幅波动？
参考图是否太杂（不同光线/角度/妆容差太大）？
衣服/发型有没有做“版本号”（OUT_A / OUT_B）？
关键特征点有没有写进角色卡（痣/疤/眉形）？
镜头语言是否乱切（上一镜头近景、下一镜头超广角）？
负面词是否统一？（胡子/眼镜/变老要明确禁止）
有没有保留失败样例并写原因？（不写永远在撞墙）

七、不会Comfy UI？小白如何用在线生图工具把角色一致性做稳

很多小伙伴不会使用ComfyUI这类逻辑操作复杂的生成工具，看不懂各种参数名词，没关系，我们也有一套能直接照着做、还不容易翻车的流程。利用 即梦 / 豆包 / 可灵 / Nano Banana等在线生图模型即可通过简单的自然语言描述来生成统一的角色。

下面我把当前很多实战团队常用的“在线生图打法”补成一套可复用的 SOP：从建角色参考，到分镜出图，再到翻车修复。

先给你一句定心丸：角色一致性 ≠ 玄学。它本质就是把“不会变的东西（身份层）”固化下来，把“每个镜头要变的东西（动作/表情/场景）”拆出来分别控制。

A. 30 分钟起步：先做“角色参考包”
你只需要准备 4～6 张图，就能把后面 80% 的一致性问题提前解决。建议这样做：

把这 4～6 张图打包进 CHAR 资产库：后面每个镜头都“挂参考图”，不要偷懒。
如果是短剧：再补 1 张【关键道具图】：比如“红色围巾/耳钉/徽章”，这会成为你最稳的锚点。
补 1～2 张【表情库】：开心/愤怒/惊讶/哭（解决情绪脸崩）。
再补 2 张【不同角度】：侧脸 / 45° / 全身（解决转头、远景翻车）。
生成 1 张【角色主图】：正面半身、光线干净、纯色或简洁背景（方便模型抓脸和服装）。

小提醒：别一上来就做 20 张。少而精更稳。参考包越“干净一致”，模型越容易学。

B. 在线工具共通逻辑：参考图 + 强度（或相似度）
无论你用即梦、豆包、可灵还是 Nano Banana，真正起作用的通常就两个控件：

参考强度 / 相似度 / 权重：越高越像原角色，但越不容易换动作与构图；越低越容易改镜头，但也更容易跑脸。
参考图（Reference）：告诉模型“这个人长什么样 / 穿什么 / 风格是什么”。

经验值：做分镜时一般从“中等偏高”开始（先稳住人），等你熟了再逐步降强度去换更大的动作。

C. 工具 1：豆包（手机端最顺手的参考图入口）

适合：新手快速试错、如果使用手机端可以边走边改分镜；你甚至可以把它当“移动端分镜打样机”。

小白 5 步：

下一镜头：继续挂同一张参考图，只改动作/表情/场景，不要改风格与衣服。
先生成 2～4 张 → 只挑“脸最稳的一张”作为后续镜头的主参考（别纠结全部完美）。
写提示词时把“身份层”写死：年龄段/发型/衣服/标志物；把“镜头层”写清：景别、机位、表情、动作。
点「参考图」→ 先放【角色主图】（建议先只放 1 张，稳定后再加多角度）。
将编辑好的提示词发送即可。

常见翻车与修复：

情绪不对：优先上“表情参考图”，不要用文字硬拽。
远景脸崩：用“全身参考图”替换/叠加，或者把镜头先改成中景让模型抓稳再拉远。
脸像但衣服跑：把“衣服/材质/颜色/配饰”写成一句固定模板，每镜头复制粘贴。

D. 工具 2：可灵（更像“分镜工厂”，多图参考更适合批量）
适合：你已经有一套分镜表格，要批量跑 50～300 张分镜图；或者需要“多图参考 + 风格锁定”的稳定输出。
可灵对图片提供许多灵活的编辑功能，例如局部重绘、扩图、画质增强等。

推荐打法（批量更稳）：

批量出图时：同一角色的一组镜头尽量用同一套参考图组合（别一会儿 1 张一会儿 4 张）。
镜头提示词固定结构：景别→机位→动作→表情→场景→光线→风格（最后一句固定不变）。
再叠加「风格特征参考」锁住画风（尤其是漫剧/二次元/统一分镜风格）。
用「角色特征参考」先锁住“同一个角色”。

可灵的一个优势是“参考类型”更细：当你发现“脸稳了但风格跑”，你可以单独拉高风格参考强度，而不去动角色参考。

E. 工具 3：即梦（Seedream 4.0 系常见入口，适合画风+角色一起稳）
适合：你想要“更像漫画/分镜稿”的风格统一，同时还要角色别乱跑。

经验打法：先用即梦把“画风”确定下来（同一套风格词 + 同一比例/尺寸），再用参考图稳住角色。
如果你发现“人物稳但构图太死板”，就把参考强度轻轻往下调一点点，同时用更明确的镜头语言描述（例如：俯拍/仰拍/中景/特写/过肩）。

F. 工具 4：Nano Banana（Gemini 的图像生成能力，强在“多模态理解+改图”）

图 10｜Nano Banana：把草图/参考与成图融合的示例来源：https://gemini.google/tw/overview/image-generation/?hl=zh-TW

适合：你已经有角色主图了，想用“同一角色”去做风格迁移、改动作、换材质；或者你需要它理解你给的多张图之间的关系。
一个很实用的用法：把你的“角色主图 + 表情图 + 服装细节图”一起喂进去，让它在同一套视觉规则下做镜头变体。

G. 一个“你明天就能照做”的小案例：同一角色 4 镜头打样

目标：用 1 个角色参考包，跑出 4 张不同镜头（特写/中景/全身/背影），并且脸、衣服、画风尽量一致。

图 11｜参考图生成示例：同一人物在新场景中保持一致（官方示例）来源：https://seed.bytedance.com/zh/blog/seedream-4-0-officially-released-beyond-drawing-into-imagination

图 12｜草图/约束控制示例：用结构约束减少构图跑偏（官方示例）来源：https://seed.bytedance.com/zh/blog/seedream-4-0-officially-released-beyond-drawing-into-imagination

你照抄就行的提示词模板（把【】替换成你的内容）：
【身份层-固定】一位【年龄段】的【性别】角色，【发型/发色】、【五官特征】、【肤色】，穿【上衣/下装/鞋】（颜色/材质明确），标志物：【道具/配饰】。
【镜头层-可变】镜头：【景别】，【机位】；动作：【动作】；表情：【表情】。
【场景层-可变】场景：【地点/时间/天气】；光线：【柔光/逆光/霓虹】。
【风格层-固定】整体风格：【二次元/漫画线稿/写实电影感】；色调：【暖/冷】；画面质感一致。
跑 4 镜头时，除了“镜头层/场景层”之外，其余内容一字不改。你会明显感觉到一致性上去了。

H. 翻车速查表：你遇到的 90% 问题，其实都能对症下药

症状	最可能原因	最快修复动作
脸变了/不像同一人	参考图太少或强度太低；身份层描述在漂移	先只用“角色主图”单图参考，强度调高；身份层整段固定复制
衣服颜色/款式乱跳	提示词里衣服描述不够“硬”	把服装写成固定句：颜色+材质+版型+配饰；必要时补“服装参考图”
远景全身比例崩	模型抓脸抓不住；缺全身参考	补 1 张全身参考；先中景稳定后再拉远
表情不对/情绪不对	只用文字指令，缺表情锚点	做 4 张表情库并作为参考；或用局部重绘只改嘴/眉
风格漂移	风格词不固定；或混用不同模型/参数	风格词固定一条；同一角色一组镜头尽量用同一模型与比例

到这里，你已经有一套“能跑起来”的角色一致性方案了。后面我会把“角色资产库（CHAR）+ 分镜脚本表格 + 自动化工作流”串成一套可复用模板。
如果这篇对你有用：
PS：如果你也在做 AI 短剧，评论区告诉我：你现在卡在“一致性”的哪一段（脸/衣服/风格/视频）？我会优先写你最需要的。
好了，如果觉得有用，欢迎收藏、转发、或关注，也可私信我们一起进步哦～

如何用AI制作短剧，且保持人物和背景的连贯性？