如何用AI制作短剧,且保持人物和背景的连贯性?

来源: 作者:Dio-AI链接:https:/…

来源:

作者:Dio-AI
链接:https://www.zhihu.com/question/1912652598873393039/answer/2001332410709726545
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

纯 AI 短剧一致性怎么控?角色资产库(CHAR)怎么设计? 这篇文章将给你一套从“每帧换演员”到“稳定上镜”的可落地方法,落地角色所使用的免费工具是ComfyUI工作流。如果你不会ComfyUI也没关系,请你滑到文章下面“不会Comfy UI?小白如何用在线生图工具把角色一致性做稳 ”。

好的,那先问你 3 个扎心问题(如果中了 2 个以上,你就需要 CHAR):

  • 同一个角色,换个镜头就“变脸”,像换了演员?
  • 衣服、发型、配饰每次都随机,上一秒西装下一秒卫衣?
  • 视频里第一帧很像,往后 2 秒就开始跑偏,越动越不像?

    一句话答案:把角色当“资产”管理,而不是当“提示词”管理
    一致性做不起来,通常 prompt 写的不好,而是你缺少一套“角色资产库”。我们把角色拆成四层:最硬的“身份 ID(脸)”锁住;可变的“外观资产”做成开关;上层用“风格”和“镜头语言”统一口味。
图 1|一致性四层控制模型示意图


一、你到底在控什么:脸、衣服、风格、镜头,全都要分层

很多人只盯着“脸像不像”,结果一换衣服/角度/光线就崩。正确做法是:把一致性拆成可控变量。

层级你要锁住的东西落地手段
身份 ID(脸)五官比例、脸型、关键特征点参考图/ID 模块(InstantID/PhotoMaker 等)
外观资产(可变)发型、服装、配饰、道具、伤痕做成“套装/版本”,用命名+参考图约束
画面风格色彩、材质、光影、镜头质感固定风格词/LoRA/统一 base 模型
镜头语言景别、机位、镜头运动、节奏分镜表格里固定字段,避免“乱切”



二、CHAR 资产库:不是玄学,就是“1 个文件夹 + 3 张表”

先给你一个可以直接照抄的目录结构(你做 10 个角色,也不会乱):

图 2|CHAR 目录结构示意图


然后是 3 张表:角色卡、外观套装表、生成参数表。你只要把它们填满,一致性就“有抓手”了。


表 1:角色卡(CHAR Card)

字段怎么写才好用(直接拿去填)例子(Leo)
角色IDCHAR_001 这类可排序编号CHAR_001_Leo
一句话识别别人 3 秒能记住的标签“温柔但很倔的维修师”
关键特征点3-5 个“不会变”的点左眉尾小痣;薄唇;轻微黑眼圈
体型/比例身高体型、肩宽、腿长等175cm,偏瘦,肩略窄
发型基准默认发型(可变要做版本)黑色短碎发
配色基准固定 2-3 个主色深蓝 / 灰 / 暖黄
禁区明确不允许出现的元素不戴眼镜;不变成胡子大叔



表 2:外观套装表(Outfit / Props Pack)

套装ID包含内容参考图要求使用场景
OUT_A_工作装深蓝工装+工具腰包全身1张+半身1张修车厂/外景
OUT_B_便装灰卫衣+牛仔裤全身1张+侧面1张日常/室内
PROP_扳手同一把扳手近景1张(道具清晰)特写镜头


表 3:生成参数表(最容易被忽略,但最关键)


一致性最怕“参数漂移”。你今天 CFG=7,明天 CFG=3,出来当然像两个人。把参数记录下来:

项目建议固定项备注
Base 模型同一底模(如 SDXL 某款)换底模≈换演员
分辨率同一比例(如 1024×1024 / 1216×832)比例一变,脸会漂
采样器/步数同一采样器 + 步数范围固定步数差太大也会变
CFGInstantID 场景通常更低低 CFG 更容易跟参考(见官方节点建议)
Seed关键镜头固定 seed方便回滚/复现
负面词统一一套基础负面词避免“突然长胡子/变老”


三、真正落地:3 条路线(按成本从低到高)


你不需要一上来就训练 LoRA。先用“参考图驱动”把脸稳住,再决定要不要训练。


路线 A:不训练,靠参考图(最快上手)


适合:你想先跑通一集,或者角色数量多、更新快。核心是 IP-Adapter / InstantID / PhotoMaker 这类“用图锁人”的方法。


(1)利用 IP-Adapter 锁定角色

图 3|ComfyUI InstantID 基础工作流(截图来自 cubiq/ComfyUI_InstantID)


(2)利用 InstantID 锁定角色

图 4|IP-Adapter 在 ComfyUI 的示例工作流(截图来自 cubiq/ComfyUI_IPAdapter_plus)


(3)利用 PhotoMaker 锁定角色:
PhotoMaker 适合“用多张照片更稳地还原同一个人”。如果你手里有多张参考图(不同角度/不同表情),PhotoMaker 这类方法往往更稳。

图 5|PhotoMaker 示例 1(截图来自 TencentARC/PhotoMaker)


路线 B:轻训练(LoRA),把“衣服/风格”也做成资产


适合:主角长期出镜,衣服/画风要稳定。做法:脸用参考图锁,衣服或画风用 LoRA 固化。


路线 C:重训练(DreamBooth 等),追求更强一致性


适合:你要做系列化、角色长期经营,且愿意付出训练成本。通常用于把“角色身份 + 风格”更深地写进模型。


四、实战小案例:10 镜头怎么不崩(你照着做就行)


我们拿一个虚拟主角 Leo 举例。目标:同一集里 10 个镜头,脸不漂、衣服不乱、情绪连贯。
Step 1:先产出一套“参考包”
最低配:3 张清晰脸(正面/侧面/微表情)+ 2 张全身(工作装/便装)+ 3 张情绪(冷静/紧张/开心)。
把这些图放进对应的 CHAR 文件夹,并在表 2 里把套装写清楚。
Step 2:分镜表里,把“可变项”提前标出来

镜头景别/机位情绪套装关键约束(可抄)
S01中景/正面冷静OUT_A固定光源方向;脸部参考权重中等
S02近景/45°紧张OUT_A锁眉尾痣;保持黑眼圈;不加胡子
S03全景/侧逆光开心OUT_B风格词不变;衣服必须是灰卫衣


Step 3:一套“可复用 prompt 提示词模板”
【正向模板】
<角色一句话识别>,<关键特征点>,<套装描述>,<场景>,<景别/镜头>,<光影>,<画风>
【负向模板(基础版)】
extra fingers, bad hands, deformed, old face, beard, glasses, watermark, text, logo
【参数建议(示例)】
分辨率:固定;采样器/步数:固定范围;CFG:保持一致;关键镜头固定 seed


五、视频一致性:先稳关键帧,再做 I2V(别反过来)


纯 AI 短剧最容易翻车的地方是“动起来就跑”。我的经验是:先用上面的 CHAR 方法把 3-5 张关键帧做稳(同一角色同一套装同一风格),再把关键帧送进 I2V/视频模型做运动。


六、最后给你一份排查清单(收藏就够用)

  • Base 模型是否换过?(换了≈换演员)
  • 分辨率比例是否漂移?(比例一变,脸最先崩)
  • CFG/步数是否大幅波动?
  • 参考图是否太杂(不同光线/角度/妆容差太大)?
  • 衣服/发型有没有做“版本号”(OUT_A / OUT_B)?
  • 关键特征点有没有写进角色卡(痣/疤/眉形)?
  • 镜头语言是否乱切(上一镜头近景、下一镜头超广角)?
  • 负面词是否统一?(胡子/眼镜/变老要明确禁止)
  • 有没有保留失败样例并写原因?(不写永远在撞墙)


七、不会Comfy UI?小白如何用在线生图工具把角色一致性做稳


很多小伙伴不会使用ComfyUI这类逻辑操作复杂的生成工具,看不懂各种参数名词,没关系,我们也有一套能直接照着做、还不容易翻车的流程。利用 即梦 / 豆包 / 可灵 / Nano Banana等在线生图模型即可通过简单的自然语言描述来生成统一的角色。


下面我把当前很多实战团队常用的“在线生图打法”补成一套可复用的 SOP:从建角色参考,到分镜出图,再到翻车修复。


先给你一句定心丸:角色一致性 ≠ 玄学。它本质就是把“不会变的东西(身份层)”固化下来,把“每个镜头要变的东西(动作/表情/场景)”拆出来分别控制。

图 6|小白版在线生图一致性 SOP(先建参考包,再分镜出图)



A. 30 分钟起步:先做“角色参考包”
你只需要准备 4~6 张图,就能把后面 80% 的一致性问题提前解决。建议这样做:

  1. 把这 4~6 张图打包进 CHAR 资产库:后面每个镜头都“挂参考图”,不要偷懒。
  2. 如果是短剧:再补 1 张【关键道具图】:比如“红色围巾/耳钉/徽章”,这会成为你最稳的锚点。
  3. 补 1~2 张【表情库】:开心/愤怒/惊讶/哭(解决情绪脸崩)。
  4. 再补 2 张【不同角度】:侧脸 / 45° / 全身(解决转头、远景翻车)。
  5. 生成 1 张【角色主图】:正面半身、光线干净、纯色或简洁背景(方便模型抓脸和服装)。

小提醒:别一上来就做 20 张。少而精更稳。参考包越“干净一致”,模型越容易学。


B. 在线工具共通逻辑:参考图 + 强度(或相似度)
无论你用即梦、豆包、可灵还是 Nano Banana,真正起作用的通常就两个控件:

  • 参考强度 / 相似度 / 权重:越高越像原角色,但越不容易换动作与构图;越低越容易改镜头,但也更容易跑脸。
  • 参考图(Reference):告诉模型“这个人长什么样 / 穿什么 / 风格是什么”。

经验值:做分镜时一般从“中等偏高”开始(先稳住人),等你熟了再逐步降强度去换更大的动作。


C. 工具 1:豆包(手机端最顺手的参考图入口)

图 7|小白版在线生图一致性工具:豆包


适合:新手快速试错、如果使用手机端可以边走边改分镜;你甚至可以把它当“移动端分镜打样机”。


小白 5 步:

  1. 下一镜头:继续挂同一张参考图,只改动作/表情/场景,不要改风格与衣服。
  2. 先生成 2~4 张 → 只挑“脸最稳的一张”作为后续镜头的主参考(别纠结全部完美)。
  3. 写提示词时把“身份层”写死:年龄段/发型/衣服/标志物;把“镜头层”写清:景别、机位、表情、动作。
  4. 点「参考图」→ 先放【角色主图】(建议先只放 1 张,稳定后再加多角度)。
  5. 将编辑好的提示词发送即可。

常见翻车与修复:

  • 情绪不对:优先上“表情参考图”,不要用文字硬拽。
  • 远景脸崩:用“全身参考图”替换/叠加,或者把镜头先改成中景让模型抓稳再拉远。
  • 脸像但衣服跑:把“衣服/材质/颜色/配饰”写成一句固定模板,每镜头复制粘贴。

D. 工具 2:可灵(更像“分镜工厂”,多图参考更适合批量)
适合:你已经有一套分镜表格,要批量跑 50~300 张分镜图;或者需要“多图参考 + 风格锁定”的稳定输出。
可灵对图片提供许多灵活的编辑功能,例如局部重绘、扩图、画质增强等。

图 8|小白版在线生图一致性工具:可灵


推荐打法(批量更稳):

  1. 批量出图时:同一角色的一组镜头尽量用同一套参考图组合(别一会儿 1 张一会儿 4 张)。
  2. 镜头提示词固定结构:景别→机位→动作→表情→场景→光线→风格(最后一句固定不变)。
  3. 再叠加「风格特征参考」锁住画风(尤其是漫剧/二次元/统一分镜风格)。
  4. 用「角色特征参考」先锁住“同一个角色”。

可灵的一个优势是“参考类型”更细:当你发现“脸稳了但风格跑”,你可以单独拉高风格参考强度,而不去动角色参考。


E. 工具 3:即梦(Seedream 4.0 系常见入口,适合画风+角色一起稳)
适合:你想要“更像漫画/分镜稿”的风格统一,同时还要角色别乱跑。

图 9|小白版在线生图一致性工具:即梦


经验打法:先用即梦把“画风”确定下来(同一套风格词 + 同一比例/尺寸),再用参考图稳住角色。
如果你发现“人物稳但构图太死板”,就把参考强度轻轻往下调一点点,同时用更明确的镜头语言描述(例如:俯拍/仰拍/中景/特写/过肩)。


F. 工具 4:Nano Banana(Gemini 的图像生成能力,强在“多模态理解+改图”)

图 10|Nano Banana:把草图/参考与成图融合的示例来源:https://gemini.google/tw/overview/image-generation/?hl=zh-TW


适合:你已经有角色主图了,想用“同一角色”去做风格迁移、改动作、换材质;或者你需要它理解你给的多张图之间的关系。
一个很实用的用法:把你的“角色主图 + 表情图 + 服装细节图”一起喂进去,让它在同一套视觉规则下做镜头变体。


G. 一个“你明天就能照做”的小案例:同一角色 4 镜头打样


目标:用 1 个角色参考包,跑出 4 张不同镜头(特写/中景/全身/背影),并且脸、衣服、画风尽量一致。

图 11|参考图生成示例:同一人物在新场景中保持一致(官方示例)来源:https://seed.bytedance.com/zh/blog/seedream-4-0-officially-released-beyond-drawing-into-imagination
图 12|草图/约束控制示例:用结构约束减少构图跑偏(官方示例)来源:https://seed.bytedance.com/zh/blog/seedream-4-0-officially-released-beyond-drawing-into-imagination


你照抄就行的提示词模板(把【】替换成你的内容):
【身份层-固定】一位【年龄段】的【性别】角色,【发型/发色】、【五官特征】、【肤色】,穿【上衣/下装/鞋】(颜色/材质明确),标志物:【道具/配饰】。
【镜头层-可变】镜头:【景别】,【机位】;动作:【动作】;表情:【表情】。
【场景层-可变】场景:【地点/时间/天气】;光线:【柔光/逆光/霓虹】。
【风格层-固定】整体风格:【二次元/漫画线稿/写实电影感】;色调:【暖/冷】;画面质感一致。
跑 4 镜头时,除了“镜头层/场景层”之外,其余内容一字不改。你会明显感觉到一致性上去了。


H. 翻车速查表:你遇到的 90% 问题,其实都能对症下药

症状最可能原因最快修复动作
脸变了/不像同一人参考图太少或强度太低;身份层描述在漂移先只用“角色主图”单图参考,强度调高;身份层整段固定复制
衣服颜色/款式乱跳提示词里衣服描述不够“硬”把服装写成固定句:颜色+材质+版型+配饰;必要时补“服装参考图”
远景全身比例崩模型抓脸抓不住;缺全身参考补 1 张全身参考;先中景稳定后再拉远
表情不对/情绪不对只用文字指令,缺表情锚点做 4 张表情库并作为参考;或用局部重绘只改嘴/眉
风格漂移风格词不固定;或混用不同模型/参数风格词固定一条;同一角色一组镜头尽量用同一模型与比例


到这里,你已经有一套“能跑起来”的角色一致性方案了。后面我会把“角色资产库(CHAR)+ 分镜脚本表格 + 自动化工作流”串成一套可复用模板。
如果这篇对你有用:
PS:如果你也在做 AI 短剧,评论区告诉我:你现在卡在“一致性”的哪一段(脸/衣服/风格/视频)?我会优先写你最需要的。
好了,如果觉得有用,欢迎收藏、转发、或关注,也可私信我们一起进步哦~

类似文章