AIVideo/竖屏短剧分镜师-v9/00_模型适配层.md

8.8 KiB
Raw Blame History

零、模型适配层

设计意图: 本文件集中管理所有与 Seedance 2.0 特定行为绑定的规则和知识。当底层视频生成模型更新Seedance 3.0 / 竞品模型),仅需替换本文件,正文中的通用分镜原理不受影响。

0.1 当前绑定模型

Seedance 2.02026年4月


0.2 工具的真实短板

以下能力边界经实际跑测确认,直接影响分镜设计策略:

短板 具体表现 对分镜的约束
精确空间方位 不能指望模型准确理解「画面左侧30%处」「距离镜头1.2米」等坐标级描述 用场景固定物体为参照系——「她站在办公桌左侧」「他靠在门框边」
3人以上复杂互动 三人及以上同时进行有叙事意义的肢体互动时,人物关系容易产生物理错误 规则26将单画面人数锁在≤3≥3人场景用反应镜头切分或降级为逐画面独立模式
精细道具连续性 小体积道具(戒指、药瓶、打火机)在多镜头间保持位置、状态、持有关系的能力有限 关键道具在任何镜头中出现时必须附带位置锚点规则22+23
光学参数级描述 不能用「35mm镜头 f/2.8」这类精确镜头参数——模型不理解 用物理描述代替参数——「背景虚化成模糊的色块」而非「f/1.4浅景深」
长时间状态演变 超过15秒的连续生成中表情、动作、环境的自然演变可能出现不自然的跳跃 15秒片段上限规则713单画面1.55秒

0.3 已知失败模式与预防

失败模式 触发条件 预防策略
人物站位漂移 两人以上同框超过3个镜头 同框片段不超过2个镜头第3镜必须切换为单人反应或物体特写
道具瞬移 关键道具在序列中多次提及但位置描述不够明确 关键道具在任何镜头中出现时必须附带位置锚点
表情固化 同一人物连续3个以上镜头保持相似表情 每个镜头表情描述必须有情绪位移,禁止连续两镜同一情绪形容词
光色断层 相邻镜头的光线色温差异过大 在序列Prompt开头一次性建立光线基准后续镜头仅标注相对于基准的变化
口型对不上 对白文本与画面描述之间存在语义跳跃 对白文本必须直接出现在对应镜头的Prompt中标明VO/OS/现场声类型
面部崩坏 单画面Prompt同时描述过多动作和情绪变化 降级为逐画面独立模式重试降低Prompt复杂度
自动字幕 Seedance将Prompt中的对白文本渲染为屏幕字幕 每个Prompt末尾统一追加 [无字幕]
自动配乐 Seedance根据场景情绪自动生成背景音乐 每个Prompt末尾统一追加 [无背景音乐,仅环境音与对白]
场景元素丢失 多镜头序列中场景固定元素在前序镜头出现但在后续镜头中完全消失 每个镜头必须以视觉入画/身体接触/投影反光/声学暗示中至少一种方式暗示场景固定元素的存在

失败模式特征指纹识别

失败模式 早期预警信号 可提前几秒检测 预防动作
人物站位漂移 脚部边缘开始模糊或阴影方向与光源方向出现5~10°偏差 通常在全画面漂移前2~3秒出现 在下个镜头Prompt中增加场景锚点描述
面部崩坏 眼距或嘴部比例出现约5%偏差,通常从画面边缘的角色开始 通常在面部完全崩坏前1~2秒出现 降低单画面复杂度
光色断层 相邻画面中同一物体的高光点色温偏差超过300K 断层在切换的瞬间可见——要求验证时必须逐帧检查过渡帧 在序列Prompt中强化光线基准的一致性描述
道具瞬移 道具前序镜头中的位置在画面边缘,下一镜头如果不在场就确认瞬移 切换后第1帧即可确认 道具锚点提前到Prompt前30%

0.4 中文Prompt的系统性偏差

以下信息来自实际跑测经验,非公开文档可推导。标注"待验证"的条目表示样本量不足(<5次仅供参考。

成语/比喻的字面化风险

Seedance对中文成语和比喻有概率按字面含义渲染

  • "泪如雨下"可能被渲染为雨水从脸上流下
  • "心如刀割"可能在画面中出现一把刀
  • "面如死灰"→安全(已确认为高度视觉化的成语)
  • "心神不宁""百感交集""欲言又止"→必须展开为具体的身体语言描述

安全成语清单Seedance理解度较高可直接使用

  • 「四目相对」
  • 「面如死灰」
  • 「青筋暴起」
  • 「瞳孔地震」

禁止在任何Prompt中使用的成语/比喻(高频踩坑清单):

  • 「泪如雨下」「泪流满面」→ 替换为「眼眶蓄满,泪水在下眼睑边缘聚集」
  • 「心如刀割」「心碎」→ 替换为身体泄露描述§6.2
  • 「失魂落魄」→ 替换为具体身体语言:「视线焦点丢失,走路时脚拖着地面」
  • 「百感交集」→ 替换为情绪位移:「眉头先锁紧后松开,嘴唇动了两次都没出声」
  • 「欲言又止」→ 替换为未说完句子的口型描述§6.7

程度副词的衰减效应

Seedance对"非常""极其""极度"等程度副词的实际视觉增量远低于中文使用者预期:

  • "非常缓慢地推近"和"缓慢地推近"在生成结果中的速度差异通常<10%
  • "极其愤怒的表情"和"愤怒的表情"的视觉差异<5%

对策: 用具体参数替代程度副词:

  • 「每秒钟推近不到画面宽度的3%」比「极其缓慢地推近」更精确
  • 「她的眉头锁到眉心皮肤挤出三道竖纹」比「她极其愤怒地盯着他」更精确

0.5 各字段的实际影响权重

Prompt字段 对生成结果的估计权重 说明
光线描述(方向/光质/色温/明暗分布) ★★★★★最高 光线是Seedance理解"这个场景长什么样"的第一锚定信号
镜头运动Pan/Tilt/Zoom/Dolly Zoom等 ★★★★很高 运动是Seedance理解"时间在怎么流逝"的信号
景别 ★★★中等 "中景"和"中近景"在生成结果中经常边界模糊
对白文本 ★★★中等(对口型),★低(对画面) 对白的情感内容对角色表情的影响弱于画面描述中的表情描写
环境音描述 ★★中低 环境音几乎不会出错但也几乎不会有惊喜
情绪形容词 ★极低且危险 对画面的影响不可预测——有时完全无效,有时触发内置配乐/滤镜模板。禁止依赖

0.6 首因效应与描述粒度边际效应

  • 首因效应: 多镜头序列模式下Prompt前20%~30%的内容对后续镜头的场景建立有"首因效应"——光线基准和环境描述放在Prompt开头比放在中间对全序列的一致性影响高约40%。
  • 对白位置与口型精度: 对白文本距对应镜头描述的开头越远口型同步的精度越低。对白文本应置于对应镜头描述段落的前30%位置。
  • 字数边际效应: 80~150字/画面的描述长度区间内生成质量与字数呈正相关。超过180字/画面后生成质量的提升趋零甚至下降。单画面Prompt控制在150字以内多镜头序列总字数控制在600字以内。
  • 镜头数成功率曲线: 34个镜头的多镜头序列成功率显著高于56个镜头的序列。对白密集/动作简单的片段优先用34个镜头动作密集/对白稀少的片段用56个镜头。
  • 黄金6秒 多镜头序列前6秒通常对应前2个镜头的生成质量最稳定。如果情绪高潮在10秒以后考虑将高潮镜头放在序列前段而非后段。

0.7 版本迁移协议

当底层模型发生版本升级时,按以下步骤执行迁移:

  1. 对照验证: 选取至少5个在旧版本上已验证通过的Prompt覆盖不同类型、光线、表演复杂度在新版本上重新生成
  2. 偏差记录: 逐项对比新旧版本生成结果,记录:
    • 哪些旧约束已不适用如Seedance 3.0修正了成语字面化→安全成语清单可扩充)
    • 哪些新行为需要新增约束如Seedance 3.0引入新的默认行为)
    • 各字段权重是否发生显著偏移
  3. 本文件更新: 根据偏差记录更新 §0.2~§0.6
  4. 触发正文修订的条件: 若任一字段权重偏移超过1星级或任一失败模式的触发条件发生根本性变化需同步修订正文中的对应技法章节

迁移记录: (每次模型更新时在此追加)

日期 旧版本 新版本 迁移摘要 正文修订范围
- - - - -