4.8 KiB
附录A · Seedance 2.0 能力模型与黑盒知识
⚠️ 版本锁定声明: 本附录内容基于 Seedance 2.0 官方公开文档(2026年4月)。模型版本更新时,详见
00_模型适配层.md的迁移协议(§0.7)。正文中的通用分镜原理不受模型版本影响。模型特定行为规则已抽离至
00_模型适配层.md: 包括工具真实短板、已知失败模式、中文Prompt系统性偏差、字段影响权重、首因效应与粒度边际效应。本附录仅保留 Seedance 能力概述与双模式策略。
A.1 已公开的能力
| 能力 | 描述 | 对分镜的影响 |
|---|---|---|
| 多镜头导演模式 | 单次生成请求可包含镜头序列,模型自动拼接并保持场景连贯 | 首选生成模式。15秒片段可作为1个多镜头序列提交 |
| 原生音频+口型同步 | 视频生成即附带嵌入式音轨,对白自动口型同步 | 对白台词需在Prompt中明确逐字写出并标明VO/OS/现场声类型。必须在Prompt末尾追加 [无字幕] [无背景音乐,仅环境音与对白] 以抑制自动字幕和配乐 |
| 程序化音效 | 脚步声、风声、门响、车声等基于视觉自动生成 | 在Prompt中给出音效发生的视觉动作即可。复杂或非视觉音效需在Prompt中额外描述 |
| 自适应配乐 | 根据场景情绪自动生成背景音乐 | 本剧不使用。 每个Prompt末尾必须显式禁止 |
| 精确相机控制 | Pan、Tilt、Zoom、Roll、Dolly Zoom | Prompt中用参数化指令替代电影术语 |
| 物理引擎 | 布料、流体、毛发、烟雾真实物理模拟 | 涉及这些元素的场景在Prompt中明确描述 |
| 12路参考输入 | 支持文字+图片+音频+视频多模态参考 | 不同景别/光线条件使用不同参考图 |
| 2K@60fps | 原生2K分辨率,60帧 | 运动描述可以更精细 |
| 人物一致性 | 单张照片即可维持全片段面部特征/衣着/风格一致性 | 人物锚点仍须提供作为参考图的补充——参考图保脸,锚点保灵魂 |
A.2 工具的真实短板
已迁移至
00_模型适配层.md§0.2。 以下为摘要,完整短板清单及对分镜的约束详见适配层。
核心限制:精确空间方位理解弱 / 3人以上复杂互动易产生物理错误 / 精细道具连续性有限 / 不理解光学参数 / 超过15秒的连续生成稳定性下降。
A.3 多镜头序列 vs 逐画面独立:双模式策略
默认使用多镜头序列模式。 Prompt结构为:
[场景建立:时间·地点·光线·氛围]
镜头1(Xs):[景别·角度·运动] + [画面内容]
→ [过渡方式:硬切/叠化/推近过渡]
镜头2(Xs):[景别·角度·运动] + [画面内容]
→ [过渡方式]
...
[无背景音乐,仅环境音与对白] [无字幕]
降级为逐画面独立生成模式的条件(满足任意一条即降级):
- 3人及以上同框场景
- 需要精确到0.3秒级的极端情绪节奏
- 片段内包含血腥暴力替代呈现且替代呈现的精确性需要单画面级别的独立控制
- 用户明确要求逐画面独立生成
降级后的Prompt公式:「[主体·动作] + [环境·光线(含情绪意图)] + [景别·镜头运动] + [氛围(具体感官描述)]」。每条Prompt末尾追加 [无背景音乐] [无字幕]。
A.4 已知失败模式与预防
已迁移至
00_模型适配层.md§0.3。 包含9种失败模式的触发条件、预防策略、早期预警信号及特征指纹识别。
核心预防原则:同框不超过2镜 / 关键道具必带位置锚点 / 禁止连续两镜同一情绪形容词 / 光线基准一次性建立 / 对白文本紧贴对应镜头 / 每个Prompt末尾追加抑制指令。
A.5 中文Prompt的系统性偏差(黑盒知识)
已迁移至
00_模型适配层.md§0.4。 包含成语/比喻字面化风险的完整踩坑清单、安全成语清单、程度副词衰减效应及参数化替代方案。
核心原则:禁止非安全成语——仅「四目相对」「面如死灰」「青筋暴起」「瞳孔地震」可直接使用。程度副词用具体参数替代。非视觉化成语展开为身体语言描述。
A.6 各字段的实际影响权重
已迁移至
00_模型适配层.md§0.5。
快速参考:光线 ★★★★★ → 镜头运动 ★★★★ → 景别 ★★★ → 对白文本 ★★★(对口型)/ ★(对画面) → 环境音 ★★ → 情绪形容词 ★(极低且危险,禁止依赖)。
A.7 首因效应与描述粒度边际效应
已迁移至
00_模型适配层.md§0.6。
快速参考:光线基准放Prompt开头(首因效应+40%) / 对白放镜头前30% / 单画面≤150字、序列≤600字 / 优先3~4镜头序列 / 高潮镜头放前6秒。