AIVideo/workflows/novel_to_seedance/references/seedance2_prompt_rules.md

10 KiB
Raw Blame History

Seedance 2.0 提示词规则

依据

本规则于 2026-05-17 复核,综合以下资料整理:

  • ByteDance Seed 官方 Seedance 2.0 页面:支持 text/image/audio/video 多模态输入,强调表演、光影、镜头运动的导演级控制。
  • Seedance 2.0 技术报告/Model Card支持 4-15 秒音视频生成,原生 480p/720p开放平台参考输入可包含最多 3 个视频、9 张图片、3 段音频。
  • 火山引擎公开材料Doubao-Seedance-2.0 已开放 API重点能力是音视图文参考、一致性、拟真稳定性和批量生产。
  • 第三方实测教程的共同结论:提示词越像“镜头 brief”越稳定不要把设定、推理、流程、后期说明揉进一个生成提示词图生视频不要反复重写图片中已有物体只写运动、镜头、光线变化和情绪走向。

项目内文件分工

  • 01_WORKFLOW.md:执行流程、产物结构、命名规则。
  • references/seedance2_prompt_rules.mdSeedance 写法规则。
  • templates/episode_05_Seedance视频提示词.md:只放可复用输出骨架。
  • episodes/EPxx_中文集名/05_Seedance视频提示词.md:只写本集视频段落提示词。
  • episodes/EPxx_中文集名/06_转场衔接快照.md:只写片段衔接,不塞进 Seedance Prompt。
  • episodes/EPxx_中文集名/09_官网提示词.md:只写官网上传素材版。
  • episodes/EPxx_中文集名/10_接口请求体.jsonl:只写 API 请求体。

最稳结构

Seedance Prompt 代码块内只放“生成这个视频片段需要模型知道的信息”。不要放分析过程、为什么这样写、QC、风险审查、模板说明。

推荐顺序:

参考职责参考图1锁定{角色外貌/服装}参考图2锁定{场景空间/光线}参考图3锁定{道具外观}。
{景别/镜头类型}{主体 + 核心动作 + 场景}{时长}s{画幅}{写实/风格}。
首帧:{人物位置、姿态、道具、光线}。
镜头:{一个主要镜头运动,或明确为固定镜头;写清起点 -> 运动 -> 终点}。
时间节拍0-3s {动作1}3-7s {动作2}7-12s {动作3}。
对白/口型/表演:{本段由 Seedance 生成的对白、语气、口型、停顿、听者反应;视线、呼吸、手指、身体重心等可见细节}。
声音:{对白发声方式、环境音、是否有 VO、是否有音乐声音必须服务画面动作}。
环境:{光线、材质、风、烟、背景人群等}。
一致性:{角色脸、服装、道具、场景结构保持参考图一致;只允许写明的变化}。
尾帧:{最后0.5秒画面,用于下一段衔接}。
约束:{少量关键负面约束}。

生成模式选择

每条提示词先判断模式,再写正文。不要用同一种写法覆盖所有场景。

Text-to-Video

适合没有参考素材、做概念测试或空镜。必须完整写清主体、动作、环境、光线、风格和画幅。角色类视频不建议长期依赖纯文生视频,因为跨片段一致性更难控制。

Image-to-Video

适合角色、场景、道具已经有参考图的正式片段。写法重点:

  • 不要重复堆角色脸型、五官、服装细节只写“参考图1锁定外貌和服装”。
  • 不要重新描述图片里的每个物体;只写要发生的动作、镜头运动、光线变化和尾帧。
  • 如果上传首帧图,首帧描述必须贴合图片,不要让首帧与参考图冲突。
  • 如果图片里缺少关键道具或角色,不要指望文字硬补;优先补一张道具/角色参考图。

Multimodal / Omni Reference

适合需要强一致性的短剧批量生产。建议把参考素材分工写明:

  • 图片:锁定角色身份、服装、道具外观、场景结构、首帧构图。
  • 视频:锁定动作节奏、镜头路线、肢体运动、表演速度。
  • 音频:锁定节奏、氛围、对白语气、环境音和声音方向;如果本段要求 Seedance 直接生成声音,完整对白必须写进 Seedance Prompt。

虽然开放平台可支持较多参考素材,单条正式提示词仍建议只启用 2-5 个关键参考;素材太多会增加身份、服装、空间关系冲突。

写法原则

  1. 开头先锁主体和动作。前 20-30 个词优先写“谁在做什么、在哪里”,不要先堆“电影感、史诗感、震撼”。
  2. 每段只处理一个主要动作块和一个情绪转折。复杂戏拆成多个 5-8 秒测试段,再扩展到 12-15 秒。
  3. 角色一致性依赖参考图和全局资产,不要在每段重复大量脸型/服装描述;分集只写阶段状态。
  4. 镜头运动只写一个主运动:固定、缓慢推进、轻微跟拍、横移、焦点转移。不要同一段同时推拉摇移环绕。
  5. 多镜头必须用时间节拍写清楚。否则优先写成“连续镜头”。
  6. 如果使用 Seedance 的声音/对白生成功能完整对白、VO、环境音和必要音乐提示都写进 Seedance Prompt。对白要和时间节拍、口型、语气、听者反应绑定不再单独当“后期备注”。如果只生成无声画面才把声音内容另列为后期参考。
  7. 负面约束保持短而关键:不要字幕、水印、变脸、额外人物、夸张表情、肢体畸变、闪烁。
  8. 不能依赖内部 @角色名 直接让官网识别。官网版必须映射到上传素材名API 版必须映射到 URL 或 asset://

对白、口型与声音规则

如果目标是让 Seedance 同时生成画面和声音,必须把对白写进 Prompt。不要只写“他说话”或把对白放在 Prompt 外,否则口型、语气、表情和听者反应容易脱节。

推荐采用“同段合并写法”:

  • 时间节拍 写动作和台词发生时间。
  • 对白/口型/表演 写完整台词、说话人、语气、口型、停顿和听者反应。
  • 声音 写环境音、VO、音乐和声音层级。
  • 约束 明确不要字幕、不要把对白文字显示在画面里。

推荐写法:

时间节拍0-3s 霍念把药碗推到桌沿3-7s 姜尚离扶住碗边低声说“我自己来”7-12s 霍念听见后停半秒,慢慢收回手。
对白/口型/表演:姜尚离说“我自己来”,声音很低,语速慢,嘴唇动作清楚但不夸张;说话时不抬头,说完最后半秒看向霍念。霍念没有说话,只用停顿和收手回应。
声音:生成姜尚离的同期对白,屋外轻微风声,火盆细响,药碗碰到木桌有很轻的陶器声;无 VO无背景音乐。
约束:不要字幕,不要把对白文字显示在画面里,口型自然,不要夸张张嘴,不要机械反复开合,不要多余旁白。

不推荐写法:

姜尚离说话。对白另放在 Prompt 外:我自己来。

分段原则:

  • 4-8 秒:最多 1 句短对白。
  • 12 秒:最多 1-2 句短对白 + 1 个听者反应。
  • 15 秒:最多 2 句短对白,必须用时间节拍分开;超过两句就拆成多个片段。
  • 每句对白尽量短,优先 4-12 个汉字;超过 18 个汉字要拆成两句或拆段。
  • 台词中的标点要服务停顿,例如“我自己来。”、“别碰她。”、“你叫我阿离。”,不要写长段文学对白。
  • 如果需要精准逐字口型,仍要把台词写进 Seedance Prompt同时接受模型可能只有近似唇形必要时后期再精修。

时长与节奏

  • 4-6 秒:用于动作可行性、小情绪、道具特写和镜头运动测试。
  • 8 秒:正式生产的稳妥默认值,一段只写 1 个动作目标。
  • 12 秒:可写 2-3 个时间节拍,适合人物关系变化。
  • 15 秒:只在确实需要“起点 -> 过程 -> 结果”的连续镜头时使用,必须写时间节拍;超过 3 个动作目标就拆段。

时间节拍必须跟总时长匹配:

  • 8s0-2s / 2-5s / 5-8s
  • 12s0-3s / 3-7s / 7-12s
  • 15s0-4s / 4-9s / 9-15s

镜头语言白名单

优先使用稳定、可执行的镜头词:

  • 固定镜头:固定中景固定近景静态广角建立镜头
  • 缓慢推进:缓慢推近低机位缓慢推近
  • 跟拍:轻微手持跟拍侧面跟拍背后跟拍
  • 横移:平稳横移从门框后横移露出主体
  • 焦点变化:焦点从前景道具转到人物眼神
  • 俯仰:从手中道具轻微上摇到人物脸

慎用或拆段:

  • 同时推拉摇移、360 度环绕加快速动作、复杂跳切、闪白切回、多个时间线闪回。
  • 大量正反打。Seedance 可以生成多镜头,但短剧稳定量产时优先用“一个连续镜头 + 明确节拍”。

参考素材职责绑定

每条官网/API 提示词都要写清参考职责,避免模型混用素材:

参考图1姜尚离外貌、发型、服装、肤色不参考图中背景。
参考图2霍念外貌和服装不参考图中姿势。
参考图3伯府狗洞场景空间、泥地材质和冷天光。
参考图4旧玉佩道具外观和尺寸。

同一角色跨片段优先使用同一张主参考图;只有服装或身份阶段变化时才切换阶段参考图,并在 04_资产引用.md 标明。

连续性与返修

  • 每段尾帧写成可截取的“下一段首帧候选图”:人物位置、手势、道具状态、光线方向必须明确。
  • 如果平台/API 支持返回最后一帧、首尾帧控制或视频延展,优先把上一段尾帧作为下一段首帧参考。
  • 首轮测试先跑 4-8 秒,确认角色脸、服装、动作和镜头稳定后再扩展到 12-15 秒。
  • 返修时只改一个变量:参考图、动作、镜头、光线或约束。不要一次性重写整条提示词,否则无法判断问题来源。

质量检查

每条 Seedance Prompt 输出前检查:

  • 是否有清楚主体、动作、场景。
  • 是否有首帧和尾帧。
  • 是否只有一个主要镜头运动。
  • 是否明确参考素材职责,而不是只堆 @角色/@场景
  • 是否根据 T2V / I2V / 多模态模式调整写法。
  • 时间节拍是否匹配总时长。
  • 是否避免过多抽象形容词。
  • 是否避免把人物设定、剧情分析、风险审查塞进 Prompt。
  • 是否引用了全局资产,且引用都存在于 04_人物场景道具设计.md
  • 如果要求 Seedance 生成声音,对白/VO/环境音是否已经写进 Prompt且与时间节拍和口型/表演一致。