2026/06/07

Seedance 2.0 Prompt 完全指南：2026年最新提示词模板、技巧与实战经验

掌握 Seedance 2.0 提示词——从基础文本和图生视频 Prompt、电影级首尾帧、参考生视频到音频驱动 Prompt。含已验证模板、各模式专属策略和跨模式通用的 Prompt 公式。

你有没有遇到过这种情况：给 Seedance 2.0 上传了一张参考图，写了一段看起来没问题的 Prompt，点生成——然后出来的东西跟想的完全不一样。主体变形、运动僵硬、镜头乱晃。

这不是你运气不好，是 Prompt 没写对。

2026 年的 AI 视频模型已经能生成 10 秒连贯画面，保持角色一致，做到电影级布光。但前提是——你的 Prompt 得说对话。好 Prompt 和坏 Prompt 的区别，就是一条能用的视频和白白浪费一次生成配额的区别。

我在 Seedance 2.0 五个模式下攒了 300 多条 Prompt 的测试记录，每个模式都跑过评分和迭代。这篇文章就是这些经验的浓缩。读完之后你会知道：每种模式到底怎么写 Prompt、什么该写什么不该写、遇到失败怎么调。

Seedance 2.0 Prompt 结构图：五通道多模态 Prompt 框架——文字描述、图片参考、视频参考、音频输入、风格方向——汇聚为统一生成

为什么 2026 年的 Prompt 和以前不一样

前几年的 AI 视频模型基本是文字到视频的单通道——你写什么，它生成什么。Seedance 2.0 不一样：它同时接受文字、图片、视频、音频四种输入，最后把所有这些信息融合成一段视频。

这听起来更方便了，但实际使用中很多人反而更困惑——"我到底该在文字里写什么？需不需要把图片内容也描述一遍？音频和视频怎么搭配？"

答案其实很简单：每种输入各管一摊。文字不要替图片干活，图片不要替视频干活。

这就意味着，你的文字 Prompt 不需要再描述"画面里有什么"——那是参考图的事。文字 Prompt 应该只做参考图做不到的事：描述运动、节奏和镜头。

Seedance 2.0 怎么分配输入任务

先搞清楚每种输入各负责什么，写 Prompt 才不会重复或打架：

输入类型	在生成中的作用
文字 Prompt	控制运动、节奏、镜头和叙事走向
图片参考	锁定画面风格——主体长什么样、构图、色调
视频参考	定义运动风格、动作编排、镜头运动方式
音频输入	控制节奏、速度和情绪起伏
风格方向	全局美学方向——电影感、纪录片、动画

记住了：文字 Prompt 的价值不在于描述画面，而在于描述画面怎么动。 上一张参考图已经告诉模型"画什么"了，文字 Prompt 告诉它"怎么动"。

反过来，如果你只写文字不传参考图，那文字就得什么都包——主体、环境、光线、构图、运动、镜头，缺哪个模型就瞎猜哪个。

第一步：先选对模式，再动笔写

很多人上手就写 Prompt，写完了才发现模式选错了——这是最常见的弯路。选对了模式，Prompt 事半功倍。

你想要的效果	用这个模式	原因
凭空写一段描述生成视频	文生视频	不需要参考素材，全靠文字驱动
把一张现有的图变成视频	图生视频	图片提供视觉基础，文字只补运动
从起始画面过渡到结束画面	首尾帧	模型在两张图之间自动做中间过渡
让同一个角色在不同视频里保持一致	参考生视频	绑定参考图锁定角色特征
让视频节奏跟着音乐或配音走	音频驱动	音频控制节奏，文字定义画面内容

选模式的判断依据很简单：你手上有什么素材，就用什么模式。 什么素材都没有？文生视频起步。有一张角色图想让它动起来？图生视频。两个关键画面都想好了？首尾帧。

模式选对了，再套下面的公式。

通用 Prompt 公式

这条公式跨所有模式通用。不需要每个槽都填——哪些信息参考图已经提供了，对应的槽就空着。

[模式定位] + [主体与动作] + [运动与节奏] + [镜头语言] + [风格与画质]

模式定位（一句话）

告诉模型这是哪种生成任务，一开篇就定调。

"电影级文生视频："
"静态人像图生视频动画："
"首帧到尾帧过渡："
"参考图驱动的角色视频："

这行不用长。一句话就够了——多了反而把指令冲淡。

主体与动作

画面上有什么、在做什么。控制在一个清晰动作内。连续多个动作会让模型不知道重点在哪。

推荐写法： "一位芭蕾舞者在黑暗的舞台上完成一次单次大跳"

不推荐： "一位芭蕾舞者先热身，再转圈，再大跳，再鞠躬"

顺带一提，如果你同时传了一张参考图，这里不需要再描述主体的长相——参考图已经告诉模型了。只说参考图没有的信息。

运动与节奏

这是文字 Prompt 里最重要的部分。参考图和音频都提供不了运动的精确描述，这是文字不可替代的价值。

有效的运动描述：

"缓慢、沉稳的运动——每一帧都有重量感"
"快速、动态的运动——快节奏切换"
"渐进揭示——主体在 3 秒内从阴影中浮现"
"连续流畅运动——无停顿、无卡顿"

写运动描述的时候，问自己一个问题：这条运动描述放到没有参考图的情况下，能不能让人脑补出画面？ 如果能，就写对了。

镜头语言

机位在哪、镜头怎么动。Seedance 2.0 对电影摄影术语响应很好。

常用镜头指令：

"固定广角镜头，浅景深，背景虚化"
"从中景到特写的慢速推进，持续 5 秒"
"俯拍吊臂镜头，下降到视线高度"
"手持纪实风格，微妙的自然晃动"

风格与画质

视觉美感和技术质量。引用电影风格或胶片类型比抽象词有效得多。

"35mm 胶片感，自然颗粒，暖色调色"
"商业大片数字感，锐利清晰，产品布光"
"纪录片风格，自然光，真实色彩"
"赛博朋克霓虹色调，冷紫搭配荧光蓝"

一句经验："电影感"三个字不够。 具体说你想要哪种电影感——胶片颗粒还是干净数字？暖调还是冷调？这些细节才能真正锁定风格。

各模式模板与实战示例

公式搭好了骨架，模板帮你把血肉填进去。

文生视频

[模式定位] [主体]在[环境]中[执行动作]。[运动描述——速度、质感、方向]。[镜头调度——景别、运动]。[光线描述]。[时长]。[风格+画质]。

已验证示例： "电影级文生视频：一位孤独的天文学家在山顶天文台透过巨大望远镜观测。缓慢、沉思的运动——望远镜追踪星空，星光透过穹顶开口缓缓移动。天文台内部固定广角，暖琥珀色仪器灯光映衬深蓝夜空。10 秒。胶片质感，丰富阴影，24fps。"

注意这个例子里的运动描述——它没有说"望远镜慢慢动"，而是具体写了"望远镜追踪星空，星光透过穹顶开口缓缓移动"。这种具体化运动描述是文生视频模式里最值得花字数的部分。

图生视频

基于提供的图片：[描述图片里没有的运动]。[镜头行为]。[哪些保持静止、哪些运动]。[时长+画质]。

常见错误：花大段描述图片里已有的东西，比如"一个人站在海边，穿红色衣服，背景是夕阳"。这些信息参考图已经给了。你应该写的是："海面开始起伏，浪花翻卷，人物头发被风吹动，衣摆缓缓飘扬。"

已验证示例： "基于提供的肖像照：表情微妙变化——眼角微微皱起，嘴角浮现一丝笑意。镜头固定，浅景深保持面部清晰，背景柔和虚化。面部和头发保持自然——不变形、不扭曲。5 秒。电影级人像画质。"

首尾帧

从[起始帧描述]过渡到[结束帧描述]。镜头[描述帧间镜头路径]。运动是[速度+质感]。[必须保持一致的元素]。[时长+画质]。

已验证示例： "从主角站在悬崖边日出时的画面过渡到主角沿悬崖小路走远、背向镜头的画面。镜头在过渡期间固定——无摇移、无变焦。运动缓慢而沉稳——5 秒完成从起始到结束帧的移动。主体身份和服装保持完全一致。10 秒。电影感光影，金色时刻贯穿始终。"

首尾帧模式里最容易翻车的地方是"保持一致的元素"没写清楚——角色服装变了、环境色调跳了。这一行不是可选项，是必填项。

参考生视频

使用绑定的参考图：[主体参考]在[环境参考]中执行[动作]，风格化为[风格参考]。[运动模式]。[镜头]。[画质]。

已验证示例： "使用绑定的参考图：角色在深夜雨中的东京小巷行走，新黑色电影风格。稳定步频——镜头侧面跟拍，速度匹配，浅景深保持角色清晰，背景霓虹光晕虚化。10 秒。变形宽银幕镜头质感，深邃对比，胶片颗粒。"

音频驱动

视频与提供的音频同步：[描述视觉内容]。运动跟随[音频特征——节拍、节奏、情绪、渐强]。[镜头行为匹配音频能量]。[风格]。

已验证示例： "视频与提供的音频同步：声音的抽象可视化——光的粒子随节拍脉动和流动。运动强度跟随音频动态——主歌部分舒缓，副歌段落爆发。镜头在粒子场中穿越，随节奏加速。10 秒。霓虹色调，电影感辉光。"

音频驱动模式里最大的坑：只上传音频不写画面描述。音频只控制节奏，不控制画面——你得告诉模型观众到底在看什么。

场景速查 Prompt

下面几个场景的 Prompt 可以直接拿来改。它们经过了多轮测试，覆盖了最常见的视频类型。

产品展示： "电影级商业视频：黑暗中漂浮的一只奢侈品手表。缓慢 360° 旋转展示每一个细节——金属表带在轮廓光下闪烁，水晶表盘反射柔和的主光。微距镜头，极特写，画面上除了手表没有任何东西。5 秒。商业产品摄影画质，全程锐利对焦。"

角色出场： "电影级角色出场：雨夜，路灯下站着一位穿长风衣的神秘人物。角色缓慢抬头——镜头从全景推至中景，持续 5 秒，面部细节逐渐浮现。雨滴以慢动作落下，每滴都捕获琥珀色的路灯光。10 秒。黑色电影美学。"

风光旅行： "航拍定场镜头：黎明时分的海滨村庄醒来。镜头缓慢飞越陶土屋顶向港口——渔船轻轻摇晃，晨雾笼罩山丘，温暖的金色光芒铺满场景。无缝连贯的无人机镜头。10 秒。自然纪录片画质，鲜艳但自然的色彩。"

动作序列： "动态动作：一名跑酷运动员在日落时分的屋顶上奔跑。快速、敏捷的运动——镜头从后方跟拍，然后绕到侧面捕捉运动员飞跃楼间距的瞬间。快切与变速剪辑匹配运动节奏。5 秒。高能量运动摄影。"

Prompt 测试流程

写好了 Prompt，别直接上高分辨率渲染。先跑一轮低成本测试。

这是我能给你的最重要建议：在 Seedance 2.0 上，好 Prompt 不是写出来的，是调出来的。

测试循环

写一个基线 Prompt——用上面的公式
用 5 秒 720p 生成——成本最低、速度最快
从三个维度评分： 运动质量（1-5）、主体准确度（1-5）、镜头执行（1-5）
只调最弱的那个维度——一次只改一个变量
重新生成、重新评分——看调整有没有改善
循环直到三个维度都到 4 分以上
换成目标分辨率渲染最终版

Rule of Thumb

每 1 分钟最终视频，预留 15-20 分钟的 720p 测试时间。 这个比例在大多数场景下都适用。如果你测试时间远低于这个数，说明你在盲跑。如果远高于这个数，检查自己是不是每次改太多变量了。

测试时要记一个简单日志：每次生成的 Prompt、三个评分、改了哪个变量。10-15 条测试记录之后，规律就会浮现出来——哪个类型的运动描述效果最稳定、哪种镜头语言在特定模式下表现更好。

高手也会踩的坑

以下问题不是新手才会犯——经验丰富的用户也会在不注意的时候翻车。

坑一：用文字描述图片已经展示的内容

症状： 上传了一张参考图，然后在文字 Prompt 里把画面又描述了一遍——"这个人穿着红衣服、站在海边、背景是夕阳"。

根源： 你还停留在"文字负责全部描述"的旧习惯里。Seedance 2.0 直接分析参考图，文字里重复描述图片内容除了浪费字数，没有任何价值。

解决方案： 写 Prompt 之前问自己："我的参考素材里缺什么？" 只写那个。

坑二：模式定位写太长

症状： 模式定位部分写两三个句子，以为这样模型更能理解你的意图。

根源： 模式定位不是"向模型解释任务"，它是一个开关信号——越短越清晰。一句话就够了。

解决方案： "电影级文生视频："这一行就够了。不需要解释什么叫文生视频。

坑三：用抽象词描述运动

症状： 写 "动态运动"、"有趣的镜头"、"好的节奏" 这种词，出来的画面平平无奇。

根源： 抽象词在不同生成里被模型解读的方式不同，每次结果都不一样。今天"动态"是快切，明天"动态"是横摇。

解决方案： 把每一个抽象词换成具体描述。不要写"动态"，写"主体转身时镜头快速推近"。不要写"有趣"，写"俯拍吊臂下降到视线高度"。

坑四：不写时长

症状： 写了一段详细的动作序列，但没写时长，或者改了时长设置没改 Prompt 里的运动描述。

根源： 时长控制模型怎么分配运动速度。一段 10 秒缓慢揭示的动作，放在 5 秒时长相下会显得匆忙；一段 5 秒的快切，放在 10 秒里会拖成慢动作。

解决方案： 每次在 Prompt 里写明时长，并且和生成设置保持一致。"一个 10 秒的缓慢揭示"和"5 秒快速推进"——是什么就写什么。

坑五：音频驱动模式只传音频不写画面

症状： 上传了音频，Prompt 只写了"视频与音频同步"或者完全没写画面内容。

根源： 以为音频驱动模式下文字不重要了。实际上音频控制的是节奏和情绪，画面内容仍然需要文字来定义。

解决方案： 永远在音频驱动模式里写清楚画面内容。音频控节奏，文字控画面。

资源管理：不要浪费生成配额

AI 视频生成不是免费的。一条 10 秒 1080p 视频的生成成本是 5 秒 720p 的 5-10 倍。

省配额的三个原则：

永远从 5 秒 720p 开始。 这是探索阶段的分辨率。最终出片才用高分辨率。
一次只改一个变量。 同时改模式、主体、镜头和时长——哪怕出来了你想要的效果，你也不知道是哪个改动起了作用。
保持一个评分日志。 每条测试记录下 Prompt、三个维度的评分和改了什么。10-15 条之后就能看出模式化的效果规律。

什么时候用高分辨率渲染？ 只有测试循环确认三个维度都在 720p 下达到 4 分以上之后。720p 下不好的 Prompt，1080p 下也不会好——分辨率不能弥补糟糕的运动描述和模糊的镜头指令。

总结

Seedance 2.0 的 Prompt 不靠运气，靠结构。

完整的工作流就这几步：选对模式 → 套公式写 Prompt → 适配模板 → 低成本测试 → 逐维迭代 → 确认后出片。

但结构本身不保证质量。真正拉开差距的是测试习惯——每次只改一个维度、记评分、看趋势。好 Prompt 不是一次写成的，是一轮一轮测出来的。

你现在就能做一个最有效的改变：下一次 Seedance 2.0 生成失败之后，别重写整个 Prompt。找出五个公式元素里哪个最弱，只改那一个，重新生成。一轮测试之内，你就能看到区别。

去 seedance2pro.io 试试你的第一条 Prompt。建议从 5 秒 720p 开始，用上上面的公式——先看看结构化的 Prompt 能出什么效果，再决定要不要上高分辨率。完整的 Seedance 2.0 功能参考见 Seedance 2.0 完整指南。

常见问题

Seedance 2.0 的 Prompt 写多长合适？

大部分模式下 50-120 字效果最好。少于 30 字，模型对运动和镜头没有足够依据，只能猜。超过 150 字，模型的有效注意力跟不上细节。

传了参考图，文字里还需要描述画面吗？

不需要。Seedance 2.0 直接读参考图，你不需要再写一遍图上已经有的内容。文字只管运动、镜头和节奏——这些才是图片没有的信息。把参考图的画面又写一遍，等于浪费 Prompt 空间。

同一个 Prompt 能在不同模式之间复用吗？

部分可以。主体和风格描述可以迁移，但运动指令和镜头方向一般需要按模式调整。文生视频的 Prompt 直接用在图生视频上效果会打折扣——因为图生视频不需要再描述视觉基础了。

想做出电影质感，怎么写？

包含具体镜头语言（景别、焦段、运动）、光线描述和风格参考（胶片类型、调色方向）的 Prompt，稳定性能达到更电影感的效果。只写"电影感"三个字不够——哪个维度的电影感？暖调还是冷调？胶片颗粒还是干净数字？这些细节缺一不可。

怎么让角色在不同的视频里保持长相一致？

用参考生视频模式，绑定一张角色参考图。然后在每次生成的 Prompt 里保持角色描述一致，但改变动作、环境和镜头——这样同一个角色可以出现在不同的场景中，长相不漂移。

一个场景大概要测多少次才能出能用的结果？

从基线 Prompt 起步，一般一个场景需要 3-5 轮迭代。如果涉及复杂的运动或镜头，可能要 8-12 轮才能三个维度都到 4 分以上。别嫌多——这个投入比直接上高分辨率赌运气划算得多。

全部文章

订阅简报

加入我们的社区

订阅我们的简报，获取最新动态与资讯