Seedance 2.0 Prompt 完全指南:2026年最新提示词模板、技巧与实战经验
掌握 Seedance 2.0 提示词——从基础文本和图生视频 Prompt、电影级首尾帧、参考生视频到音频驱动 Prompt。含已验证模板、各模式专属策略和跨模式通用的 Prompt 公式。
你有没有遇到过这种情况:给 Seedance 2.0 上传了一张参考图,写了一段看起来没问题的 Prompt,点生成——然后出来的东西跟想的完全不一样。主体变形、运动僵硬、镜头乱晃。
这不是你运气不好,是 Prompt 没写对。
2026 年的 AI 视频模型已经能生成 10 秒连贯画面,保持角色一致,做到电影级布光。但前提是——你的 Prompt 得说对话。好 Prompt 和坏 Prompt 的区别,就是一条能用的视频和白白浪费一次生成配额的区别。
我在 Seedance 2.0 五个模式下攒了 300 多条 Prompt 的测试记录,每个模式都跑过评分和迭代。这篇文章就是这些经验的浓缩。读完之后你会知道:每种模式到底怎么写 Prompt、什么该写什么不该写、遇到失败怎么调。
为什么 2026 年的 Prompt 和以前不一样
前几年的 AI 视频模型基本是文字到视频的单通道——你写什么,它生成什么。Seedance 2.0 不一样:它同时接受文字、图片、视频、音频四种输入,最后把所有这些信息融合成一段视频。
这听起来更方便了,但实际使用中很多人反而更困惑——"我到底该在文字里写什么?需不需要把图片内容也描述一遍?音频和视频怎么搭配?"
答案其实很简单:每种输入各管一摊。文字不要替图片干活,图片不要替视频干活。
这就意味着,你的文字 Prompt 不需要再描述"画面里有什么"——那是参考图的事。文字 Prompt 应该只做参考图做不到的事:描述运动、节奏和镜头。
Seedance 2.0 怎么分配输入任务
先搞清楚每种输入各负责什么,写 Prompt 才不会重复或打架:
| 输入类型 | 在生成中的作用 |
|---|---|
| 文字 Prompt | 控制运动、节奏、镜头和叙事走向 |
| 图片参考 | 锁定画面风格——主体长什么样、构图、色调 |
| 视频参考 | 定义运动风格、动作编排、镜头运动方式 |
| 音频输入 | 控制节奏、速度和情绪起伏 |
| 风格方向 | 全局美学方向——电影感、纪录片、动画 |
记住了:文字 Prompt 的价值不在于描述画面,而在于描述画面怎么动。 上一张参考图已经告诉模型"画什么"了,文字 Prompt 告诉它"怎么动"。
反过来,如果你只写文字不传参考图,那文字就得什么都包——主体、环境、光线、构图、运动、镜头,缺哪个模型就瞎猜哪个。
第一步:先选对模式,再动笔写
很多人上手就写 Prompt,写完了才发现模式选错了——这是最常见的弯路。选对了模式,Prompt 事半功倍。
| 你想要的效果 | 用这个模式 | 原因 |
|---|---|---|
| 凭空写一段描述生成视频 | 文生视频 | 不需要参考素材,全靠文字驱动 |
| 把一张现有的图变成视频 | 图生视频 | 图片提供视觉基础,文字只补运动 |
| 从起始画面过渡到结束画面 | 首尾帧 | 模型在两张图之间自动做中间过渡 |
| 让同一个角色在不同视频里保持一致 | 参考生视频 | 绑定参考图锁定角色特征 |
| 让视频节奏跟着音乐或配音走 | 音频驱动 | 音频控制节奏,文字定义画面内容 |
选模式的判断依据很简单:你手上有什么素材,就用什么模式。 什么素材都没有?文生视频起步。有一张角色图想让它动起来?图生视频。两个关键画面都想好了?首尾帧。
模式选对了,再套下面的公式。
通用 Prompt 公式
这条公式跨所有模式通用。不需要每个槽都填——哪些信息参考图已经提供了,对应的槽就空着。
[模式定位] + [主体与动作] + [运动与节奏] + [镜头语言] + [风格与画质]
模式定位(一句话)
告诉模型这是哪种生成任务,一开篇就定调。
- "电影级文生视频:"
- "静态人像图生视频动画:"
- "首帧到尾帧过渡:"
- "参考图驱动的角色视频:"
这行不用长。一句话就够了——多了反而把指令冲淡。
主体与动作
画面上有什么、在做什么。控制在一个清晰动作内。连续多个动作会让模型不知道重点在哪。
推荐写法: "一位芭蕾舞者在黑暗的舞台上完成一次单次大跳"
不推荐: "一位芭蕾舞者先热身,再转圈,再大跳,再鞠躬"
顺带一提,如果你同时传了一张参考图,这里不需要再描述主体的长相——参考图已经告诉模型了。只说参考图没有的信息。
运动与节奏
这是文字 Prompt 里最重要的部分。参考图和音频都提供不了运动的精确描述,这是文字不可替代的价值。
有效的运动描述:
- "缓慢、沉稳的运动——每一帧都有重量感"
- "快速、动态的运动——快节奏切换"
- "渐进揭示——主体在 3 秒内从阴影中浮现"
- "连续流畅运动——无停顿、无卡顿"
写运动描述的时候,问自己一个问题:这条运动描述放到没有参考图的情况下,能不能让人脑补出画面? 如果能,就写对了。
镜头语言
机位在哪、镜头怎么动。Seedance 2.0 对电影摄影术语响应很好。
常用镜头指令:
- "固定广角镜头,浅景深,背景虚化"
- "从中景到特写的慢速推进,持续 5 秒"
- "俯拍吊臂镜头,下降到视线高度"
- "手持纪实风格,微妙的自然晃动"
风格与画质
视觉美感和技术质量。引用电影风格或胶片类型比抽象词有效得多。
- "35mm 胶片感,自然颗粒,暖色调色"
- "商业大片数字感,锐利清晰,产品布光"
- "纪录片风格,自然光,真实色彩"
- "赛博朋克霓虹色调,冷紫搭配荧光蓝"
一句经验:"电影感"三个字不够。 具体说你想要哪种电影感——胶片颗粒还是干净数字?暖调还是冷调?这些细节才能真正锁定风格。
各模式模板与实战示例
公式搭好了骨架,模板帮你把血肉填进去。
文生视频
[模式定位] [主体]在[环境]中[执行动作]。[运动描述——速度、质感、方向]。[镜头调度——景别、运动]。[光线描述]。[时长]。[风格+画质]。已验证示例: "电影级文生视频:一位孤独的天文学家在山顶天文台透过巨大望远镜观测。缓慢、沉思的运动——望远镜追踪星空,星光透过穹顶开口缓缓移动。天文台内部固定广角,暖琥珀色仪器灯光映衬深蓝夜空。10 秒。胶片质感,丰富阴影,24fps。"
注意这个例子里的运动描述——它没有说"望远镜慢慢动",而是具体写了"望远镜追踪星空,星光透过穹顶开口缓缓移动"。这种具体化运动描述是文生视频模式里最值得花字数的部分。
图生视频
基于提供的图片:[描述图片里没有的运动]。[镜头行为]。[哪些保持静止、哪些运动]。[时长+画质]。常见错误:花大段描述图片里已有的东西,比如"一个人站在海边,穿红色衣服,背景是夕阳"。这些信息参考图已经给了。你应该写的是:"海面开始起伏,浪花翻卷,人物头发被风吹动,衣摆缓缓飘扬。"
已验证示例: "基于提供的肖像照:表情微妙变化——眼角微微皱起,嘴角浮现一丝笑意。镜头固定,浅景深保持面部清晰,背景柔和虚化。面部和头发保持自然——不变形、不扭曲。5 秒。电影级人像画质。"
首尾帧
从[起始帧描述]过渡到[结束帧描述]。镜头[描述帧间镜头路径]。运动是[速度+质感]。[必须保持一致的元素]。[时长+画质]。已验证示例: "从主角站在悬崖边日出时的画面过渡到主角沿悬崖小路走远、背向镜头的画面。镜头在过渡期间固定——无摇移、无变焦。运动缓慢而沉稳——5 秒完成从起始到结束帧的移动。主体身份和服装保持完全一致。10 秒。电影感光影,金色时刻贯穿始终。"
首尾帧模式里最容易翻车的地方是"保持一致的元素"没写清楚——角色服装变了、环境色调跳了。这一行不是可选项,是必填项。
参考生视频
使用绑定的参考图:[主体参考]在[环境参考]中执行[动作],风格化为[风格参考]。[运动模式]。[镜头]。[画质]。已验证示例: "使用绑定的参考图:角色在深夜雨中的东京小巷行走,新黑色电影风格。稳定步频——镜头侧面跟拍,速度匹配,浅景深保持角色清晰,背景霓虹光晕虚化。10 秒。变形宽银幕镜头质感,深邃对比,胶片颗粒。"
音频驱动
视频与提供的音频同步:[描述视觉内容]。运动跟随[音频特征——节拍、节奏、情绪、渐强]。[镜头行为匹配音频能量]。[风格]。已验证示例: "视频与提供的音频同步:声音的抽象可视化——光的粒子随节拍脉动和流动。运动强度跟随音频动态——主歌部分舒缓,副歌段落爆发。镜头在粒子场中穿越,随节奏加速。10 秒。霓虹色调,电影感辉光。"
音频驱动模式里最大的坑:只上传音频不写画面描述。音频只控制节奏,不控制画面——你得告诉模型观众到底在看什么。
场景速查 Prompt
下面几个场景的 Prompt 可以直接拿来改。它们经过了多轮测试,覆盖了最常见的视频类型。
产品展示: "电影级商业视频:黑暗中漂浮的一只奢侈品手表。缓慢 360° 旋转展示每一个细节——金属表带在轮廓光下闪烁,水晶表盘反射柔和的主光。微距镜头,极特写,画面上除了手表没有任何东西。5 秒。商业产品摄影画质,全程锐利对焦。"
角色出场: "电影级角色出场:雨夜,路灯下站着一位穿长风衣的神秘人物。角色缓慢抬头——镜头从全景推至中景,持续 5 秒,面部细节逐渐浮现。雨滴以慢动作落下,每滴都捕获琥珀色的路灯光。10 秒。黑色电影美学。"
风光旅行: "航拍定场镜头:黎明时分的海滨村庄醒来。镜头缓慢飞越陶土屋顶向港口——渔船轻轻摇晃,晨雾笼罩山丘,温暖的金色光芒铺满场景。无缝连贯的无人机镜头。10 秒。自然纪录片画质,鲜艳但自然的色彩。"
动作序列: "动态动作:一名跑酷运动员在日落时分的屋顶上奔跑。快速、敏捷的运动——镜头从后方跟拍,然后绕到侧面捕捉运动员飞跃楼间距的瞬间。快切与变速剪辑匹配运动节奏。5 秒。高能量运动摄影。"
Prompt 测试流程
写好了 Prompt,别直接上高分辨率渲染。先跑一轮低成本测试。
这是我能给你的最重要建议:在 Seedance 2.0 上,好 Prompt 不是写出来的,是调出来的。
测试循环
- 写一个基线 Prompt——用上面的公式
- 用 5 秒 720p 生成——成本最低、速度最快
- 从三个维度评分: 运动质量(1-5)、主体准确度(1-5)、镜头执行(1-5)
- 只调最弱的那个维度——一次只改一个变量
- 重新生成、重新评分——看调整有没有改善
- 循环直到三个维度都到 4 分以上
- 换成目标分辨率渲染最终版
Rule of Thumb
每 1 分钟最终视频,预留 15-20 分钟的 720p 测试时间。 这个比例在大多数场景下都适用。如果你测试时间远低于这个数,说明你在盲跑。如果远高于这个数,检查自己是不是每次改太多变量了。
测试时要记一个简单日志:每次生成的 Prompt、三个评分、改了哪个变量。10-15 条测试记录之后,规律就会浮现出来——哪个类型的运动描述效果最稳定、哪种镜头语言在特定模式下表现更好。
高手也会踩的坑
以下问题不是新手才会犯——经验丰富的用户也会在不注意的时候翻车。
坑一:用文字描述图片已经展示的内容
症状: 上传了一张参考图,然后在文字 Prompt 里把画面又描述了一遍——"这个人穿着红衣服、站在海边、背景是夕阳"。
根源: 你还停留在"文字负责全部描述"的旧习惯里。Seedance 2.0 直接分析参考图,文字里重复描述图片内容除了浪费字数,没有任何价值。
解决方案: 写 Prompt 之前问自己:"我的参考素材里缺什么?" 只写那个。
坑二:模式定位写太长
症状: 模式定位部分写两三个句子,以为这样模型更能理解你的意图。
根源: 模式定位不是"向模型解释任务",它是一个开关信号——越短越清晰。一句话就够了。
解决方案: "电影级文生视频:"这一行就够了。不需要解释什么叫文生视频。
坑三:用抽象词描述运动
症状: 写 "动态运动"、"有趣的镜头"、"好的节奏" 这种词,出来的画面平平无奇。
根源: 抽象词在不同生成里被模型解读的方式不同,每次结果都不一样。今天"动态"是快切,明天"动态"是横摇。
解决方案: 把每一个抽象词换成具体描述。不要写"动态",写"主体转身时镜头快速推近"。不要写"有趣",写"俯拍吊臂下降到视线高度"。
坑四:不写时长
症状: 写了一段详细的动作序列,但没写时长,或者改了时长设置没改 Prompt 里的运动描述。
根源: 时长控制模型怎么分配运动速度。一段 10 秒缓慢揭示的动作,放在 5 秒时长相下会显得匆忙;一段 5 秒的快切,放在 10 秒里会拖成慢动作。
解决方案: 每次在 Prompt 里写明时长,并且和生成设置保持一致。"一个 10 秒的缓慢揭示"和"5 秒快速推进"——是什么就写什么。
坑五:音频驱动模式只传音频不写画面
症状: 上传了音频,Prompt 只写了"视频与音频同步"或者完全没写画面内容。
根源: 以为音频驱动模式下文字不重要了。实际上音频控制的是节奏和情绪,画面内容仍然需要文字来定义。
解决方案: 永远在音频驱动模式里写清楚画面内容。音频控节奏,文字控画面。
资源管理:不要浪费生成配额
AI 视频生成不是免费的。一条 10 秒 1080p 视频的生成成本是 5 秒 720p 的 5-10 倍。
省配额的三个原则:
- 永远从 5 秒 720p 开始。 这是探索阶段的分辨率。最终出片才用高分辨率。
- 一次只改一个变量。 同时改模式、主体、镜头和时长——哪怕出来了你想要的效果,你也不知道是哪个改动起了作用。
- 保持一个评分日志。 每条测试记录下 Prompt、三个维度的评分和改了什么。10-15 条之后就能看出模式化的效果规律。
什么时候用高分辨率渲染? 只有测试循环确认三个维度都在 720p 下达到 4 分以上之后。720p 下不好的 Prompt,1080p 下也不会好——分辨率不能弥补糟糕的运动描述和模糊的镜头指令。
总结
Seedance 2.0 的 Prompt 不靠运气,靠结构。
完整的工作流就这几步:选对模式 → 套公式写 Prompt → 适配模板 → 低成本测试 → 逐维迭代 → 确认后出片。
但结构本身不保证质量。真正拉开差距的是测试习惯——每次只改一个维度、记评分、看趋势。好 Prompt 不是一次写成的,是一轮一轮测出来的。
你现在就能做一个最有效的改变:下一次 Seedance 2.0 生成失败之后,别重写整个 Prompt。找出五个公式元素里哪个最弱,只改那一个,重新生成。一轮测试之内,你就能看到区别。
去 seedance2pro.io 试试你的第一条 Prompt。建议从 5 秒 720p 开始,用上上面的公式——先看看结构化的 Prompt 能出什么效果,再决定要不要上高分辨率。完整的 Seedance 2.0 功能参考见 Seedance 2.0 完整指南。
常见问题
Seedance 2.0 的 Prompt 写多长合适?
大部分模式下 50-120 字效果最好。少于 30 字,模型对运动和镜头没有足够依据,只能猜。超过 150 字,模型的有效注意力跟不上细节。
传了参考图,文字里还需要描述画面吗?
不需要。Seedance 2.0 直接读参考图,你不需要再写一遍图上已经有的内容。文字只管运动、镜头和节奏——这些才是图片没有的信息。把参考图的画面又写一遍,等于浪费 Prompt 空间。
同一个 Prompt 能在不同模式之间复用吗?
部分可以。主体和风格描述可以迁移,但运动指令和镜头方向一般需要按模式调整。文生视频的 Prompt 直接用在图生视频上效果会打折扣——因为图生视频不需要再描述视觉基础了。
想做出电影质感,怎么写?
包含具体镜头语言(景别、焦段、运动)、光线描述和风格参考(胶片类型、调色方向)的 Prompt,稳定性能达到更电影感的效果。只写"电影感"三个字不够——哪个维度的电影感?暖调还是冷调?胶片颗粒还是干净数字?这些细节缺一不可。
怎么让角色在不同的视频里保持长相一致?
用参考生视频模式,绑定一张角色参考图。然后在每次生成的 Prompt 里保持角色描述一致,但改变动作、环境和镜头——这样同一个角色可以出现在不同的场景中,长相不漂移。
一个场景大概要测多少次才能出能用的结果?
从基线 Prompt 起步,一般一个场景需要 3-5 轮迭代。如果涉及复杂的运动或镜头,可能要 8-12 轮才能三个维度都到 4 分以上。别嫌多——这个投入比直接上高分辨率赌运气划算得多。
更多文章
Seedance 2.0 与 Kling 3.0 深度对比:2026 年 AI 视频工具选型指南
Seedance 2.0 和 Kling 3.0 哪个更适合你?从控制方式、运动质量、音频同步到实际出片效率,用 200 多段实测视频告诉你两种工具的真正区别和选型标准。


Seedance 2.0 完全指南:如何用完全控制创建电影级 AI 视频
了解 Seedance 2.0 的一切,这是一款突破性的 AI 视频生成工具,允许使用图像、视频、音频和文本进行真正的多模态控制。
Seedance 2.0 API 接入完全指南:Key 申请、定价策略与集成实战
一篇讲透 Seedance 2.0 API 怎么接——Key 从哪拿、各模式到底多少钱、不同场景选哪种集成方式、实际跑通的代码示例。
订阅简报
加入我们的社区
订阅我们的简报,获取最新动态与资讯