Seedance 2.0 プロンプト完全ガイド:最適なプロンプト術、テンプレート、2026年版コツ
Seedance 2.0のプロンプトを極める——テキスト・画像プロンプトの基本から、ファースト/ラストフレーム、参照動画、音声駆動モードまで。テスト済みテンプレート、モード別戦略、全モードで使える再利用可能なプロンプト公式を網羅。
Seedance 2.0に参照画像をアップロードし、それらしいテキストプロンプトを書き、生成ボタンを押す——ところが結果はめちゃくちゃ。被写体は形を変え、動きは不自然で、カメラは頼んでもいない動きをする。
これこそが2026年のAI動画ツールに寄せられる最も一般的な不満であり、その原因はほとんどの場合、モデルではなくプロンプトにある。
Seedance 2.0は、テキストのみの動画モデルとは決定的に異なる。画像、動画、音声、テキスト——これらすべてを受け入れ、それらを統合して動画を生成するため、プロンプトの役割が根本的に変わる。テキストプロンプトはもはや「すべてを説明する」必要はない。他の入力が提供できない情報だけを書けばよい。出力の品質は、このシフトをいかに理解し、それに合わせてプロンプトを書くかにかかっている。
本ガイドは、Seedance 2.0の全モードで数百におよぶプロンプトをテストした経験に基づき、体系的なプロンプト手法を提供する。検証済みのテンプレート、モード別の戦略、そしてどのような動画を作る場合でも機能する再利用可能な公式を紹介する。これを読めば、Seedance 2.0で一貫した高品質な結果を得るために、何をプロンプトに書き、何を書かないべきかが正確にわかる。
2026年、プロンプトがより重要になった理由
AI動画モデルは今年、新たな品質レベルに到達した。Seedance 2.0は、一貫した動きとキャラクター、映画的な照明を備えた10秒のクリップを生成できる。ただし、それはプロンプトがモデルに正確に指示を出せた場合に限る。2026年において、良いプロンプトと悪いプロンプトの差は、使えるクリップと生成クレジットの無駄遣いを分ける。
本ガイドのテクニックが機能する理由は、旧来のモデルではなく、Seedance 2.0が実際にプロンプトを処理する仕組みに合わせて設計されているからだ。その違いを理解することが、安定した結果への第一歩である。
Seedance 2.0のプロンプト解釈の仕組み
Seedance 2.0は、テキストのみの動画モデルとは異なる方法でプロンプトを処理する。複数の入力タイプを受け入れるため、テキストプロンプトの役割は次のように変わる:
| 入力タイプ | 生成における役割 |
|---|---|
| テキストプロンプト | 動き、タイミング、カメラワーク、映像の意図を指示する |
| 画像参照 | ビジュアル情報——被写体、スタイル、構図——を固定する |
| 動画参照 | 動きのスタイル、振付、カメラの動きを定義する |
| 音声入力 | リズム、テンポ、ムードの調整を駆動する |
| スタイル指示 | 全体の美的方向性——映画的、ドキュメンタリー風、アニメ調 |
最も重要なポイント: Seedance 2.0では、テキストプロンプトは他の入力が提供できないもの——動き、タイミング、映像の流れ——に集中すべきだ。参照画像にすでに写っているものをプロンプトで説明するのは無駄である。
各入力の役割を理解したら、次に問うべきは「自分の目的に対してどの入力の組み合わせを使うべきか」だ。
モードの選び方:クイック判断フレームワーク
これは最もよくある混乱の種だ。ユーザーは適切な入力モードを選ばずに生成を始め、結果が意図と合わない理由がわからない。
| 目的 | 使うモード | 理由 |
|---|---|---|
| 文章のアイデアから動画を作る | Text-to-Video | 参照不要。テキストがすべてを担う |
| 特定の画像を動かす | Image-to-Video | 画像がビジュアルベースを提供。プロンプトが動きを加える |
| 2つのキーフレームをつなぐ | First/Last Frame | 開始画像と終了画像の間をモデルが補間する |
| キャラクターやスタイルを一貫させる | Reference-to-Video | バウンド参照が生成間で同一性を固定する |
| 動画のリズムを音楽や声に合わせる | Audio-Driven | 音声がテンポを駆動。プロンプトは見た目を定義する |
アイデアしかない状態から始めるなら、Text-to-Videoが第一選択だ。特定のキャラクターやシーンを動かしたいなら、質の高い参照画像とともにImage-to-Videoを使う。間違ったモードで始めると、最初の数回の生成を「正しいモードを見つける探索」に費やすことになる。
モードを選んだら、次に紹介する再利用可能なプロンプト公式を使って、どのモードでも一貫した構造でテキストプロンプトを組み立てられる。
Seedance 2.0 プロンプト公式
この公式は全モードで機能する。該当するスロットを埋め、該当しないものは空のままでよい。
[モードコンテキスト] + [被写体 + 動作] + [動き & タイミング] + [カメラワーク] + [スタイル & クオリティ]
モードコンテキスト(1文)
モデルにこれがどのタイプの生成かを伝える。これにより、プロンプトの残りの部分をどう解釈すべきかの期待値が設定される。
- 「シネマティックなテキスト-to-動画生成:」
- 「ポートレート静止画からのImage-to-Videoアニメーション:」
- 「ファーストフレームからラストフレームへのトランジション:」
- 「参照駆動型キャラクター動画:」
被写体 + 動作
フレーム内に何があり、それが何をするか。動作は1つに絞る。複数の連続動作はモデルを混乱させる。
良い例: 「バレエダンサーが暗い舞台でひとつのグランジュテを披露する」
悪い例: 「バレエダンサーがウォームアップし、ピルエットをし、グランジュテをし、お辞儀をする」
動き & タイミング
物事がどのように、どのようなペースで動くか。これはSeedance 2.0にとって最も重要なテキスト入力である。
効果的な動きの語彙:
- 「ゆっくりとした意図的な動き——1カットごとに重みがある」
- 「速いテンポのダイナミックな動き——リズミカルなクイックカット」
- 「徐々に明らかになる——被写体が影から3秒かけて現れる」
- 「途切れのない流れるような動き——停止やカクつきなし」
カメラワーク
カメラの位置とその動き方。Seedance 2.0は映画的なカメラ言語に敏感に反応する。
例:
- 「固定ワイドショット、浅い被写界深度」
- 「5秒かけてミディアムからクローズアップへのスロープッシュイン」
- 「頭上からのクレーンショット、アイレベルまで降下」
- 「ハンディベリテ風、有機的な微かな揺れ」
スタイル & クオリティ
映像の美的方向性と技術的品質。映画スタイルやフィルムストックを参照すると効果的。
- 「35mmフィルムルック、自然なグレイン、暖色系カラーグレード」
- 「クリーンなデジタル、シャープ、商品撮影用スタジオ照明」
- 「ドキュメンタリースタイル、自然光、リアルな色彩」
モード別プロンプトテンプレート
上記の公式は、各生成モードに合わせて次のように適用される。
Text-to-Video テンプレート
[モードコンテキスト] [被写体] が [環境] で [動作] をする。[動きの説明——速度、質、方向]。[カメラワーク——ショットタイプ、動き]。[照明]。[尺——5秒または10秒]。[スタイル+クオリティ]。テスト済みサンプル: 「シネマティックなテキスト-to-動画生成:山の天文台で、ひとりの天文学者が巨大な望遠鏡をのぞき込む。ゆっくりとした瞑想的な動き——望遠鏡が空を追跡し、ドームの開口部から星明かりが差し込む。天文台内部の固定ワイドショット、深い夜の青に対して暖かな琥珀色の機器灯。10秒。フィルムルック、豊かな陰影、24fps。」
Image-to-Video テンプレート
提供された画像を起点として:[画像に見えない動きを説明]。[カメラの振る舞い]。[静止するものと動くもの]。[尺+クオリティ]。テスト済みサンプル: 「提供されたポートレートを起点として:表情の微かな変化——目じりがわずかに緩み、微笑みの気配が浮かぶ。カメラは固定、浅い被写界深度で顔をシャープに保ち、背景はぼんやりと滲む。顔と髪は自然なまま——モーフィングや歪みなし。5秒。シネマティックポートレート品質。」
First/Last Frame テンプレート
[開始フレームの説明] から [終了フレームの説明] へのトランジション。カメラは [フレーム間のカメラパス]。[動きは 速度+質]。[一貫して保つべきもの]。[尺+クオリティ]。テスト済みサンプル: 「日の出の崖っぷちに立つ被写体から、崖沿いの小道をカメラから遠ざかる被写体へのトランジション。カメラはトランジション中固定——パンもズームもなし。動きはゆっくりと意図的——開始から終了フレームまで5秒。被写体のアイデンティティと服装は完全に一貫。10秒。シネマティック、ゴールデンアワーの光が持続。」
Reference-to-Video テンプレート
バウンド参照を使用:[被写体参照] が [環境参照] で [動作] を実行。[スタイル参照] でスタイリング。[動きパターン]。[カメラ]。[クオリティ]。テスト済みサンプル: 「バウンド参照を使用:キャラクターが雨に濡れた新宿の路地を夜に歩く、ネオノワールシネマのスタイルで。安定した歩行ペース——カメラは同じ速度で横から追従、浅い被写界深度でキャラクターをシャープに、柔らかいネオンのボケを背景に。10秒。アナモルフィックレンズルック、深いコントラスト、フィルムグレイン。」
Audio-Driven テンプレート
提供された音声に同期した動画:[映像内容を説明]。動きは [音声の特徴——ビート、リズム、ムード、クレッシェンド] に追従。[音声のエネルギーに合わせたカメラの振る舞い]。[スタイル]。テスト済みサンプル: 「提供された音声トラックに同期した動画:音の抽象的な可視化——光の粒子がビートに合わせて脈動し流れる。動きの強度は音声のダイナミクスに追従——静かなヴァースでは穏やかに、ドロップでは爆発的に。カメラは粒子フィールドの中を浮遊し、テンポとともに加速。10秒。ネオンカラーパレット、シネマティックな輝き。」
プロンプトテストフレームワーク
テンプレートを書いたら、フル品質でレンダリングする前にプロンプトを体系的にテストする。この低コストのサイクルこそが、Seedance 2.0のスキルを構築する上で最も重要なツールである。
- ベースラインプロンプトを書く —— 上記の公式またはテンプレートを使用
- 5秒・720pで生成する —— 最も安価で最速
- 3つの軸で評価する: 動きの質(1–5)、被写体の正確さ(1–5)、カメラワーク(1–5)
- 最も弱い軸だけを調整する —— 1回のイテレーションで変更するのは1つだけ
- 再生成して再評価する —— 調整がスコアを改善したか確認
- 繰り返す —— 3軸すべてが4以上になるまで
- 最終レンダリング —— 目標の解像度と尺で出力
このフレームワークは、プロンプトエンジニアリングを「当て推量」から「測定可能なプロセス」に変える。結果を改善する最速の方法は、自分の最も弱い軸を見極め、次の生成ではその1つだけを修正することだ。複数の要素を同時に変えると、何が効いたのかがわからなくなる。
公式とテストサイクルが身についたら、以下によくあるシナリオ別のすぐ使えるプロンプトを紹介する。
ユースケース別ベストプロンプト
商品紹介
「シネマティックな商品動画:暗闇に浮かぶ高級腕時計。スローな360度回転が細部を映し出す——金属バンドがエッジにリムライトを受け、クリスタルフェイスが柔らかなキーライトを反射する。マクロレンズ、極端なクローズアップ、フレーム内には時計のみ。5秒。商品撮影品質、全編シャープフォーカス。」
キャラクター紹介
「シネマティックなキャラクター紹介:雨の中、街灯の下に立つロングコートの神秘的な人物。人物がゆっくりと光の方へ顔を上げる——カメラはワイドショットから5秒かけてミディアムクローズアップにプッシュインし、顔の細部が徐々に明らかになる。雨がスローモーションで落ち、一粒一粒が琥珀色の灯りを捉える。10秒。フィルムノワール美学。」
風景・旅行
「空からのエスタブリッシングショット:夜明けに目覚める海岸沿いの村。カメラがテラコッタの屋根の上を港に向かって低速で飛行する——漁船が優しく揺れ、朝霧が丘にまとわりつき、暖かな黄金の光がシーン全体に広がる。途切れのない連続的なドローンショット。10秒。自然ドキュメンタリー品質、鮮やかながら自然な色彩。」
アクションシーン
「ダイナミックなアクション:パルクールのアスリートが夕日の中を屋上で走る。速く運動的な動き——カメラが背後から追跡し、ビルの隙間を跳び越える際にサイドプロフィールに回り込む。クイックカットとスピードランプが動きのリズムに同調。5秒。ハイエナジースポーツ映像。」
上級者が陥るプロンプトの落とし穴(とその対処法)
良いテンプレートを使っていても、特定のパターンは一貫して失敗を引き起こす。これらは初心者のミスではない——経験者が陥る罠であり、静かに生成を台無しにする。各落とし穴は同じ構造で示す:シナリオ、根本原因、そして解決策。
落とし穴1:動きではなく画像を説明してしまう
シナリオ: 参照画像をアップロードした後、画像にすでに写っているもの——被写体の外見、背景、照明——をテキストプロンプトで説明してしまう。
根本原因: テキストプロンプトを動画の完全な説明として扱っている。しかし画像がすでにほとんどのビジュアル情報を提供している。テキストプロンプトが書くべきは、画像に「ない」ものだけである。
解決策: プロンプトを書く前に自問せよ:「私の参照素材は何をまだ示していないか?」それだけを書く。
落とし穴2:モードコンテキストを過剰に書く
シナリオ: モードコンテキストが3〜4文に及び、モデルに段階的に何をしてほしいかを説明している。
根本原因: モードコンテキストが生成プロセスをモデルに説明するものだと思い込んでいる。実際にはモードコンテキストは、モデルがプロンプトをどう解釈するかを指示する「フラグ」であり、1文に保つことでシグナルの強度が維持される。複数文にすると、その指示が通常のコンテンツの中に埋もれてしまう。
解決策: 「シネマティックなテキスト-to-動画生成:」で十分だ。「テキスト-to-動画とは何か」を説明する必要はない。
落とし穴3:抽象的な動きの表現
シナリオ: 「ダイナミックな動き」「面白いカメラワーク」「良いテンポ」のようなフレーズをプロンプトに使い、ありきたりで退屈な結果を得る。
根本原因: 抽象的な言葉は具体的な動作指示に変換されない。モデルは汎用的な形容詞を生成のたびに異なる形で解釈し、一貫性のない出力を生む。
解決策: すべての抽象的な動きの表現を具体的な説明に置き換える。「ダイナミック」→「被写体が振り返るのに合わせて速いプッシュイン」。「面白い」→「頭上クレーンがアイレベルに降下」。
落とし穴4:プロンプトで尺を考慮しない
シナリオ: 詳細なモーションシーケンスを書いたが尺はデフォルトのまま。あるいは尺の設定を変えたのに動きの説明を調整していない。
根本原因: 尺はモデルが動きをどうペーシングするかを制御する。10秒のスローリビールを想定したプロンプトは5秒では急ぎ足に見え、5秒のクイックカットを想定したものは10秒では間延びする。モデルは設定された尺に合わせて動きのペースを調整する。
解決策: 尺の設定に合った時間の手がかりを必ずプロンプトに含める。「5秒でカメラが素早くプッシュイン」あるいは「シーン全体をゆっくり10秒かけて見せる」。
落とし穴5:音声に視覚的な方向性がない
シナリオ: Audio-Drivenモード用に音声をアップロードしたが、画面に何を映すべきかを説明していない。
根本原因: Audio-Drivenモードはアップロードされた音声をリズムとムードに使うが、それでも視覚的な方向性は必要である。それがなければ、モデルは抽象的で使い物にならない結果を生成する。
解決策: 音声には必ず明確なビジュアル説明を組み合わせる。音声はテンポに影響を与え、プロンプトが視聴者の実際に見るものを定義する。
コスト管理と効率的なテスト
プロンプトの品質に加えて、生成コストとクレジットの管理はSeedance 2.0をプロフェッショナルに使いこなす上で欠かせない。AI動画生成は無料ではない——各生成は計算時間とクレジットを消費し、コストは解像度と尺によって大きく異なる。
コスト意識は生成を始める前から持つべきだ。 ひとつの10秒・1080p生成は、5秒・720pのテストレンダリングの5〜10倍のコストがかかる。低解像度で先にテストすることは、単に速いだけでなく、圧倒的に安い。
クレジットを無駄にしないテスト方法
- 必ず5秒・720pから始める。 これが探索用の解像度だ。高解像度は最終レンダリングのみに取っておく。
- 1生成につき1変数だけ変える。 モード、被写体、カメラ、尺を同時に変えても、結果から何も学べない。
- 評価ログをつける。 テスト生成ごとに、プロンプト、3つのスコア(動き、精度、カメラ)、変更点を記録する。10〜15回テストを記録すると、パターンが見えてくる。
フル品質でレンダリングするタイミング
1080pでのレンダリングは、テストサイクルで3軸すべてが720pで4以上のスコアを確認した後にのみ行う。720pで悪いプロンプトは1080pでも悪い——解像度は、弱い動きの説明や曖昧なカメラワークを修正しない。
経験則
最終動画1分ごとに、720pでのテストに15〜20分を割り当てよ。 この比率はほとんどのユースケースで成立する。テストに費やす時間がこれより大幅に少ないなら、目をつぶって生成していることになる。大幅に多いなら、1回のテストイテレーションで変更する変数が多すぎないか見直すこと。
プロンプトクイックリファレンス
以下のプロンプトスターターを保存し、次の生成に活用してほしい:
シネマティック: 「シネマティックショット:[被写体] が [環境] で。[カメラの動き]。[照明の説明]。[尺]。24fps、フィルムグレイン、豊かなコントラスト。」
コマーシャル: 「商品動画:[商品] が [背景] の上に。スローな [カメラの動き]。スタジオ照明、シャープフォーカス。[尺]。クリーンで洗練された仕上がり。」
ドキュメンタリー: 「ドキュメンタリースタイル:[被写体] が [実際の環境] で [動作]。ハンディカメラ、自然光、自然な色彩。[尺]。ベリテ風。」
ソーシャルメディア: 「縦型ソーシャル動画:[被写体] が [動作]。速いテンポ、ダイナミックな動き。鮮やかな色彩、ハイエナジー。9:16アスペクト比。[尺]。」
まとめ
Seedance 2.0は構造化されたプロンプトに報いる。しかし構造だけでは品質は保証されない。真の成果は、正しい構造と体系的なテスト習慣を組み合わせることで生まれる。
完全なワークフローはこうだ:判断フレームワークを使って適切なモードを選び、5要素の公式でプロンプトを書き、モード別テンプレートで調整し、1イテレーションにつき1つの軸だけを変えながら低コストでテストし、3軸のスコアがプロンプトの有効性を確認したときにのみ最終レンダリングを行う。
今すぐできる最も効果的な変更はこれだ:次にSeedance 2.0の生成が失敗したとき、プロンプト全体を書き直さない。5つの公式要素のうちどれが最も弱かったかを見極め、その1つだけを修正して再生成する。1回のテストサイクルで違いを実感できるだろう。
最初のテスト生成は seedance2pro.io で試してみてほしい。上記の公式を使い、5秒・720pのレンダリングから始めよう——構造化されたプロンプトが何を生み出すかを、フル品質に移る前に確かめてほしい。Seedance 2.0の全機能リファレンスについては、Seedance 2.0 完全ガイド を参照。
よくある質問
Seedance 2.0のプロンプトの長さはどのくらいが適切ですか?
ほとんどのモードで50〜120語が最適です。30語未満では動きやカメラについてモデルが推測するしかなくなります。150語を超えると、モデルがプロンプトの細部を効果的に注意喚起できる範囲を超えることが多いです。
参照画像の内容をテキストプロンプトでも説明する必要がありますか?
いいえ。Seedance 2.0は参照画像を直接解析します。テキストプロンプトは動き、カメラ、タイミング——画像に含まれていない要素——を説明すべきです。画像の再説明はプロンプトの無駄です。
同じプロンプトを異なるモードで使い回せますか?
部分的には可能です。被写体やスタイルの要素は転用できますが、動きとカメラの指示は通常モードごとに調整が必要です。Text-to-Video用のプロンプトは、調整なしではImage-to-Videoモードで期待以下の結果になります。
シネマティックな品質を得るための最適なプロンプトは?
具体的なカメラ言語(ショットタイプ、レンズ、動き)、照明の説明、スタイルの参照(フィルムストック、カラーグレード)を含むプロンプトが、一貫してより映画的な出力を生みます。「シネマティック」という言葉だけでは不十分です。
複数の動画でキャラクターを一貫させるにはどうすればよいですか?
Reference-to-Videoモードを使用し、被写体の参照画像をバインドします。キャラクターの説明はプロンプト間で一貫させ、動作、環境、カメラを変えることで同一キャラクターの異なるショットを作成します。
使える結果を得るまでに、通常どのくらいのテスト生成が必要ですか?
ベースラインプロンプトから始めた場合、1シーンあたり3〜5回のイテレーションが一般的です。特定の動きやカメラワークが必要な複雑なシーンでは、3つの品質軸すべてが4以上のスコアになるまでに8〜12回のイテレーションが必要なこともあります。
著者
ニュースレター
コミュニティに参加しましょう
最新ニュースとアップデートをお届けするニュースレターを購読してください