はじめに

AIで動画制作をする際、こんな問題に直面したことはありませんか？映像は素晴らしいのに、音声は別途制作が必要で、音声トラックの連結や調整に手間がかかり、結局は映像と音声が同期せず、環境音・効果音・人の声がバラバラで、没入感が台無しになってしまう…

現在、「SeaArt UltraVision」が革新的な「映像と音声の同時生成」機能をご提供します：一度の生成で映像も音声も完成。音声、効果音、環境音をすべて自動生成し、リズムや感情表現も自動的に調整され、真の「見たものが聞こえる」体験を実現します。

これから、この素晴らしいモデルで魅力的な動画を簡単に作る方法をご紹介します！

一、「SeaArt UltraVision モデル」がもたらす変革とは？

1、主な機能

● 映像と音声の連携：音声のリズム、環境音と映像の動きが同期し、映像と音声の乖離を防ぎます。

● 高音質：人の声、効果音、環境音をサポートし、よりクリアで豊かな音質を実現。実際のミキシングに近い品質です。

● 意味理解：会話の話し言葉表現や複雑なストーリーを理解し、クリエイターの意図を正確に把握して、より調和のとれた映像と音声を出力します。

➢ 総じて、「SeaArt UltraVision」はテキストや画像を提供するだけで、映像と音声を同時に生成します。吹き替えはワンクリックで完成、効果音も同時に生成され、制作の敷居が下がり、制作時間が大幅に短縮され、プロレベルの効果が手軽に実現できます！

2、二つの効率的な制作パス

#1 テキストから映像・音声を生成：テキストを入力し、音声・効果音・環境音を含む動画を生成

手順：①SeaArt UltraVisionモデルを選択 ②テキストから動画生成を選び、プロンプトを入力 ③パラメータ（長さ、サイズ）を設定

#2 画像から映像・音声を生成：画像/テキストをアップロードし、ワンクリックで音声付き動画を作成。既存の画像を音声付きコンテンツに拡張するのに最適

手順：①SeaArt UltraVisionモデルを選択 ②画像から動画生成を選び、プロンプトと参照画像を入力

二、プロンプト作成ガイドと事例紹介

プロンプトの基本構造：【シーン】+【主体】+【動き】+【音声】+【その他】

（一）基本編

AIモデルに満足のいく動画を作らせるには、あなたの要望を正確に伝えることが最も重要です。このガイドでは「シンプルなものから複雑なものへ」という順序でプロンプトの書き方を説明します。最も簡単な【純粋な環境音】から始め、【音楽動画】、そして【完全なストーリー演出】へと段階的に進み、動画制作の重要なポイントを順を追って習得できるように。

1、環境音による表現：癒し系動物動画から迫力のあるアクションシーンまで

まずは最もハードルが低く、効果がわかりやすい方向から始めましょう：シンプルな映像に、細部にわたる効果音を加えて視聴者を瞬時に没入させるものです。例えば、皿を洗う猫、格闘シーン、工具の打撃音などは、映像はシンプルでも、音と動きが同期していれば素晴らしい動画になります。強力なSeaArt UltraVisionを使えば、様々なスタイルの「映像+効果音」コンテンツを簡単に作成できます。

例えば：

● かわいい系：皿を洗う猫、食事をする犬のASMR、食器の音や咀嚼音が加わり非常に癒されます。

● リアル系：工場の生産ライン、金属を研磨する修理工、路上の調理音など、日常的な映像でも音の細部が充実しています。

● スリリング系：ボクシンググローブの衝突、金属の刀剣の摩擦音、爆発後の破片が地面に転がる音など、爽快なアクションシーンに最適。

● サスペンス・ホラー系：木製階段のきしみ音、廊下の風と足音、ドアの向こうの微かな衝突音など、一気に雰囲気が高まります。

● SF・未来系：エネルギーポッドの低周波ハム音、機械アームのレール音、金属製ハッチがゆっくり折りたたまれる音など、寒色系のSF空間映像に合わせて。

プロンプトのテンプレート：

【シーン】：

一文で「人がどこにいるか + 雰囲気はどうか」を説明

例：深夜の厨房、朝の小さな食堂、荒廃した大地、機内、森の奥深く…

【主体】：

この動画で主に音を出す主役は誰か？

例：シェフ帽をかぶった猫、ボウルをかき混ぜる手、ロボット、森…

【動き】：

主役が「音を出す」どんな動作をしたか？

例：皿をこする、ボウルを叩く、スプーンをなめる、ご飯をかき込む、金属の椅子を踏む…

【音声】：

「すべての音」を二層に分けて書く：

● 近くの動作音：

【物体/素材】+【動作】+【擬音語/音の描写】を明確に

例：

陶磁器がこすられる「シーシー」、ステンレスの台が叩かれる「カンカン」、木が折れる「バキッ」、革が擦れる「サラサラ」

● 環境のバックグラウンドノイズ：

【環境で継続的に鳴っているもの】（弱火の油鍋、遠くの会話、エアコン、換気扇…）

例：

台所の低周波ノイズ、森の虫の鳴き声と風の音、都市の夜の微かな交通音、地下室の空洞の反響、戦場の遠くの爆発の余韻

【カメラワーク】：

視覚的な主役は誰か、「ロングショット/ミディアムショット/クローズショット」で明確に。

例：

プロンプト：

深夜の厨房、冷たい照明、広々とした厨房に調理台とコンロが整然と並び、遠くでシェフが炒め物や野菜を切っている。シンクには泡が立ち、真面目に働く厨房の雰囲気。小さなシェフ帽をかぶった茶白猫が低い椅子に立ち、泡立つ陶器の皿を爪でつかみ、真剣に働いています。猫は皿の上で爪を前後に動かし、水しぶきを叩き、最後に皿の縁を軽く叩き、水滴が飛び散ります。陶器の皿がこすられる音—シーシーシー、水が叩かれる音—ポチャポチャ、皿が叩かれる音—チリン、水滴がシンクに落ちる音—ポタポタ。背景では換気扇が低く唸り、遠くの調理器具が規則的に衝突する音が重なり、金属製厨房特有の室内反響を伴い、カメラは猫とシンクをロングショットで捉え、横で炒め物をするシェフも映します。

プロンプト：

黄昏時の荒廃した戦場、建物は半壊し、遠くには黒煙が立ち上り、空気中には埃と炎が漂い、緊張感と圧迫感のある雰囲気。廃棄された軍用トラックが砂地の中央に停まり、近くには油ドラムと砂袋の破片が積まれ、爆発の主な「主役」となっています。カメラの前で、高性能爆弾が軍用車の底部に命中し、瞬時に燃料タンクに引火、火の玉が空高く上がり、衝撃波で砂袋が吹き飛び、金属片や石が四方に飛び散ります。軍用車の燃料タンクが高性能爆弾に命中して引火—「ドーン！」（低周波の重厚な爆発音）、金属の車体が爆発で引き裂かれる—「バキバキ、ガラガラ！」、破片や弾片が地面に落ちる—「カランカラン、バンバン」（石や金属が砂地や鉄板に当たる音）。遠くの戦場ではまだ断続的に「ゴーゴー」という爆発の余韻が聞こえ、空気中には炎が「ジュージュー」と燃える音が充満し、微かな風の音と広い地形の反響音が加わり、混沌とした戦場の雰囲気を作り出しています。

2、音楽系動画：ラップ、インスト音楽、MVなどを簡単に作成

「映像+効果音」で物語を語ることを学んだ後、次のステップとして多くの人が考えるのは：モデルに完全な音楽動画を作らせ、映像に合った感動的なメロディを創作できないか？という点です。答えはもちろん可能です。強力なSeaArt UltraVisionを使えば、様々なスタイルの音楽動画を簡単に生成できます。

例：

● 歌唱系：少女が優しくラブソングを歌う、少年が悲しくフォークソングを歌うなど

● ストリートラップ系：ラッパーがビートに合わせて口を動かし、リズムと口の動きが完璧に一致

● インスト音楽系：エレクトロニック、ピアノ曲、弦楽曲など

プロンプトテンプレート：

【シーン】

一文で「音楽がどこで鳴るか + 雰囲気はどうか」を説明

例：夜のルーフトップ、バーのステージ、寝室の窓際、地下鉄の通路、コンサートの楽屋…

【主体】

「音を出す人/演奏者」が誰かを明確に：性別/年齢/服装/身分

例：ストリートミュージシャン、バンドのボーカル、練習室の練習生、ストリートラッパー…

【動き】

歌唱/ラップ/演奏時の動作：

例：ギターを抱えて椅子に座る、マイクを両手で持ってステージ中央に立つ、目を閉じて軽く頭を振る、リズムに合わせて肩を動かす、指がキーボードの上を滑る…

【音声】

● 歌唱系（歌詞のある曲）

書き方：「歌詞内容」 + 歌唱スタイル + 伴奏の説明 + 感情

例：

【女性、透明感のある声】優しく歌う：「あなたに出会ったその日から、世界に意味が生まれた…」歌唱スタイルはポップ、伴奏はアコースティックギター、感情は深い愛情と少しの憂いを含む

● ラップ系

書き方：「韻を踏む文」 + リズム/スタイル + 感情

例：

【若いラッパー、低く力強い声】リズムに合わせてラップする：「City lights, long nights, I’m on my grind, no goodbyes.」、Boom Bapスタイル、自信に満ちた少し挑発的な感じ

● インスト音楽系（歌詞なし、雰囲気のみ）

書き方：楽器の種類 + 音楽ジャンル + 感情

例：

音声：ピアノソロ + クラシカル/アンビエント、静かで少し憂いを帯びた、夜の都市風景のBGMに適しい

【カメラワーク】

歌唱/ラップ：顔と上半身にフォーカスしたミディアムクローズアップ、口元や手のジェスチャー、楽器のアップなど適宜入れる

インスト音楽：カメラはゆっくりと前進し、音楽のリズムや感情に合わせてゆっくり移動する。例えば都市の夜景をゆっくり飛行するように撮影したり、窓の外の雨滴から室内の人影へとゆっくりパンするなど

例：

プロンプト：

庭園、夕暮れの柔らかな日差しが芝生と花々を照らし、背景にはぼんやりとした低木と咲き誇るバラの茂みがあります。長い髪の少女が薄い色のワンピースを着て、花々の前に立ち、カメラに向かって優しく歌い、体を左右に軽く揺らし、両手は自然に脇に垂れています。[女性、透明感のある声、ゆったりとしたテンポ]優しく歌う：「When the daylight fades and the stars appear, I still feel your heartbeat, whispering in my ear.」伴奏は柔らかなピアノと軽い弦楽器、感情はロマンチックで静か。カメラは少女の上半身を中近景で捉え、背景は少しぼかして庭園の色彩と光の輝きを残し、全体的に美しく柔らかな、シンプルな英語のラブソングMVのような映像です。

プロンプト：

黄昏時のピアノルーム、夕日が黒と白の鍵盤に差し込みます。若い女の子がピアノの前に座り、スカートが軽く垂れ、指が優しく鍵盤に触れ、表情は静かで集中しています。女の子は座ったまま、両手が軽く上下し、時折窓の外を見つめ、ピアノの下のペダルが軽く踏まれ、リズムは?しています。ピアノソロ、クラシック調、憂いを帯びた感情、繊細な震えを含む優しい音色、室内の微かな木の共鳴を伴います。カメラは女の子とグランドピアノを映し、ゆっくりと彼女の上がった指と滑る鍵盤に近づいていきます。

3、ストーリー系：一人のVlogから複数キャラクターの短いドラマまで

前の2つのセクションで「効果音」と「音楽」を解決したら、次のステップは動画に本格的なストーリーを持たせることです。これはより高い要求を意味します：口の動きがセリフと一致し、動作やジェスチャーが潜在的なメッセージを伝え、声のトーンが繊細な感情の変化を表現する必要があります。SeaArt UltraVisionの強力な理解力と生成能力を活用すれば、プロンプトで明確に：誰が登場し、何が起こり、感情がどう変化するかを説明するだけで、物語性豊かなナラティブシーンを直接生成できます。

ストーリーはシンプルでも構いません：

● 一人語り：旅行Vlog、没入型の食べる配信など

● 複数人の交流：地下鉄駅でのカップルの別れ、給湯室での同僚の対立、カフェでの友人の秘密の交換など…

プロンプトテンプレート：

【シーン】

一文で「人がどこにいるか + 雰囲気はどうか」を説明

例：海辺の桟橋、都市の屋上、寝室の机、オフィスの給湯室、夕暮れのリビングルーム…

【主体】

● 単一キャラクター：

「話す人」がどんな人物設定かを明確に：性別/年齢感/服装/身分

例：旅行インフルエンサー、美容系ユーチューバー、社畜サラリーマン、ツッコミ系クリエイターなど…

● 複数キャラクター：各キャラクターを明記

【キャラクターA：白いシャツを着たサラリーマン】、【キャラクターB：眼鏡をかけた同僚】

彼らの現在の感情・関係を簡単に書く（冗談を言い合っている/喧嘩している/議論している）

【動き】

話しながらの身振り手振り

例：遠くを指さす、コーヒーカップを持つ、体を軽く揺らす、手を上げて身振りを加える、手すりに寄りかかる、両手を腰に当てる、手を広げてため息をつく…

複数キャラクターの場合、それぞれ書くとよい：Aが紙を指さし、Bが腕を組むなど、モデルが誰が動作をしているか理解しやすくなります。

【音声】

キャラクターラベル + 感情 + 話すスピード + 声色 + トリガーワード（言う/笑いながら言う/不満を言うなど）+ セリフの文

● 単一キャラクターの例：

【女の子、甘くて明るい声、自然な速さ】笑いながら言う：「Hey guys, check out this view—sunset vibes are unreal today!」

● 複数キャラクターの例：

【男性の声、抑圧された低い声、中程度の速さ】不満げに言う：「You promised you’d call before making the decision!」

【女性の声、興奮して断固とした調子、やや速い】声を上げて反論する：「I’m tired of waiting for you to act—this is my life too!」

「笑いながら言う、小声で言う、興奮して言う、諦めて言う、不満げに言う」などの音声トリガーワードを入れると、モデルが口の動きや対応する感情の起伏を作りやすくなります。

【カメラワーク】

単一キャラクターは通常、クローズアップ・ミディアムクローズアップを使用：顔と上半身にフォーカスし、口の動きと表情の両方が見えるようにする。背景は少しぼかし、雰囲気を作るだけで主役を奪わないようにします。

-複数キャラクターの場合：「二人の顔と上半身にフォーカスしたミディアムクローズアップ、必要に応じてA/B間でシンプルなショット/リバースショットの切り替えを行う」と書くとよい。

例：

プロンプト：

海辺、夕日が海面に金色の光を投げかけ、遠くで波が岸を打ちます。旅行ブロガーの女の子がスマートフォンを持って撮影し、体を軽く揺らし、最後に夕日の方向を指さします。[女の子、甘くて明るい声、自然な速さ]でこう言う「Hey guys, check out this view—sunset vibes are unreal today!”。」近景で女の子の顔とジェスチャーを捉え、背景は少しぼかして海の景色と夕日を表現し、リラックスしたvlogの雰囲気を作り出します。

プロンプト：

夕暮れのアパートのリビングルーム、窓の外ではネオンが輝き始め、暖色の室内灯と冷たい窓外の光が交わり、ソファは壁際に置かれ、一つのフロアランプがプライベートな家庭的雰囲気を作り出しています。若いカップルがソファの前に立ち、男性は腕を組んで眉をひそめ、女性は両手を腰に当てて頬を赤らめ、二人の距離はわずか一歩、緊張した雰囲気です。男性は少し前かがみになり、女性はあごを上げ、感情的ながらも立ったままの姿勢を保っています。[男性の声、抑圧された低い声、中程度の速さ]で言う、「You promised you’d call before making the decision!」[女性の声、興奮して断固とした調子、やや速い]で言う、「I’m tired of waiting for you to act—this is my life too!」カメラは正面からの近景です。

（二）重要ポイント

1、複数キャラクター対話シーンのプロンプト注意事項

動画に複数の主体やキャラクターが存在する場合、明確なプロンプトが自然な対話を生成する鍵となります。各キャラクターの身元、台詞、交流方法を明確に定義する必要があります。

P1. キャラクター名を固定する

ポイント：各話者を固定の言い方で指定し、「彼/彼女」などの曖昧な言葉は使わない

推奨例：【キャラA：赤い服の記者】、【キャラB：候補者】

NG例：【記者】が〇〇と言う…【彼】が〇〇と言う…（モデルが誰か区別できない）

P2. 動作をキャラクターに紐づける

ポイント：まず動作を描写し、次に台詞を書く。モデルに誰が何をしているかを理解させる

推奨例：まず動作、次に台詞：赤い服の記者は目を見開き、手を振って追及する。【赤い服の記者、焦って】「この背後に何が隠されているのですか？」と言う。

NG例：【赤い服の記者】：「この背後に何が隠されているのですか？」（動作を説明しないと、台詞がランダムに割り当てられる可能性がある）

P3. 音声の詳細を明確にする

ポイント：各キャラクターに独自の声色と感情ラベルを与える

推奨例：【候補者、落ち着いた低い声、やや遅い話し方】で「詳しく説明します。」と言った。【赤い服の記者、せっかちで明るい声】で「では、なぜ今まで応答しなかったのですか？」と問い返した。

NG例：【候補者】：「〇〇」【赤い服の記者】：「〇〇」（二人の声の特徴が明確に区別されておらず、モデルが混同しやすい）

P4. 会話の流れを管理する

ポイント：「すぐに」「続いて」「このとき相手が応答する」などの言葉を使い、リズムをコントロールする

推奨例：候補者は眉をひそめ、【候補者】は「まだ承諾していません」と言った。すぐに、【赤い服の記者】は「では、いつ返事をくれるつもりですか？」と言った。

NG例：【候補者】：「まだ承諾していません」【赤い服の記者】：「では、いつ返事をくれるつもりですか？」（モデルが二つの台詞を一人に言わせてしまう可能性がある）

2、映画級アクションシーンのプロンプトテンプレート

映画のような迫力ある、リズム感のある格闘シーンもAIモデルで再現できます。以下の「映画級アクションシーン」テンプレートを使えば、迫力あるアクションシーンのプロンプトをすぐに書けます。

プロンプトのテンプレート：

【シーン】

戦闘は【場所/環境、例えば廃倉庫、雨の夜の路地、SFの宇宙船の廊下】などの場面で起こり、全体的な光は【明るい/暗い/強い逆光】で、【緊張感のある/リアルでざらついた/映画級の】雰囲気を作り出しています。

【主体】

画面には【戦闘者A：外見+服装+雰囲気】と【戦闘者B：外見+服装+雰囲気】が登場し、二人は【左右/前後】に向かい合い、構えるときは【拳を握る・防御の構えを取る・重心を下げるなど】の姿勢を取り、【冷静で熟練した/衝動的で容赦ない】イメージを与えます。

【動き】

● 格闘プロセス：

二人は【非常に正確なリズム感・熟練した格闘訓練】で防御を行い—【両腕でブロック・手のひらで軽く押してそらす・手首を器用に回転させるなどの動き】で相手の攻撃を解体しますが、【左側/右側/どちらか一方の】の戦士の方が明らかに上手で、技が洗練されていて鋭く、本物の達人のようです。

● 戦闘のエスカレーション：

攻防のリズムが速くなるにつれ、カメラは【円を描き、上昇し、肢体の間を移動する】ように動き、【優位に立つ戦士】は【信じられないスピードで、ほとんど労力なく】すべての攻撃をかわし、拳や足が体をかすめるのはわずか【ミリ単位】の差で、その後【短く、鋭い】反撃で正確に相手の急所を打ちます。

● 環境との相互作用：

【要素、例えば埃、砕石、雨】が彼らの足元で常に巻き上げられ、カメラは【地面すれすれに飛び、突然上昇する】ようにこれらの細部を捉え、【再度の交戦/決定的な一撃】の瞬間に画面を凍結させ、【優位に立つ戦士】は常にリズムを支配しています。

【音声】

各重打撃による「ドン」という音、拳や足が空気を切り裂く風切り音、靴底と地面の摩擦音、急な息遣い、さらに環境ノイズ（倉庫の空洞の反響/雨が地面を打つ音/遠くの機械の低いうなり）が加わり、質感豊かな格闘の聴覚体験を作り出します。

【カメラワーク】

カメラは【低角度の広角/俯瞰/クローズアップなど】のアングルを採用し、【人数】名の戦闘者の間に近づいて撮影し、常に【場所/環境】という空間を中心に動き、視聴者があたかも戦闘現場にいるかのような感覚を与えます。

プロンプト：

薄暗い廃倉庫、頭上の照明が微かに明滅し、全体的に緊迫感と圧迫感が漂う。二人の戦士が向かい合って立っている：左側の戦士は荒々しい動きで、攻撃意欲が強く感じられる；右側の戦士は?した体勢で、冷静で熟練した気配を漂わせている。二人の戦士が突如として互いに突進する。最初の激しい衝突が強い衝撃を生み、画面がそれに合わせて揺れる。カメラワークは素早く彼らの手の動きを追い、連続する素早い打撃と蹴りを捉える。二人とも極めて正確なタイミングで両腕による防御、手のひらでの受け流し、手首の回転を行うが、右側の戦士の動きはまるで達人のようだ。カメラワークは高速で彼らの周りを回り込み、右側の戦士が労せず全ての攻撃を受け流し、鮮やかに打撃を押しのける様子を映し出す。左側の戦士は猛烈な連続攻撃を繰り出す。カメラワークは突然上方へ跳ね上がり、彼らの腕の間を縫うように動く。右側の戦士は信じられないほどの速さで全ての打撃を迎撃し、攻撃は僅かな差で体をかすめ、その後、短く鋭い反撃で正確に相手を捉える。

音響は重拳が体や壁に当たる鈍い「ドン」「ドスン」という音を強調し、時折、拳が空気を切る「ヒュッ」という音や床からの微かな反響が混ざり、全体的に重厚で迫力のある音響効果となっている。カメラワークは低いアングルから広角で撮影されている。

（三）よく使われる音声トリガーワード

AIモデルに希望する音声内容をより正確に生成させるために、異なるタイプに応じて適切な説明語を選び、対応する効果音、音楽、音声スタイルを正確にトリガーすることができます。

# 音声タイプ：音声

● 表現方法：言う、尋ねる、私に告げる、説明する、ため息をつく、朗読する、独白する、語る、ささやく

例：男性がテーブルに座り、静かに別の人に話しかける。

● 感情/態度：小声で言う、静かに言う、興奮して言う、真剣に言う、優しく言う、正式に言う、不満を言う、躊躇いながら言う、冷静に言う、皮肉を込めて言う、励ますように言う

例：混雑した部屋で、親友の二人は近づき、小声で秘密を話す。

● 声色：かすれた、はっきりした、震える、甘い、低い、話すスピードが速い、話すスピードが遅い、途切れ途切れの

例：患者が目を覚まし、かすれた声で助けを求める。

# 音声タイプ：対話

● 交流形式：質問する、答える、続けて言う、応答する、口論する、議論する、交渉する、慰める、説得する

例：親友の二人がカフェで、一人がもう一人にプライベートな質問をする。

● 動作音：叫ぶ、不満を言う、からかう、冗談を言う、つぶやく、驚いて叫ぶ、泣く/すすり泣く、悲鳴を上げる、大笑い/くすくす笑う、ため息をつく

例：父親が玄関に立ち、庭で遊ぶ子供たちに大声で呼びかける。

# 音声タイプ：歌唱

● テクニック/スタイル：アカペラで歌う、静かに歌う、ハミングする、声高らかに歌う、ベルカント、ポップ唱法、ビブラート、ファルセット、ハーモニー

例：歌手がステージ中央に立ち、伴奏なしで、アカペラで歌の最初の一節を歌い始める。

● 感情/状態：感情を込めて歌う、優しく歌う、憂いを帯びて歌う、楽しげに歌う、音程が外れる

例：オペラ歌手が感情込めて高音サビを歌う。

# 音声タイプ：ラップ

● 専門用語：rap、ラップ、韻を踏む、リズム感、フロー、速い、遅い、強いビート、即興、重低音、早口

例：ストリートラッパーがネオンの下で、ラップをする。

# 音声タイプ：効果音

● 日常動作：キャップを開ける、水を注ぐ、ページをめくる、叩く、落とす、引き裂く、拾い上げる、置く、クリックする、咀嚼する、飲み込む、足音、急いだ足音、ドアを開ける/閉める音

例：クローズアップ：ある人が炭酸飲料のボトルのキャップを開ける音。

● 素材の衝突：チリン、パン、カチッ、ドン、バン、パリッという音、摩擦音、引っかく音、ガラスが割れる音、金属の衝突音

例：グラスが金属のスプーンで軽く触れられ、チリンという音を立てる。

● 自然音：ザーザー（水）、ヒューヒュー（風）、パチパチ（火）、ブクブク（泡立つ）、雷鳴、雨滴の音、嵐、雪を踏む音

例：小川の水が石の上を流れ、ザーザーという音を立てる。

● 機械音：ゴー、ピッ、ブーン、カチッ、始動音、警報音、ブレーキ音、機械の動作/歯車の音

例：スポーツカーが道で轟音を響かせて加速していく。

● 楽器音：ピアノの音、ギターの弦をはじく音、バイオリン、ドラムのビート、ベース音

例：演奏者がコンサートホールでピアノを弾いている。

# 音声タイプ：環境音

● 都市：交通音、人々のささやき、地下鉄、ショッピングモールのアナウンス、街の風の音、工事の音、飛行機が通過する音、クラクション、市場の喧騒

例：混雑した交差点での絶え間ない交通騒音。

● 自然：波の音、風の音、鳥のさえずり、虫の鳴き声、小川の音、滝の音、動物の鳴き声、夜の虫の音、熱帯雨林

例：朝のビーチから聞こえる穏やかな波の音。

● 室内：エアコンの音、キーボードの音、紙の摩擦音、微かな反響、バー/カフェの背景音楽、病院の廊下の静かな雰囲気、図書館の静けさ、暖炉の燃える音

例：静かなオフィスでは、低く持続するエアコンの音だけが聞こえる。

三、よくある質問

Q1：SeaArt UltraVision は現在どの言語の音声出力をサポートしていますか？

SeaArt UltraVision は現在、英語と中国語の音声出力をサポートしています。どの言語でもテキストを入力できますが、システムは自動的に英語または中国語の内容を認識して対応する音声台詞を生成します。その他の言語の部分は現在、音声生成をサポートしていません。

Q2：プロンプトがうまく伝わらず、映像と音声がいつも合いません。なぜですか？

キーワードは「階層的な説明」です。【シーン/主体/動き/音声/カメラワーク/スタイルなど】に分けて提示することをお勧めします。すべての要素を一文に詰め込まないでください。例えば、効果音を説明する際は「ガラス窓がそっと閉まる—チリン」と具体的に書き、単に「ドアが閉まる音がする」とぼんやり書くのではなく、明確なプロンプトを使うとモデルがより早く理解できます。

Q3：創作内容にもっと多くの要素を詰め込みたいと思いますが、かえって混乱してしまいます。

AIには『シンプルな方が効果的』です。一度の創作で1-2の核となる要素（例えば一つの会話や一つの目立つ効果音）に集中し、詳細に書いてから、後続の反復で徐々に音と映像のレイヤーを追加していきましょう。複雑なシーンは複数の短いクリップに分けて生成し、後で結合するとよいでしょう。

Q4：音声トリガーがいつも失敗し、効果が良くありません。

まとめた「音声トリガーワード」表（「言う」「興奮して言う」「ピアノの音」「轟音」など）を参照し、音声セクションで明確にトリガーワードを書いてください。例えば怒りの対話を表現したい場合は「【男性の声、怒って言う】……」と書くと、このような手がかりが音声認識率を大幅に向上させます。

Q5：プロンプトの書き方がわかりません。

まず創作の方向性（シーン、雰囲気、音声タイプ）を明確にし、創作アシスタントを使うか例示プロンプトを参考にして初稿を生成し、構造化されたコンテンツを得たら細部を微調整して、すぐに使えるプロンプトを作成できます。

一度の操作で完成！効率倍増！ 「SeaArt UltraVision」を5分でマスター

はじめに

一、「SeaArt UltraVision モデル」がもたらす変革とは？

1、主な機能

2、 二つの効率的な制作パス

二、プロンプト作成ガイドと事例紹介

（一） 基本編

1、環境音による表現 ：癒し系動物動画から迫力のあるアクションシーンまで

2、音楽系動画：ラップ、インスト音楽、MVなどを簡単に作成

3、ストーリー系：一人のVlogから複数キャラクターの短いドラマまで

（二） 重要ポイント

1、複数キャラクター対話シーンのプロンプト注意事項

2、映画級アクションシーンのプロンプトテンプレート

（三） よく使われる音声トリガーワード

三、よくある質問

Q1：SeaArt UltraVision は現在どの言語の音声出力をサポートしていますか？

Q2：プロンプトがうまく伝わらず、映像と音声がいつも合いません。なぜですか？

Q3：創作内容にもっと多くの要素を詰め込みたいと思いますが、かえって混乱してしまいます。

Q4：音声トリガーがいつも失敗し、効果が良くありません。

Q5：プロンプトの書き方がわかりません。

一度の操作で完成！効率倍増！「SeaArt UltraVision」を5分でマスター

2、二つの効率的な制作パス

（一）基本編

1、環境音による表現：癒し系動物動画から迫力のあるアクションシーンまで

（二）重要ポイント

（三）よく使われる音声トリガーワード