最終更新日：2025年 4月 13日

～はじめに～ ※プロンプトについて考える…

こんにちは。

　早速ですが、今回はプロンプトについて触れてみたいと思います‼

　最近イベントが多くて記事どころではなくなっていました...(◎_◎;)

　画像生成について①（日本語版）を公開してからだいぶ経ってしまいましたので、さすがにそろそろ続編を…💧

　もっとも、私は別に記事を書かないといけない義務もないので悪しからず…　(´-ω-`) ｂ w

　※ この記事は今後も編集により内容を追加する可能性（未定）もあります。※

もし、画像生成は始めたりです👀　という方がいましたら、　

　先に ↓ の記事を見ていただいた方が分かりやすいかもしれません…🤔

　　こちらも参考にどうぞ👉　SeaArt.AI の楽しみ方？（日本語版）

　　こちらも参考にどうぞ👉　画像生成について①（日本語版）

<プロンプトとは？>

　この記事を読んでいただいている時点で説明は不要かもしれませんが、一応説明させていただきます。

　簡単に言ってしまえば、モデルに指示を出すための（文章）を【プロンプト】といいます。

　そして、それぞれの単語の部分（？）を【トークン】といいます。

　たぶん、厳密には違うのかも知れませんが、とりあえずモデルを指定してプロンプトを入力すれば画像は生成できます。（笑）

　いくつか事前にお断りしておきたいのですが、この記事は、あくまで私の感覚に基づいて執筆していますので、正確性は保証できません。

　そして、

　　①　使用するサービス（ローカルの Stable Diffusion や他の WEB生成サービス等）によって違いがある。

　　②　モデルによって違いがある。（トレーニング学習時にプロンプトとの紐づけも記憶する場合があるため）

　　③　アップデートにより変化する可能性がある。

　　④　必ずしも正解が存在しない。

　という点を、認識したうえでお読みいただければと思います。

<モデル系統による主な違い>

　初期の画像生成では、トークンと呼ばれる定義された単語を組み合わせて画像を生成していたようですが、特に FLUX の登場以来一般的な文章でも画像が生成できるようになってきました。しかし、主に SD系、SDXL系、FLUX系で大まかな違いがありますので、まずはそれについて触れておきたいと思います。

SD1.5 系

　文章の理解力が弱く、俗に【 Danbooru タグ】と呼ばれる単語（トークン）を並べてプロンプトをつくり上げます。

　一般的な文章のような書き方をしても効果が薄く、単語（トークン）を配置する位置や、強調構文を駆使してプロンプトを仕上げていきます。

　検索エンジンなどから【 Danbooru タグ】を検索すると、外部サイト等で一覧などが紹介されていますので、単語（トークン）についてはそちらを参照してみてください。

　SD1.5系は特に文章の理解力が低いため、LoRAを上手く組み合わせて生成するのが主流です。

FLUX 系

　文章の理解力に非常に優れていて、一般的な文章の入力で綺麗な作品が出力される。

　その反面、入力したプロンプトが（おそらく）内部で定義された近い解釈に紐づけられて認識されるため、似たような作品になりやすい。

　そして、強調構文が機能せず、"（　）"を使用した、トークンの纏め方や、配置する位置がとても重要。

SDXL 系 / Illustrious系 / Pony 系

　SD1.5系と FLUX系の中間的な位置づけで、強調構文が使用できるため比較的扱いやすい。

　アニメ系作品の主要モデルがこれらになっているのは、

　FLUX系よりも創造性に富んでいて、SD1.5系よりもプロンプトが扱いやすいから…（だと思います…🤔ｗ）

　SDXL系は LoRA の効きも良く、プロンプトとLoRAの併用でバランスの良い生成がしやすいです。

　Illustrious系は LoRA の効きが弱く、プロンプトの影響が強く出やすいので、しっかりと詳細までプロンプトで指定することが重要です。その一方で、学習していないトークンの混入により描写（というより作品そのもの）の出力そのものが破綻しやすい傾向があり、パラメーター（サンプリングステップ数やCFGスケール、Clip Skip の値等）の設定値にも敏感に反応するので、壊滅的な作品になることも…

＜構文の配置 (基本)＞

　　"トークン"と呼ばれる単語をどのように配置するのか…ということについて説明するので構文という表現をさせていただきますが、結局は"プロンプト"のことです。

　FLUXモデルは一般的な文章でも一定品質の作品は生成できますし、SD系で綺麗な作品を生成しようとするとLoRAの併用が必要になってきますので、ここではSDXL系を参考に私なりのプロンプトの構成について説明していきたいと思います。

　基本的なプロンプトの入力については、既にいろいろな方が書かれていたりするのですが、品質に関するプロンプトを最初に書いた方が良いという記事と、最後に入力すると書かれた記事があり、私も最初はどちらが良いのか分かりませんでした。

　これまで画像を生成してきた経験からすると、どちらが適切なのかは状況によって異なると感じています。

まずは、シード値とパラメーターを固定して下の2つの構文の違いを比較してみましょう。

(masterpiece, best quality:1.2), 1girl, solo
1girl, solo, (masterpiece, best quality:1.2),

　※モデルは SDXL ARW Scramble Wonder 【v1.5】を使用して説明させていただきます。

(masterpiece, best quality:1.2), 1girl, solo 　　　　　1girl, solo, (masterpiece, best quality:1.2),

　品質プロンプトを最後に入力した方（右画像）が線は綺麗に描かれているように感じますが、品質プロンプトを先に入力した方（左画像）が作品全体の雰囲気としては調和のとれたまとまりを感じます。この辺りの評価や判断は個人差や好みもありますので異論があっても流しておいてください。（笑）　そして、使用するモデルによっても違ってくると思います。

　それでは、どちらでも大きく違わないの？というと、そうでもありません。

　実際の画像生成では、もっと多くの単語を追加してプロンプトを記述していくことになると思います。私は、なるべくプロンプト全体から配置を考えて組み上げていくようにしています。まずは、例として同じトークンを使用したプロンプトで順序を入れ換えて生成してみます。（プロンプトが反映されていなかったり、描写が崩れている部分もありますが、あくまで説明用ですので、細かい描写は無視してなるべくシンプルなプロンプトで生成してみます。）

　※1. 明確に色を指定した部分と反映されていそうなトークンに色付けしたプロンプトを添えておきます。

※2. 一番右の画像に２回目生成以降出力された巾着は、終始色が固定されていたので、今回の色指定の影響は受けていないものと判断しています。

An adult woman wearing a colorful kimono, solo, Long hair wrapped in hair ornaments, Clear green eyes, holding a Japanese drawstring bag in one hand, holding a candy apple with the other hand, (masterpiece, best quality:1.2),

　このサンプリングでは、瞳に指定した緑色がひとつ前の髪にも反映された印象です。

An adult woman wearing a colorful kimono, solo, holding a Japanese drawstring bag in one hand, holding a candy apple with the other hand, Clear green eyes, Long hair wrapped in hair ornaments, (masterpiece, best quality:1.2),

このサンプリングでは、一番右の作品にしか大きな変化が見られませんが、巾着が反映されました。瞳に指定した緑色が直後の髪にも反映されて出力されたように感じられます。

adult female, solo, Long hair wrapped in hair ornaments, Clear green eyes, Wearing a colorful kimono , holding a Japanese drawstring bag in one hand, holding a candy apple with the other hand, (masterpiece, best quality:1.2),

このサンプリングでは、"着物を着ている"という指定を女性から切り離して後方に変更しています。瞳に指定した緑色が直後の着物にもやや反映されたような出力に感じられます。

adult female, solo, holding a Japanese drawstring bag in one hand, holding a candy apple with the other hand, Clear green eyes, Wearing a colorful kimono , Long hair wrapped in hair ornaments, (masterpiece, best quality:1.2),

このサンプリングでも、瞳に指定した緑色が直後の着物にもやや反映されたような出力に感じられます。

adult female, solo, Clear green eyes, I have a candy apple in my hand, Wearing a colorful kimono , hold a Japanese drawstring bag in my other hand, Long hair wrapped in hair ornaments, (masterpiece, best quality:1.2),

このサンプリングでは、着物の色もランダムに変化して、瞳に指定した緑色が他の要素に反映された印象は無くなりました。

adult woman wearing colorful red kimono, solo, holding a Japanese drawstring bag in one hand, holding a candy apple with the other hand, Clear green eyes, Long hair wrapped in hair ornaments, (masterpiece, best quality:1.2),

このサンプリングでは、赤い着物に指定を変えています、瞳に指定した緑色は着物の模様に少し影響を与えているような印象を感じます。

An adult woman wearing a colorful kimono, solo, Hold a Japanese green drawstring bag in one hand, holding a candy apple with the other hand, Clear green eyes, Long hair wrapped in hair ornaments, (masterpiece, best quality:1.2),

このサンプリングでは、巾着にも緑色の指定を追加しています。一番左の画像の巾着も緑色になり、着物や髪の色にも色が反映されて出力されています。

　いくつか構文の順序を入れ換えてサンプリングをしてみましたが、少なからず、構文の順序を入れ換えることで、トークンが影響を与える範囲が変化するということは事実であると考えています。

　FLUX 意外では、"BREAK" や"( )"などの強調構文が使用できますので、強調の重みによって理想の作品に近づけていくことは可能ですが、私は（集中して生成したい作品については）構文の配置をより重要視しています。

　細かな検証結果を書き留めるときりがないので、私の経験上の考察を簡潔にまとめると、

①　文頭のトークンは強く反映される

　　他のトークンへの影響が小さいので、主題や被写体の最も固定したい要素などを記述するのが望ましい。

　　使用するモデルが得意とする作風以外を表現させたいなどの場合は品質プロンプトを最初に置いた方が結果が良い場合もある。

②　記述したトークンの影響は直後のトークンへの影響が強く、それ以前のトークン全体にも少なからず影響を与えやすい。

　　指定したい対象以外にも影響を与えてしまうことがあるので、全体プロンプトを作成した後で順序を入れ換えて調整することも可能。

➂　最後のトークンは、全体に、より強く影響を与えやすい

　　品質プロンプトを最後に置くことを推奨する説明はこれが理由のような気がします。

　と、この記事を執筆するにあたり普段では生成しないサンプリングを数回出力してみましたが、以前に比べて構文の順序による変化が小さくなっているような気もしました。各WEB生成サービスのプラットフォームは日々成長していますので、誰でも高品質の生成ができるようにと修正されていく過程でこのような法則は成立しなくなる可能性もありますので、ご自身でも検証してみたり、あくまで参考としてご自身の生成に活用していただければと思います。

　今回は色の指定で説明させていただきましたが、"detailed ～" などのオブジェクトの形状を指定する構文の構成では、モデルの学習がより大きな影響を与えて、配置や重複指定により出力が急激に劣化したりする場合もあります。

　正解が無いというのは、モデルを変えたり、LoRAの使用、パラメーターの調整を変更すると、それらの要素が複合的に作用するため実際に出力して調整をして比較してみないことには分からないということからです。実際に過去の作品を見ても個人的に良いと感じた作品は全て構文のパターンが異なっています（システムアップデートに適応した変更も大きいような気がしますが…）

　私は常に自分の気分次第で生成していますので、正直他のユーザーさんのようにした出力はできませんが、結果的にいつまでも初心者ですので、特に、新しく画像生成を始められた方への参考になれば幸いです。

～編集後記～

　基本構文という視点では、強調表現などもお伝えすべきなのですが、SeaArt内外の他の記事でも掲載があるため、今後この記事に追加するか、別の記事で執筆するかは未定です。正直なところ結構労力もかかるので特に追加しない可能性もあります🤣

　当初、FLUX 構文についてもこちらの記事で掲載するつもりでしたが、長文になり過ぎそうなので機会をみて別の記事で取り上げたいと思います。（こちらも気が向いたら…ｗ　約束はいたしません😂）　

※　↓　下記のリンクから私の他の記事も閲覧可能ですので、ご興味がありましたらぜひご覧ください。

👉【著者のメイン記事へ】

～編集履歴～

Posted on April 10, 2025 / 初回投稿：（編集中）2025年4月10日

Posted on April 13, 2025 / 初回投稿：（更新）2025年4月13日

画像生成について②（日本語版）

～はじめに～ ※プロンプトについて考える…

※ この記事は今後も編集により内容を追加する可能性（未定）もあります。※

こちらも参考にどうぞ👉 SeaArt.AI の楽しみ方？（日本語版）

こちらも参考にどうぞ👉 画像生成について①（日本語版）

<プロンプトとは？>

<モデル系統による主な違い>

FLUX 系

SDXL 系 / Illustrious系 / Pony 系

＜構文の配置 (基本)＞

～編集後記～

👉【著者のメイン記事へ】

　※ この記事は今後も編集により内容を追加する可能性（未定）もあります。※

　　こちらも参考にどうぞ👉　SeaArt.AI の楽しみ方？（日本語版）

　　こちらも参考にどうぞ👉　画像生成について①（日本語版）