AIをつかったプロンプト作成フロー created with SeaArt AI

最近、NanoBananaProを利用して、精緻で複雑な構図の画像を生成することにハマっています。特に情報量の多い「長文プロンプト」を作成する際、いきなりツールに指示を打ち込むのではなく、複数のLLMを役割ごとに使い分けています。

今回は、本気で作る際に行っている「仕様書の作成から最終出力まで」の制作工程を公開します。あくまで現時点でのやり方ですが、プロンプト作成に悩んでいる方の参考になれば幸いです。

1. ChatGPTによる「画像仕様書」の策定

いきなりプロンプトを作るのではなく、まずは「仕様書」という形で作りたいイメージを言語化します。

＜作成した仕様書＞

※GPTのおせっかいで非常に細かくできてますが、正規化座標とかはいらないです。

ChatGPTで作成した仕様書をGrokに渡し、「Geminiで画像を生成するためのプロンプト」を作成してもらいます。なぜあえてGrokを挟むのか、各LLMの特性を私なりに比較した結果がこちらです。

GPTの特性: 言語化能力は非常に高いのですが、あやふやな部分を補完しようとして、無駄に長いプロンプトを書きがちな印象があります。文章が冗長になりやすく、画像生成用としては少し扱いづらいことがあります。
Geminiの特性: 質自体は悪くないのですが、指示の中に「画像を生成する」といった言葉があると、即座にNanoBananaを読み込んで生成を開始してしまいます。毎回「出力はテキストのみ」と断り書きを添える必要があり、手間がかかるのが難点です。
Grokの特性: 仕様書の要約版のように、細かすぎて不要な部分をバッサリと切り落とした、実用的なプロンプトを生成してくれるので重宝しています。特に指示しなくてもインターネット検索（特にXの検索）がプロンプト作成時に反映されるため、最新情報を盛り込める点も魅力です。

＜作成したプロンプト＞

※コードブロックで貼れないので画像ですｗ正規化座標はバッサリ落として割合で領域を指定してくれました。

2で生成したプロンプトと参照画像を投げて生成します。ここからは修正のループです。

＜完成画像＞

このフローを回す上で一番のコツは、それぞれの工程で100点を目指しすぎないことです。

各ステップで悩みすぎるよりも、まずは60点くらいで次のAIへ渡してみる。そして最後の出力結果を見てから「あ、ここを直そう」と前の工程に戻る。この「AIとのラリーの速さ」を優先するほうが、結果的に早く理想の画像にたどり着けます。

複雑な構成や、紙面レイアウトから考える必要があるプロンプトを作る際は、この「一見めんどくさい工程」が非常に役立ちます。仕様書という土台があることで、「どこをどう直せばいいのか」の言語化が格段に楽になるからです。

もちろん、簡単な編集なら直接NanoBananaに打ち込みます。今回紹介したLLMの使い分けはあくまで僕の趣味ですので、各工程で自分に合ったモデルを探してみてください！