最近、NanoBananaProを利用して、精緻で複雑な構図の画像を生成することにハマっています。特に情報量の多い「長文プロンプト」を作成する際、いきなりツールに指示を打ち込むのではなく、複数のLLMを役割ごとに使い分けています。
今回は、本気で作る際に行っている「仕様書の作成から最終出力まで」の制作工程を公開します。あくまで現時点でのやり方ですが、プロンプト作成に悩んでいる方の参考になれば幸いです。
1. ChatGPTによる「画像仕様書」の策定
いきなりプロンプトを作るのではなく、まずは「仕様書」という形で作りたいイメージを言語化します。
- ChatGPTを使う理由: やりたいことが曖昧な状態でも、それを的確に言語化してくれる性能が非常に高いためです。
- ここで行うこと: 成果物のイメージ、レイアウト、参照画像の使い方などを詳細に詰めます。
- ポイント: 基本的に1発で理想の仕様書はできません。イメージと違う部分を対話で修正しながら、完成度を高めていきます。


<作成した仕様書>
※GPTのおせっかいで非常に細かくできてますが、正規化座標とかはいらないです。
2. Grokでプロンプト化
ChatGPTで作成した仕様書をGrokに渡し、「Geminiで画像を生成するためのプロンプト」を作成してもらいます。なぜあえてGrokを挟むのか、各LLMの特性を私なりに比較した結果がこちらです。
- GPTの特性: 言語化能力は非常に高いのですが、あやふやな部分を補完しようとして、無駄に長いプロンプトを書きがちな印象があります。文章が冗長になりやすく、画像生成用としては少し扱いづらいことがあります。
- Geminiの特性: 質自体は悪くないのですが、指示の中に「画像を生成する」といった言葉があると、即座にNanoBananaを読み込んで生成を開始してしまいます。毎回「出力はテキストのみ」と断り書きを添える必要があり、手間がかかるのが難点です。
- Grokの特性: 仕様書の要約版のように、細かすぎて不要な部分をバッサリと切り落とした、実用的なプロンプトを生成してくれるので重宝しています。特に指示しなくてもインターネット検索(特にXの検索)がプロンプト作成時に反映されるため、最新情報を盛り込める点も魅力です。

<作成したプロンプト>
※コードブロックで貼れないので画像ですw正規化座標はバッサリ落として割合で領域を指定してくれました。
3. NanoBananaProで画像生成
2で生成したプロンプトと参照画像を投げて生成します。ここからは修正のループです。
- 微調整: 生成画像がイメージと違ったら「2(Grok)」に戻り、対話でプロンプトを修正。
- 根本的な修正: 修正が難しい場合は「1(ChatGPT)」に戻り、画像生成のプロセス自体を再検討します。

<完成画像>
💡 制作のポイント:各段階で「完璧」を求めすぎない
このフローを回す上で一番のコツは、それぞれの工程で100点を目指しすぎないことです。
各ステップで悩みすぎるよりも、まずは60点くらいで次のAIへ渡してみる。そして最後の出力結果を見てから「あ、ここを直そう」と前の工程に戻る。この「AIとのラリーの速さ」を優先するほうが、結果的に早く理想の画像にたどり着けます。
おわりに
複雑な構成や、紙面レイアウトから考える必要があるプロンプトを作る際は、この「一見めんどくさい工程」が非常に役立ちます。仕様書という土台があることで、「どこをどう直せばいいのか」の言語化が格段に楽になるからです。
もちろん、簡単な編集なら直接NanoBananaに打ち込みます。今回紹介したLLMの使い分けはあくまで僕の趣味ですので、各工程で自分に合ったモデルを探してみてください!













