テーマ:素材収集・前処理・タグ付けロジックの核心ガイド
「モデルマスター・ブートキャンプ」初の指導ノートへようこそ!準備段階で寄せられた素材準備やタグ付けに関する深い悩みにお答えします。人気メンターの @shishu と @grayman による実践的なアドバイスをまとめました。
一、 データセットの品質と枚数
Q1:最低何枚の画像が必要ですか?品質(構図、解像度)の具体的な要件は?
メンター @grayman:
使用するモデルによりますが、皆さんはアニメ系LoRAを学習させているので、Illustriousモデルを基準にお話しします。
- キャラクターLoRA: 30~40枚あれば十分です。
- 画風(スタイル)LoRA: 通常、スタイルの詳細をすべて捉えるには70~80枚程度必要です。 これらはあくまで目安で、増減させることは可能ですが、初心者の方にはこの枚数から始めるのが最も安全でベストな選択です。
構図については、キャラクターLoRAの場合、キャラクターが画像内のメインオブジェクト(主役)であることを確認してください。多様な構図の画像を用意することで、AIがさまざまな状況下での対象をより深く学習できるようになります。 また、画像は必ず鮮明なものを使用してください。 ぼやけた画像は厳禁です。Illustrious 0.1基準なら1024pxベース、1.0以降のバージョンなら1536pxベースの解像度が推奨されます。
メンター @shishu:
- 枚数目安:
- キャラLoRA: 30~80枚で効果が出ます(素材が少ない場合は50~60枚)。
- 画風LoRA: 50~200枚が安定します(最低70枚以上)。
- 高品質・精密モデル: 100~300枚あると安心です。
- ※20枚未満は過学習(Overfitting)になりやすく、汎用性が低下します。
- 品質要件:
- 解像度: 1024px以上を推奨。素材に合わせて調整可能で、全て同じサイズである必要はありません。
- 構図: キャラLoRAの場合、アングルを豊富にし、顔のアップばかりにならないようにします。
- 鮮明さ: 圧縮ノイズや大きな遮蔽物がないもの。
- 一貫性: 同一キャラ/画風であれば、光と影や線のタッチを極力統一します。
Q2:商用利用可能な高品質素材はどこで探すべき?
メンター @grayman:
DanbooruやPinterestのようなサイト、基本的にはインターネット全般です。補足として、Illustriousのデータセットも参考になります:[Hugging Faceリンク]
メンター @shishu:
TelegramやX(Twitter)の配布素材、Pixiv、Pexels、Anime pictures and wallpapers、Unsplash、Pixabayなど。
Q3:メンターが普段使っている画像処理ツールは?
メンター @grayman:
私は WD14 を使っています。Kohya_ss GUIにはWD14タグ付け機能が内蔵されています。データセットが20~100枚程度であれば、一枚ずつ目視でクイックチェックすることをお勧めします。
メンター @shishu:
Photoshop (PS) です。最近の学習では背景を完全に消す必要はなく、高品質な背景はあえて残す方が良い結果に繋がります。一括処理ソフトも便利ですが、納得がいかない画像は手動で調整することをお勧めします。
Q4:背景の干渉を効果的に取り除くには?
メンター @grayman:
基本的な選択肢としては rembg があります。WebUIのABG拡張機能やComfyUIを使うのも良いでしょう。
メンター @shishu:
単色・白背景素材を優先してください。無理に切り抜くよりも、タグに white background や simple background を手動で加え、**デカップリング(切り分け)**を強化します。背景の比率が高すぎると、モデルが主体ではなく背景を覚えてしまうので注意が必要です。
二、 タグ付け(打標)のロジック
Q1:タグはどの程度詳しく書くのがベスト?
メンター @grayman:
タグにアンダースコア _ は使わず、代わりに半角スペースを使用してください。
- キャラクターLoRA: キャラ名と背景・動作などの詳細を記述します。キャラ自身の固有特徴(髪色など)は除外してください。 それをAIに教え込もうとしているからです。衣装に柔軟性を持たせたい場合は、服の詳細を記述することで、AIに服を「変更可能な要素」として認識させることができます。
- 画風LoRA: 画風の詳細には触れず、単に画像の内容をタグで説明してください。 「そのキャラを抜いた状態で、そのタグをモデルに入力したとき、元の画像を再現できるか?」を自問してみてください。
メンター @shishu:
基本原則: 大まかなタグでスタイルを、詳細なタグで細部を制御します。 必須レイヤー:
- 画風・品質タグ (
masterpieceなど) - 主体 (
1girlなど) - 核心的特徴(髪型、瞳の色、服装)
- 二次的詳細(表情、ポーズ) 冗長すぎず、15~40単語程度が最もバランスが良いです。
Q2:トリガーワードは何個設定すべき?
メンター @grayman:
通常は 1つ です。衣装ごとに分けることも可能ですが、基本的にはトリガーワードを1つに絞る方が良い結果が得られます。
メンター @shishu:
学習時に必須ではありませんが、キャラLoRAの場合はトリガーワードを設定することを推奨します。
Q3:タグやトリガーワードを減らした場合の影響は?
メンター @grayman:
タグを書かないと、AIはプロンプトで説明されていない全ての要素をトリガーワードの一部として学習してしまいます。これはLoRAの精度に直结します。
メンター @shishu:
- タグが少なすぎる: 汎用性は高いが制御不能になり、特徴が崩れやすくなります。
- トリガーワードが少なすぎる: モデルの反応が悪くなり、高いWeightをかけないと効果が出ません。
- タグが多すぎる: 学習が細切れになり、生成時に画面が乱れやすくなります。
- トリガーワードが多すぎる: 記憶が分散し、個々の単語の効果が弱まります。
その他
Q:スマホでも操作できますか?PCは必須?
A: 学習はクラウド上で行われるためスマホでも操作可能ですが、UIのレイアウト崩れが発生する可能性があるため、PC版での操作を推奨します。








