勉強会5_画像生成AIの仕組みと学習・i2i対策

画像生成AIの仕組みと学習・i2i対策

目次 1. はじめに 2. 画像生成AIの仕組み 3. 学習・i2i対策 4. おわりに

はじめに ◦ 近年、画像生成AIが急速に発展し、利用が広がっています。 ◦ その一方で、「無断でイラストがAIに学習される問題」が発生しており、多くのクリエイターさんが懸念しています。 ◦ 本プレゼンでは、画像生成AIの仕組みについて解説したのち、その仕組みを踏まえたうえで、どのように学習・i2i対策をすると良いか、を解説していきます。 ◆本プレゼンの前提・スタンス
◦ 本プレゼンは、私自身が画像生成AIについて専門ではない立場から、改めて調べた内容をまとめたものです。内容に不正確な点が含まれる可能性があることをあらかじめご承知おきください。 ◦ 私自身オタクかつエンジニアという中間的な立場から、画像生成AIとイラストの学習に関する諸問題や対策について知っておきたいと思い、今回このような形で整理・共有させていただきました。 ◦ 本プレゼンにおける「AI」は「画像生成AI」のみを指します。テキスト生成など、他のAIについては触れません。 ◦ 法的な観点については私自身あまり詳しくないため、本プレゼンでは触れません。技術的・実践的な観点に絞っています。

画像生成AIの仕組み 1. 画像生成AIとは？ 2. 画像生成AIのプロセス

1.画像生成AIとは？ ◦ 学習したデータをもとに、新しい画像を作り出す技術。 ◦ 代表的なモデル：Stable Diffusion、Midjourney、DALL·Eなど。 ◦ Stable DiffusionやMidjourneyなど、最新の画像生成AIは「拡散モデル（Diffusion Model）」を
使っているため、本プレゼンでは拡散モデルの仕組みについて解説します。 ◦ 拡散モデルは「ノイズから画像を復元する技術」。大まかな流れは以下3ステップ。 ① 学習（トレーニング） ② 画像生成（推論） ③ 画像の最終調整

2. 画像生成AIのプロセス（拡散モデル） ① 学習（トレーニング） ◦ AIが大量の画像を見て、パターンを学習する。 ◦ 事前に行う独立したステップであり、生成（推論）のたびには行わない。 ◆具体的な流れ 1.
大量の画像データと、そのテキスト説明(ラベル)をAIに与える 2. 画像に少しずつノイズ（ランダムな粒子のようなもの）を加えて、最終的に完全なノイズ画像にする 3. AIは「ノイズの状態 → 元の画像」への復元プロセスを学習する 4. これを大量の画像データで繰り返すことで、「ノイズから元の画像を再構成する能力」を鍛える

2. 画像生成AIのプロセス（拡散モデル） ② 画像生成（推論） ◦ ユーザーが入力した「テキスト」や「画像データ」に基づいて、AIが新しい画像を作成する。 →Text –to-Image(t2i),Image-to-Image(i2i) ◆具体的な流れ 1.
ユーザーが例えば「猫がソファで寝ている」というテキストを入力する 2. 画像生成AIが「このテキストに合う画像はどんな特徴か？」を推測する 3. 完全なノイズ画像を用意し、少しずつノイズを取り除きながら、猫の画像を作り出す 4. 何回も細かく修正して、よりリアルな画像にしていく ◆イメージ：写真の現像の逆再生 ◦ 写真の現像は、ぼんやりした画像 → はっきりした画像にする作業 ◦ 画像生成AIは、ランダムなノイズ → 意味のある画像に変換する

2. 画像生成AIのプロセス（拡散モデル） ③ 画像の最終調整 ◦ AIは生成した画像を、より自然にするために調整する。 ◦ 「画像生成（推論）」の後に行う、連動したステップ。 ◆技術例 ◦
CLIP（Contrastive Language-Image Pretraining） ➢様々な画像とテキストのペアで学習された画像分類モデル。 ➢AIが「この画像が入力テキストに合っているか？」をチェックする ◦ 超解像（Super-Resolution） ➢低解像度の画像を、高画質な画像に変換する ◆イメージ：写真加工アプリの自動補正機能 ◦ AIが「より自然な画像になるように」自動で微調整する

補足：推論(生成)時に与えた画像は学習されるか？ ◦ 原則として「学習されない」。 ◦ 先ほどまでのスライドで説明した通り、学習と推論(生成)は全く別のプロセス。 ◦ 例えば、画像をAIに「読み込ませて」生成するのは推論であり、自動的に学習されるわけではない。 ◦ ただし、サービス側の設定によっては学習に使われる場合もある。
→利用規約や設定で「学習に使用しない」「オプトアウト」の選択肢があるかを確認。

画像生成AIの仕組みまとめ ◦ 画像生成AI（拡散モデル）は、「ノイズから画像を復元する技術」を使っている。 ◦ AIは大量の画像を事前に学習し、指示に合った画像を作る(推論)。 →学習は、Webスクレイピングによってインターネット上で自動収集された画像が使われることが多い。これにより、無断学習されるといった問題が発生することがある。

学習・i2i対策対策内容説明有効度(学習 / i2i) ①Glaze 画風(スタイル)の抽出を防ぐための画像加工 ◎ /
△ ②Nightshade 学習時に誤学習させる毒性画像加工（ポイズニング） ◎ / ✕ ③ノイズ加工微細なノイズやぼかしを加えて特徴抽出を阻害 △ / ◦ ④著作表示・透かしの挿入作者名・ID・透かし等を画像に重ねる △ / ◎ ⑤AI利用禁止の明記画像内に「AI学習・使用禁止」などの文言を記載 ◦ / ◎ ⑥高解像度画像の制限高解像度を避けたり小サイズで公開し、高精度変換・学習を抑制 ◦ / ◦ ⑦SNS投稿設定の確認 SNS投稿設定の見直しにより、スクレイピングから守る ◦ / △ 学習（モデルの訓練）とi2i（画像を使った生成）では目的が違うため、各対策の有効度が異なる。

①Glaze •説明： ◦ 画風(スタイル)の抽出を難しくするための画像加工 •仕組み： ◦ 人の目にはほとんど変化のないノイズを画像に付加 ◦ AIにとっては別の画風に見えるようになり、特徴抽出を撹乱 ◦
例：イラストに「油絵のような特徴」を埋め込むと、AIは「油絵」として誤認識し、正しく学習できない →画像生成AIは「ノイズから画像を復元する技術」なので有効に働く •効果： ◦ 学習モデルの画風(スタイル)模倣に一定の防御効果あり •注意点： ◦ 全てのAIに効果があるわけではない ◦ i2iには効果が限定的(推論段階では誤認効果が薄い）

②Nightshade •説明： ◦ 学習時に誤学習させる毒性画像加工（ポイズニング） ◦ Glazeと同じチームにより開発 •仕組み： ◦ AIが誤認識するような情報を画像に埋め込む ◦
意図的に学習データを汚染し、生成精度を低下させる ◦ 例：AI学習時に、「犬」の画像を「猫」と誤認識させる •効果： ◦ 学習モデルに対して強力な防御手段 ◦ AIの学習データを意図的に汚染できるため、無断学習への強い抑止力となる •注意点： ◦ 研究段階の技術であり、一部モデルでは無効化される可能性がある ◦ i2iにはあまり効果がない

③ノイズ加工 •説明： ◦ 微細なノイズやぼかしを加えて特徴抽出を阻害 •方法/仕組み： ◦ クリスタ等でランダムノイズやぼかしを加える ◦ AIはピクセル単位で画像の構造を解析するため、ノイズが多いと特徴抽出が難しくなる →画像生成AIは「ノイズから画像を復元する技術」なので有効に働く
•効果： ◦ i2iに対して有効(特徴抽出を阻害) ◦ 一部の学習モデルはノイズが強い画像を除外するため、学習を防げる可能性がある •注意点： ◦ ノイズが弱すぎると効果が薄い ◦ AIの進化によって学習できる可能性もあり、完全な対策とはいえない

④著作表示・透かしの挿入 •説明/方法： ◦ 作者名・ID・透かし(ウォーターマーク)等を画像に重ねる ◦ 誰が描いたかを明示し、AI利用者や第三者に警告 ◦ 削除やトリミングされにくくする工夫も重要 •効果： ◦
i2iや無断転載の心理的・技術的な抑止力として有効 ◦ 一部の学習モデルは、ウォーターマーク付き画像の学習を回避する場合がある ◦ スクレイピングツール（画像収集プログラム）も、ウォーターマーク付き画像をスキップするよう設定されている場合もある •注意点： ◦ 著作表示・透かし(ウォーターマーク)だけでは学習・i2iを完全に防げるわけではない ◦ AIによっては無視して学習する可能性もあるため、他の対策との併用が望ましい

⑤AI利用禁止の明記 •説明/方法： ◦ 画像内に「AI学習・使用禁止」などの文言を記載 ◦ 「禁止」であることをAI利用者やスクレイピングツールへ明示 •効果： ◦ 学習・ i2iの心理的・運用的な抑止力として有効
◦ 学習・ i2iの無断利用を減らせる可能性がある ◦ 一部スクレイピングツールや学習モデルは「禁止表記」を検知して回避する可能性あり •注意点： ◦ 全てのAIが禁止表記を守るわけではない ◦ 文字が小さい・見えにくいと効果が薄いため、位置や大きさに工夫が必要

⑥高解像度画像の制限 •説明/方法： ◦ 高解像度を避けたり小サイズで公開し、高精度変換・学習を抑制 ◦ 例：幅800px以下など •効果： ◦ 高解像度でないと、学習・i2iで正確な画風(スタイル)模倣・変換や解析が難しくなる →学習・i2iの両方に一定の抑止効果あり
◦ 一部の学習モデルは小サイズや低解像度の画像を除外するため、学習を防げる可能性がある •注意点： ◦ AIによっては除外せずに学習する可能性があるため、他の対策との併用が望ましい ◦ 小さすぎたり低解像度だと閲覧性が下がるため、バランスが重要

⑦SNS投稿設定の確認 •説明/方法： ◦ SNS投稿設定の見直しにより、スクレイピングから守る ◦ 非公開/限定公開などの公開範囲設定を活用 •効果： ◦ 特に学習データ収集の抑止に効果あり
◦ 公開範囲を限定することで収集されにくくなるため、学習への使用を防ぎやすい •注意点： ◦ SNS側の仕様変更により効果が弱まる可能性あり ◦ 一度公開された画像は第三者により無断転載される可能性があるため、完全な対策とはいえない

学習・i2i対策まとめ •目的に応じた対策の方向性： ◦ AIの認識や特徴抽出を「撹乱」する（例：Glaze、ノイズ加工） ◦ AIに「間違って学習させる」（例：Nightshade） ◦ AIに「学習・利用させない」意思を明示する（例：著作表示・透かしの挿入、AI利用禁止の明記） ◦ データへのアクセスを制限する（例：SNS投稿設定の確認）
•対策を重ねることが重要： ◦ 1つの対策では限界があるため、複数の手段を併用することが効果的 ◦ 特に、画像加工・意思表示・公開設定の3方向からの対策が有効 •意識しておきたいこと： ◦ 対策の有効性は、AIモデルの種類や進化によって変わる ◦ 「学習・利用されにくくする」意識が大切

おわりに ◦ 現時点では、画像生成AIによる学習やi2iを完全に防ぐ方法は存在しません。 ◦ しかし、複数の対策を組み合わせることで、被害を抑えることが可能です。 ◦ また、画像生成AIの仕組みを理解したうえで、目的に応じた対策をすることが重要だと感じました。 ◦ AI技術や対策手法は日々進化しています。
→有効性は状況によって変化するため、最新情報は継続的にチェックしてみてください。 ◦ 本プレゼンが、今後の判断や対策を考える際の一助となれば幸いです。

参考(画像生成AIの仕組み) ◦ 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説！ https://qiita.com/omiita/items/ecf8d60466c50ae8295b ◦ 図で見てわかる！画像生成AI「Stable Diffusion」の仕組み https://qiita.com/ps010/items/ea4e8ddeff4de62d1ab1 ◦
拡散モデルの基礎と研究事例: Imagen https://qiita.com/iitachi_tdse/items/6cdd706efd0005c4a14a

参考(学習・i2i対策) ◦ AI画像生成・生成系AI 問題まとめwiki https://w.atwiki.jp/genai_problem/ ◦ 昨今の情勢を受けてイラストの転載とかAI学習への対策がしたい人向けの話 https://note.com/kikotan/n/n988f9a56f08b#0d78ac28-e3dd-4c27-9427-a27d1e3cea22 ◦ I2I生成AI対策実験・結果報告書
https://note.com/ryu_no_tamago/n/n0cad7a3df42a ◦ 【配布】NSGフィルタver1（i2i対策経過報告） https://note.com/ryu_no_tamago/n/nc49c8af46aa4 ◦ 自分の絵をＡＩ学習されたくない場合、単純にアップする絵の解像度を下げるのが一番効率的なのではと思った話 https://note.com/nobisiro_2023/n/n18e811f090f3

勉強会5_画像生成AIの仕組みと学習・i2i対策

勉強会5_画像生成AIの仕組みと学習・i2i対策

milky04

More Decks by milky04

Other Decks in Technology

Featured

Transcript

画像生成AIの仕組みと学習・i2i対策

目次 1. はじめに 2. 画像生成AIの仕組み 3. 学習・i2i対策 4. おわりに

画像生成AIの仕組み 1. 画像生成AIとは？ 2. 画像生成AIのプロセス

1.画像生成AIとは？ ◦ 学習したデータをもとに、新しい画像を作り出す技術。 ◦ 代表的なモデル：Stable Diffusion、Midjourney、DALL·Eなど。 ◦ Stable DiffusionやMidjourneyなど、最新の画像生成AIは「拡散モデル（Diffusion Model）」を

2. 画像生成AIのプロセス（拡散モデル） ① 学習（トレーニング） ◦ AIが大量の画像を見て、パターンを学習する。 ◦ 事前に行う独立したステップであり、生成（推論）のたびには行わない。 ◆具体的な流れ 1.

2. 画像生成AIのプロセス（拡散モデル） ② 画像生成（推論） ◦ ユーザーが入力した「テキスト」や「画像データ」に基づいて、AIが新しい画像を作成する。 →Text –to-Image(t2i),Image-to-Image(i2i) ◆具体的な流れ 1.

2. 画像生成AIのプロセス（拡散モデル） ③ 画像の最終調整 ◦ AIは生成した画像を、より自然にするために調整する。 ◦ 「画像生成（推論）」の後に行う、連動したステップ。 ◆技術例 ◦

学習・i2i対策対策内容説明有効度(学習 / i2i) ①Glaze 画風(スタイル)の抽出を防ぐための画像加工 ◎ /

①Glaze •説明： ◦ 画風(スタイル)の抽出を難しくするための画像加工 •仕組み： ◦ 人の目にはほとんど変化のないノイズを画像に付加 ◦ AIにとっては別の画風に見えるようになり、特徴抽出を撹乱 ◦

②Nightshade •説明： ◦ 学習時に誤学習させる毒性画像加工（ポイズニング） ◦ Glazeと同じチームにより開発 •仕組み： ◦ AIが誤認識するような情報を画像に埋め込む ◦

④著作表示・透かしの挿入 •説明/方法： ◦ 作者名・ID・透かし(ウォーターマーク)等を画像に重ねる ◦ 誰が描いたかを明示し、AI利用者や第三者に警告 ◦ 削除やトリミングされにくくする工夫も重要 •効果： ◦

⑤AI利用禁止の明記 •説明/方法： ◦ 画像内に「AI学習・使用禁止」などの文言を記載 ◦ 「禁止」であることをAI利用者やスクレイピングツールへ明示 •効果： ◦ 学習・ i2iの心理的・運用的な抑止力として有効

⑦SNS投稿設定の確認 •説明/方法： ◦ SNS投稿設定の見直しにより、スクレイピングから守る ◦ 非公開/限定公開などの公開範囲設定を活用 •効果： ◦ 特に学習データ収集の抑止に効果あり