Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
教師なし学習の基礎
Search
Hiroshi Kajino
January 30, 2025
Technology
2
190
教師なし学習の基礎
第21回 医療健康データ科学Webセミナーで使用した資料です.混合分布モデルや変分オートエンコーダの学習について説明しています.
Hiroshi Kajino
January 30, 2025
Tweet
Share
More Decks by Hiroshi Kajino
See All by Hiroshi Kajino
創薬における機械学習技術について
kanojikajino
13
4.8k
How to conduct research and write papers
kanojikajino
0
130
研究のやり方,論文の書き方
kanojikajino
8
5.5k
Other Decks in Technology
See All in Technology
あなたの興味は信頼性?それとも生産性? SREとしてのキャリアに悩むみなさまに伝えたい選択肢
jacopen
5
2.2k
panicを深ぼってみる
kworkdev
PRO
1
120
信頼性を支えるテレメトリーパイプラインの構築 / Building Telemetry Pipeline with OpenTelemetry
ymotongpoo
9
4.3k
フラット構造をやめた理由と、EM / Tech Leadを作った理由
baroqueworksdev
0
390
HCP TerraformとAzure:イオンスマートテクノロジーのインフラ革新 / HCP Terraform and Azure AEON Smart Technology's Infrastructure Innovation
aeonpeople
3
850
あなたはJVMの気持ちを理解できるか?
skrb
5
1.9k
Enhancing SRE Using AI
yoshiiryo1
1
130
20250122_FinJAWS
takuyay0ne
2
350
プロダクト開発、インフラ、コーポレート、そしてAIとの共通言語としての Terraform / Terraform as a Common Language for Product Development, Infrastructure, Corporate Engineering, and AI
yuyatakeyama
6
1.4k
Autify Company Deck
autifyhq
2
41k
2025/1/29 BigData-JAWS 勉強会 #28 (re:Invent 2024 re:Cap)/new-feature-preview-q-in-quicksight-scenarios-tried-and-tested
emiki
0
280
DevSecOps入門:Security Development Lifecycleによる開発プロセスのセキュリティ強化
yuriemori
0
200
Featured
See All Featured
Art, The Web, and Tiny UX
lynnandtonic
298
20k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
27
1.9k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
28
2.2k
Keith and Marios Guide to Fast Websites
keithpitt
410
22k
BBQ
matthewcrist
85
9.4k
We Have a Design System, Now What?
morganepeng
51
7.4k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Side Projects
sachag
452
42k
Facilitating Awesome Meetings
lara
51
6.2k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
127
18k
Transcript
第21回 医療健康データ科学Webセミナー “教師なし学習の基礎” 2025/01/30 梶野 洸
教師なし学習の基本的なモデルとその学習手法を紹介する 2 機械学習の基礎 • 機械学習の目的 • 代表的な問題設定 • 定式化 •
解き方 変分オートエンコーダと 確率的勾配EMアルゴリズム • 変分オートエンコーダ • 再パラメタ化法 • 確率的勾配EM アルゴリズム 混合正規分布モデルと EMアルゴリズム • 混合正規分布モデル • ELBOの導入 • EMアルゴリズム
機械学習=ある概念を具体例から帰納的に獲得する技術 3 具体例 複数の(画像,寿司か否か)の対 獲得したい概念 画像に寿司があるか否か 寿司 寿司 寿司ではない
機械学習=ある概念を具体例から帰納的に獲得する技術 4 具体例 食べ物の画像 獲得したい概念 食べ物の画像
機械学習=ある概念を具体例から帰納的に獲得する技術 5 具体例 食べ物の画像 獲得したい概念 食べ物の画像のなんとなくの分類
教師あり学習と教師なし学習が代表的な問題設定である 6 教師あり学習 入力 • データ 𝑥𝑛 (𝑛 = 1,2,
… , 𝑁) • ラベル 𝑦𝑛 (𝑛 = 1,2, … , 𝑁) 出力 未知のデータ 𝑥⋆ に対する ラベル 𝑦⋆ を予測できる仕組み 寿司 寿司 寿司ではない データ 𝒙 ラベル 𝒚 ラベル 𝑦 を得るのは高コストだが データ 𝑥 を得るのは低コスト
教師あり学習と教師なし学習が代表的な問題設定である 7 教師なし学習 入力 • データ 𝑥𝑛 (𝑛 = 1,2,
… , 𝑁) 出力 未知のデータ 𝑥⋆ が従う法則 データ 𝒙 • おおまかな分類 • 新たな事例の創出
ラベル付きデータがない場合でも 教師なし学習により知見が得られる可能性がある 8 教師あり学習 教師なし学習 入力 データとラベルの対 𝑥𝑛 , 𝑦𝑛
𝑛=1 𝑁 データ 𝑥𝑛 𝑛=1 𝑁 出力 未知の 𝑥⋆ に対するラベル 𝑦 を 予測する仕組み 未知のデータ 𝑥⋆ が従う規則 利点 使いやすい • ラベルなしでも知見が得られる • 教師あり学習のための特徴量学習
機械学習の問題の多くは,確率分布の推定に帰着される 9 教師あり学習 未知の事例 𝑥⋆ に対する ラベル 𝑦⋆ を予測できる仕組み 𝑝
𝑦 𝑥 入力: 𝒟 = 𝑥𝑛 , 𝑦𝑛 𝑛=1 𝑁 出力: 𝒟 の従う確率分布 𝑝 𝑦 𝑥 教師なし学習 未知の事例 𝑥⋆ が従う法則 𝑝(𝑥) 入力: 𝒟 = 𝑥𝑛 𝑛=1 𝑁 出力: 𝒟 の従う確率分布 𝑝 𝑥 = =
データから確率分布を推定するには最尤推定法を用いる 10 最尤推定法 入力: • パラメトリックモデル 𝑝𝜃 𝑥 𝜃 ∈
Θ • サンプル 𝒟 = 𝑥𝑛 𝑛=1 𝑁 独立同一分布に従うと仮定 出力: 最尤推定量 𝜃⋆ ∈ Θ 最尤推定法の手順 1. 対数尤度を書き下す 𝐿 𝜃 : = log 𝑝𝜃 (𝒟) = 𝑛=1 𝑁 log 𝑝𝜃 𝑥𝑛 2. 対数尤度を最大にするパラメタを 見つける 𝜃⋆ ∈ argmax 𝜃∈Θ 𝐿 𝜃 モデルで表現できる範囲内で サンプルを最もよく説明できる
モデルとして正規分布を選ぶと,最尤推定量は解析的に求まる 11 例: 分散固定の正規分布での最尤推定 確率密度関数 𝑝𝜇 𝑥 = 1 2𝜋
exp − 𝑥 − 𝜇 2 2 (𝑥, 𝜇 ∈ ℝ) サンプル 𝒟 = 𝑥𝑛 ∈ ℝ 𝑛=1 𝑁 1. 対数尤度を書き下す 𝐿 𝜇 = 𝑛=1 𝑁 log 𝑝𝜇 𝑥𝑛 = − 𝑛=1 𝑁 𝑥𝑛 − 𝜇 2 2 + 𝐶 2. 対数尤度をパラメタについて最大化 𝐿 𝜇 は 𝜇 に関する2次関数なので 停留点を求めればよい 𝑑𝐿 𝑑𝜇 𝜇 = − σ𝑛=1 𝑁 𝜇 − 𝑥𝑛 = ȁ 0 𝜇=𝜇⋆ より 𝜇⋆ = 1 𝑁 𝑛=1 𝑁 𝑥𝑛
本セミナーでは3つのモデルとその学習手法を紹介する 12 正規分布 混合正規分布 変分オートエンコーダ 表現力 小 中 大 最尤推定
解析解あり EMアルゴリズム 確率的勾配 変分EMアルゴリズム 用途 数値データの フィッティング • フィッティング • クラスタリング • 生成モデル • 事前学習
混合分布モデルを用いるとクラスタリングができる 13 混合正規分布モデル 複数の分布を混ぜ合わせて 複雑な分布を表現するモデル 応用例 1. 多峰の分布へのフィッティング • 基本的な分布は単峰のことが多い
• データが多峰の場合 2. 教師なしの分類(クラスタリング) 事例がどの分布から 発生したか推測
変分オートエンコーダを用いると データの生成や表現学習が可能になる 14 変分オートエンコーダ 確率モデルに基づくオートエンコーダ 応用例 1. デコーダを用いたデータ生成 2. エンコーダを用いた表現学習
𝑥 𝑥′ 𝒛 ∈ ℝ𝐻 なるべく近くなるように学習 𝑥′ 𝒩(0, 𝐼) 𝑥 𝑦 学習済みの エンコーダを用いる
多くのモデルでは,最尤推定量を解析的に計算できない 15 最尤推定量が解析的に 求まらない アルゴリズムを工夫する 勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム 変分EMアルゴリズム 確率的勾配
変分EMアルゴリズム その他のアルゴリズム 10% 90% 80% 20% 今回取り扱うアルゴリズム
もっとも基本的な手法である勾配法を紹介する 16 最尤推定量が解析的に 求まらない アルゴリズムを工夫する 勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム 変分EMアルゴリズム 確率的勾配
変分EMアルゴリズム その他のアルゴリズム 10% 90% 80% 20% 今回取り扱うアルゴリズム
対数尤度関数が「微分可能」であれば ほぼ自動的に勾配法が適用できる 17 勾配法による学習の手順 1. 対数尤度関数𝐿 𝜃 を微分可能な 計算手続きで記述する 2.
自動微分により勾配を計算し パラメタを更新 𝜃 ← 𝜃 + 𝛼 ⋅ 𝜕𝐿 𝜕𝜃 𝜃 機械学習における「微分可能」とは • 定義域全体で勾配が定義できる • 定義域の多くで勾配が0ではない (勾配が0だと情報が伝わらない) ※微分可能な演算で書けるモデル ≒ 自動微分+勾配法で学習可能 ≒ NN 微分可能でない 微分可能 最も対数尤度関数を 大きくする方向
18 混合正規分布モデルと EMアルゴリズム※ ※本講演では通常とは異なる導出を行うが,アルゴリズムの手続きは通常と同様である Dempster, Arthur P., Nan M. Laird,
and Donald B. Rubin. "Maximum likelihood from incomplete data via the EM algorithm." Journal of the royal statistical society: series B (methodological)39.1 (1977): 1-22.
多くのモデルでは,最尤推定量を解析的に計算できない 19 最尤推定量が解析的に 求まらない アルゴリズムを工夫する 勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム 変分EMアルゴリズム 確率的勾配
変分EMアルゴリズム その他のアルゴリズム 10% 90% 80% 20% 今回取り扱うアルゴリズム
混合分布モデルは,複数の確率分布を混ぜることで 複雑な確率分布を表現できる 20 混合分布モデル 確率密度関数 𝑝 𝑥 = 𝑘=1
𝐾 𝑝 𝑥 𝑧 = 𝑘 𝑝 𝑧 = 𝑘 確率変数 • 𝑋: 観測変数 • 𝑍: 潜在変数(観測されない) 𝑋 の従う分布が正規分布のとき 混合ガウスモデルとよぶ (Gaussian Mixture Model; GMM) 生成モデルとしての説明 𝐾 面さいころを振って 𝑍 = 𝑘 を得る 𝑝(𝑥 ∣ 𝑧 = 𝑘)に したがって 事例 𝑥 を生成
潜在変数の推論により教師なしの分類ができる 21 データの教師なし分類(クラスタリング) 各事例 𝑥𝑛 の背後にある潜在変数 𝑧𝑛 は 事例がどの山から生成されたかを示す 𝑝
𝑧𝑛 𝑥𝑛 = 𝑝 𝑥𝑛 𝑧𝑛 𝑝(𝑧𝑛 ) 𝑝(𝑥𝑛 )
手もとのサンプルでモデルを学習したのち事後分布を計算する 22 混合ガウスモデルを用いた解析のながれ 1. 混合ガウスモデルの最尤推定 入力 • モデル 𝑝𝜃 𝑥
𝜃 ∈ Θ • サンプル 𝒟 = 𝑥𝑛 𝑛=1 𝑁 出力 最尤推定量 𝜃⋆ 2. 各事例に対する事後分布の計算 𝑝𝜃⋆ 𝑧𝑛 𝑥𝑛 = 𝑝𝜃⋆ 𝑥𝑛 𝑧𝑛 𝑝𝜃⋆(𝑧𝑛 ) 𝑝𝜃⋆ (𝑥𝑛 ) 各事例の分類が得られる
最尤推定の手順を適用する 23 混合ガウスモデルを用いた解析のながれ 1. 混合ガウスモデルの最尤推定 入力 • モデル 𝑝𝜃 𝑥
𝜃 ∈ Θ • サンプル 𝒟 = 𝑥𝑛 𝑛=1 𝑁 出力 最尤推定量 𝜃⋆ 2. 各事例に対する事後分布の計算 𝑝𝜃⋆ 𝑧𝑛 𝑥𝑛 = 𝑝𝜃⋆ 𝑥𝑛 𝑧𝑛 𝑝𝜃⋆(𝑧𝑛 ) 𝑝𝜃⋆ (𝑥𝑛 ) 最尤推定法の手順 1. 対数尤度を書き下す 𝐿 𝜃 : = log 𝑝𝜃 (𝒟) = 𝑛=1 𝑁 log 𝑝𝜃 𝑥𝑛 2. 対数尤度を最大にするパラメタを 見つける 𝜃⋆ ∈ argmax 𝜃∈Θ 𝐿 𝜃
GMMのpdfはK面さいころと正規分布を組み合わせて書ける 24 最尤推定法の手順 1. 対数尤度を書き下す 𝐿 𝜃 : = log
𝑝𝜃 (𝒟) = 𝑛=1 𝑁 log 𝑝𝜃 𝑥𝑛 2. 対数尤度を最大にするパラメタを 見つける 𝜃⋆ ∈ argmax 𝜃∈Θ 𝐿 𝜃 混合ガウスモデル (GMM) 𝑝𝜃 𝑥 = 𝑘=1 𝐾 𝜋𝑘 ⋅ 𝒩 𝑥; 𝜇𝑘 , Σ𝑘 学習するパラメタ𝜃 • 𝜇𝑘 , Σ𝑘 𝑘=1 𝐾 : 正規分布のパラメタ • 𝜋𝑘 𝑘=1 𝐾 : K面さいころのパラメタ 𝑘=1 𝐾 𝜋𝑘 = 1 𝑝(𝑧 = 𝑘) 正規分布の pdf
GMMのpdfはK面さいころと正規分布を組み合わせて書ける 25 最尤推定法の手順 1. 対数尤度を書き下す 𝐿 𝜃 : = log
𝑝𝜃 (𝒟) = 𝑛=1 𝑁 log 𝑝𝜃 𝑥𝑛 2. 対数尤度を最大にするパラメタを 見つける 𝜃⋆ ∈ argmax 𝜃∈Θ 𝐿 𝜃 混合ガウスモデルの対数尤度 𝐿 𝜃 = 𝑛=1 𝑁 log 𝑘=1 𝐾 𝜋𝑘 ⋅ 𝒩 𝑥𝑛 ; 𝜇𝑘 , Σ𝑘 学習するパラメタ𝜃 • 𝜇𝑘 , Σ𝑘 𝑘=1 𝐾 : 正規分布のパラメタ • 𝜋𝑘 𝑘=1 𝐾 : K面さいころのパラメタ 𝐾 𝜋𝑘 = 1 さきほどのpdf
最尤推定量を解析的に求めることはできない 26 最尤推定法の手順 1. 対数尤度を書き下す 𝐿 𝜃 : = log
𝑝𝜃 (𝒟) = 𝑛=1 𝑁 log 𝑝𝜃 𝑥𝑛 2. 対数尤度を最大にするパラメタを 見つける 𝜃⋆ ∈ argmax 𝜃∈Θ 𝐿 𝜃 混合ガウスモデルの対数尤度 𝐿 𝜃 = 𝑛=1 𝑁 log 𝑘=1 𝐾 𝜋𝑘 ⋅ 𝒩 𝑥𝑛 ; 𝜇𝑘 , Σ𝑘 logの中に足し算があるので 解析的に解けなさそう
混合ガウスモデルでは勾配法での最適化も可能 27 最尤推定量が解析的に 求まらない アルゴリズムを工夫する 勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム 変分EMアルゴリズム 確率的勾配
変分EMアルゴリズム その他のアルゴリズム 10% 90% 80% 20% 今回取り扱うアルゴリズム
使いやすさからEMアルゴリズムが適用されることが多い 28 最尤推定量が解析的に 求まらない アルゴリズムを工夫する 勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム 変分EMアルゴリズム 確率的勾配
変分EMアルゴリズム その他のアルゴリズム 10% 90% 80% 20% 今回取り扱うアルゴリズム
EMアルゴリズムは,ハイパーパラメタの設定が不要な点で 使いやすい 29 勾配法 EMアルゴリズム 手続き 勾配にしたがってパラメタを 更新しつづける E-step/M-stepを繰り返す 利点
実装が簡単 • ハイパーパラメタが不要 • 尤度が単調非減少性 欠点 学習率などハイパーパラメタの 設定が必要 モデル個別の実装が必要
最も基本的なEMアルゴリズムを紹介する 30 最尤推定量が解析的に 求まらない アルゴリズムを工夫する 勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム 変分EMアルゴリズム 確率的勾配
変分EMアルゴリズム その他のアルゴリズム 10% 90% 80% 20% 今回取り扱うアルゴリズム
対数関数は凹関数だから期待値と入れ替えて下界を導出できる 31 EMアルゴリズム 変分分布 𝑞(𝑧) を用いて対数尤度の下界 (ELBO)を設定する 𝐿 𝜃 =
𝑛=1 𝑁 log 𝑘=1 𝐾 𝑝 𝑥𝑛 , 𝑧𝑛 = 𝑘 = 𝑛=1 𝑁 log 𝔼𝑍𝑛∼𝑞 𝑝 𝑥𝑛 , 𝑍𝑛 𝑞 𝑍𝑛 ≥ 𝑛=1 𝑁 𝔼𝑍𝑛∼𝑞 log 𝑝 𝑥𝑛 , 𝑍𝑛 𝑞(𝑍𝑛 )
任意の変分分布について,ELBOは対数尤度の下界となる 32 変分下界 (Evidence Lower Bound; ELBO) 任意の変分分布 𝑞 𝑧
について以下が成立 𝐿 𝜃 ≥ 𝑛=1 𝑁 𝔼𝑍∼𝑞 log 𝑝𝜃 𝑥, 𝑍 𝑞 𝑍 =: ELBO(𝜃, 𝑞) • 𝜃を学習するのに対数尤度の代わりに その下界を最大化してもよさそう • 𝑞によって下界の良さが変わるので 良い 𝑞 に更新しつづける必要あり 𝜃 𝐿 𝜃 ELBO 𝜃, 𝑞1 ELBO 𝜃, 𝑞2
33 𝜃 𝐿 𝜃 ELBO 𝜃, 𝑞1 ELBO 𝜃, 𝑞2
𝜃(1) 𝜃 1 でのELBOの値が 最大になるように 変分分布を選ぶ
34 𝜃 𝐿 𝜃 ELBO 𝜃, 𝑞2 𝜃(1) ELBOを最大に するように𝜃を更新
𝜃(2)
35 𝜃 𝐿 𝜃 𝜃(2) 𝜃 2 でのELBOの値が 最大になるように 変分分布を選ぶ
36 𝜃 𝐿 𝜃 𝜃(2) 𝜃(3) ELBOを最大に するように𝜃を更新
変分分布は,現状のモデルでの事後分布に設定するのがベスト 37 Eステップ 𝑞を動かして最良のELBOを求める ELBO 𝜃, 𝑞 = 𝑛=1
𝑁 𝔼𝑍∼𝑞 log 𝑝𝜃 𝑥, 𝑍 𝑞 𝑍 𝜕 𝜕𝑞 𝑧𝑛 = 𝑧 ELBO 𝜃, 𝑞 + 𝜆 1 − 𝑘=1 𝐾 𝑞 𝑧𝑛 = 𝑘 = log 𝑝𝜃 (𝑥𝑛 , 𝑧) − log 𝑞 𝑧 − 1 + 𝜆 ቚ = 0 𝑞 𝑧 =𝑞⋆ 𝑧 を解くと 𝑞⋆ 𝑧 = 𝑝𝜃 𝑧 𝑥𝑛 「𝑞は確率分布」 という制約 GMMの場合計算可能
各分布について重み付き最尤推定を解けばよい 38 Mステップ (1/2) 𝑞を固定して下界を𝜃(のうち各コンポーネントのパラメタ)について最大化 𝜕 𝜕𝜃 ELBO 𝜃, 𝑞
= 𝜕 𝜕𝜃 𝑛=1 𝑁 𝔼𝑍𝑛∼𝑞 log 𝑝𝜃 𝑥𝑛 𝑍𝑛 = 𝜕 𝜕𝜃 𝑘=1 𝐾 𝑛=1 𝑁 𝑞(𝑧𝑛 = 𝑘) log 𝑝𝜃 𝑥𝑛 𝑧𝑛 = 𝑘 𝑘番目の分布のパラメタは 重み付き最尤推定で求まる
K面さいころのパラメタ推定も重み付き最尤推定となる 39 Mステップ (2/2) 𝑞を固定して下界を𝜃(のうちK面さいころのパラメタ𝜋)について最大化 𝜕 𝜕𝜋𝑘 ELBO 𝜃, 𝑞
= 𝜕 𝜕𝜋𝑘 𝑛=1 𝑁 𝔼𝑍𝑛∼𝑞 log 𝑝𝜃 𝑍𝑛 + 𝜆 1 − 𝑘=1 𝐾 𝜋𝑘 = 𝜕 𝜕𝜋𝑘 𝑘=1 𝐾 𝑛=1 𝑁 𝑞 𝑧𝑛 = 𝑘 log 𝜋𝑘 − 𝜆 𝑘=1 𝐾 𝜋𝑘 = 𝑛=1 𝑁 𝑞 𝑧𝑛 = 𝑘 𝜋𝑘 − 𝜆 ቚ = 0 𝜋𝑘=𝜋𝑘 ⋆ より 𝜋𝑘 ⋆ = 1 𝑁 𝑛=1 𝑁 𝑞 𝑧𝑛 = 𝑘 ソフトな割り当てを元にした 最尤推定 「𝜋は確率分布」 という制約
EステップとMステップを交互に繰返すと局所最適解が求まる 40 EMアルゴリズムの全体 1. パラメタ𝜃を適当に初期化 2. 適当な終了条件を満たすまで繰返す 1. Eステップ(事後分布の計算) 2.
Mステップ(重み付き最尤推定) EMアルゴリズムの特長 • 各ステップとも解析的に書ける Eステップを解析的に計算できない 場合,変分EMアルゴリズム (変分ベイズ)と呼ばれる • 各繰返しで尤度が単調非減少 • 局所最適解が求まる
41 変分オートエンコーダと 確率的勾配EMアルゴリズム※ ※確率的勾配変分ベイズ推定(Stochastic gradient variational Bayes estimator)と呼ばれているが,こちらの名称の方がおそらく適当 Kingma, Diederik
P. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013).
変分オートエンコーダおよびその学習で用いられる アルゴリズムを紹介する 42 最尤推定量が解析的に 求まらない アルゴリズムを工夫する 勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム 変分EMアルゴリズム
確率的勾配 変分EMアルゴリズム その他のアルゴリズム 10% 90% 80% 20% 今回取り扱うアルゴリズム
変分オートエンコーダはNNを用いた生成モデルの1つ 43 変分オートエンコーダ 目的: NNを使って生成モデルを作る 𝑝 𝑥 = න 𝑝
𝑥 𝑧 𝑝 𝑧 d𝑧 利点 • NNの表現力を活かせる • (副産物として)データ𝑥の 潜在表現zを計算できる 学習の方針 𝐿 𝜃 ≥ 𝑛=1 𝑁 𝔼𝑍𝑛∼𝑞𝜙(⋅∣𝑥𝑛) log 𝑝𝜃 𝑥𝑛 , 𝑍𝑛 𝑞𝜙 (𝑍𝑛 ∣ 𝑥𝑛 ) EMアルゴリズムにしたがう • 変分分布を動かしてELBO最大化 • 変分分布を固定して パラメタについて最大化 特徴 • 変分分布は 𝑥 で条件付けてNNを用いる • NN部分は勾配法で学習したい サンプリングが 簡単な確率分布 NNで 𝑧 を 𝑥 に変換
データとその潜在表現を行き来するための エンコーダ・デコーダを学習できる 44 変分オートエンコーダの構造 • 事前分布 𝑝(𝒛) 平均𝟎,分散共分散行列𝐼の正規分布 • デコーダ
𝑝𝜃 (𝒙 ∣ 𝒛) • エンコーダ(変分分布) 𝑞𝜙 (𝒛 ∣ 𝒙) • ニューラルネット部分はデータ𝑥 に 応じて適切なものを用いる 𝒛 NN 何らかの 確率分布 𝒙 𝒙 NN 何らかの 確率分布 𝒛
データ 𝑥𝑛 とその潜在表現 𝑧𝑛 が与えられたもとで ELBOは計算可能で微分可能 45 𝒙𝒏 , 𝒛𝒏
を与えたもとでのELBOの計算手順 𝔼𝑍𝑛∼𝑞𝜙(⋅∣𝑥𝑛) log 𝑝𝜃 𝑥𝑛 ∣ 𝑍𝑛 𝑝 𝑍𝑛 𝑞𝜙 (𝑍𝑛 ∣ 𝑥𝑛 ) ⋅ の計算 • log 𝑝 𝑧𝑛 : できる • log 𝑝𝜃 𝑥𝑛 𝑧𝑛 : できる/微分可能 • log 𝑞𝜙 𝑧𝑛 𝑥𝑛 : できる/微分可能 𝒛𝑛 NN 正規分布 𝒙𝑛 正規分布の 平均・分散 𝒙𝑛 NN 正規分布 𝒛𝑛 正規分布の 平均・分散 正規分布の 実現値 正規分布の 実現値
確率変数の実現値を微分する必要がある 46 𝒙𝒏 を与えたもとでのELBOの計算手順 𝔼𝑍𝑛∼𝑞𝜙(⋅∣𝑥𝑛) log 𝑝𝜃 𝑥𝑛 ∣ 𝑍𝑛
𝑝 𝑍𝑛 𝑞𝜙 (𝑍𝑛 ∣ 𝑥𝑛 ) 期待値は平均で近似すると計算可能: 1 𝑆 𝑠=1 𝑆 log 𝑝𝜃 𝑥𝑛 ∣ 𝑧𝑛 (𝑠) 𝑝 𝑧𝑛 (𝑠) 𝑞𝜙 (𝑧 𝑛 (𝑠) ∣ 𝑥𝑛 ) ELBO計算の課題 実現値𝑧𝑛 𝑠 は𝜙に依存するが, 𝜙に関して微分可能にできるか? →自明ではない 例: 𝑞𝜙 𝑧 𝑥 = 𝒩 𝑧; 𝜇𝜙 𝑥 , Σ𝜙 𝑥 としたとき,上記の正規分布の 実現値は微分できない気がする
確率変数を適切に分解することで実現値の微分が計算できる 47 再パラメタ化法 (reparameterization trick) 𝑞𝜙 𝑧 𝑥 = 𝒩
𝑧; 𝜇𝜙 𝑥 , Σ𝜙 𝑥 のとき 𝝐 ∼ 𝒩(⋅; 𝟎, 𝐼) を用いて 𝒁 = 𝝁𝜙 𝑥 + Σ𝜙 𝑥 1 2 𝝐 ポイント • 𝑍 ∼ 𝑞𝜙 ⋅ 𝑥 は 𝜙 に依存する 確率変数だった • 確率変数を以下の2つに分離すると 自動微分できる • パラメタに依存するが 決定的に計算できる項 • パラメタに依存しない確率変数 • 適用可能例 • 正規分布 • カテゴリカル分布 (Gumbel softmax) パラメタに依存しない 確率変数
全事例でELBOを計算するのは大変なのでミニバッチで計算 48 変分オートエンコーダ学習手順 𝑛=1 𝑁′ 𝔼𝑍𝑛∼𝑞𝜙(⋅∣𝑥𝑛) log 𝑝𝜃
𝑥𝑛 , 𝑍𝑛 𝑞𝜙 (𝑍𝑛 ∣ 𝑥𝑛 ) 𝑁′個の事例からなる ミニバッチ 𝑥𝑛 𝑛=1 𝑁 を取得
期待値は再パラメタ化法に基づきモンテカルロ近似する 49 変分オートエンコーダ学習手順 𝑛=1 𝑁′ 𝔼𝑍𝑛∼𝑞𝜙(⋅∣𝑥𝑛) log 𝑝𝜃
𝑥𝑛 , 𝑍𝑛 𝑞𝜙 (𝑍𝑛 ∣ 𝑥𝑛 ) 各事例𝑥𝑛 に対して 𝑧𝑛 𝑠 𝑠=1 𝑆 を再パラメタ化法で計算
変分オートエンコーダの各コンポーネントを使って計算 50 変分オートエンコーダ学習手順 𝑛=1 𝑁′ 𝔼𝑍𝑛∼𝑞𝜙(⋅∣𝑥𝑛) log 𝑝𝜃
𝑥𝑛 , 𝑍𝑛 𝑞𝜙 (𝑍𝑛 ∣ 𝑥𝑛 ) 各 𝑥𝑛 , 𝑧𝑛 𝑠 に対して エンコーダ・デコーダを用いて計算
ELBOの近似値を微分可能な形で計算できたので 確率的勾配降下法で最適化可能 51 変分オートエンコーダ学習手順 𝑛=1 𝑁′ 𝔼𝑍𝑛∼𝑞𝜙(⋅∣𝑥𝑛) log
𝑝𝜃 𝑥𝑛 , 𝑍𝑛 𝑞𝜙 (𝑍𝑛 ∣ 𝑥𝑛 ) 全体を計算したら自動微分で𝜃, 𝜙に ついて勾配を計算し確率的勾配降下 法にしたがって 𝜃, 𝜙を更新
EMアルゴリズムの一族は,ELBOを最適化する点で 共通しているが最適化の方法が異なる 52 最尤推定量が解析的に 求まらない アルゴリズムを工夫する 勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム 変分EMアルゴリズム
確率的勾配 変分EMアルゴリズム その他のアルゴリズム 10% 90% 80% 20%
教師なし学習の基本的なモデルとその学習手法を紹介した 53 教師なし学習のモデルを紹介した • 混合分布モデル 用途: • フィッティング • クラスタリング
• 変分オートエンコーダ 用途: • 生成モデル • 事前学習 教師なし学習のアルゴリズムを紹介した • EMアルゴリズム • 確率的勾配変分EMアルゴリズム より発展的な話題 • 拡散モデル ELBOの導出 +マルコフ性の利用 +正規分布まわりの公式 • 実装 https://github.com/kanojikajino/lecture Luo, Calvin. "Understanding diffusion models: A unified perspective." arXiv preprint arXiv:2208.11970 (2022).