教師なし学習の基礎

第21回医療健康データ科学Webセミナー “教師なし学習の基礎” 2025/01/30 梶野洸

教師なし学習の基本的なモデルとその学習手法を紹介する 2 機械学習の基礎 • 機械学習の目的 • 代表的な問題設定 • 定式化 •
解き方変分オートエンコーダと確率的勾配EMアルゴリズム • 変分オートエンコーダ • 再パラメタ化法 • 確率的勾配EM アルゴリズム混合正規分布モデルと EMアルゴリズム • 混合正規分布モデル • ELBOの導入 • EMアルゴリズム

機械学習＝ある概念を具体例から帰納的に獲得する技術 3 具体例複数の（画像，寿司か否か）の対獲得したい概念画像に寿司があるか否か寿司寿司寿司ではない

機械学習＝ある概念を具体例から帰納的に獲得する技術 4 具体例食べ物の画像獲得したい概念食べ物の画像

機械学習＝ある概念を具体例から帰納的に獲得する技術 5 具体例食べ物の画像獲得したい概念食べ物の画像のなんとなくの分類

教師あり学習と教師なし学習が代表的な問題設定である 6 教師あり学習入力 • データ 𝑥𝑛 (𝑛 = 1,2,
… , 𝑁) • ラベル 𝑦𝑛 (𝑛 = 1,2, … , 𝑁) 出力未知のデータ 𝑥⋆ に対するラベル 𝑦⋆ を予測できる仕組み寿司寿司寿司ではないデータ 𝒙 ラベル 𝒚 ラベル 𝑦 を得るのは高コストだがデータ 𝑥 を得るのは低コスト

教師あり学習と教師なし学習が代表的な問題設定である 7 教師なし学習入力 • データ 𝑥𝑛 (𝑛 = 1,2,
… , 𝑁) 出力未知のデータ 𝑥⋆ が従う法則データ 𝒙 • おおまかな分類 • 新たな事例の創出

ラベル付きデータがない場合でも教師なし学習により知見が得られる可能性がある 8 教師あり学習教師なし学習入力データとラベルの対 𝑥𝑛 , 𝑦𝑛
𝑛=1 𝑁 データ 𝑥𝑛 𝑛=1 𝑁 出力未知の 𝑥⋆ に対するラベル 𝑦 を予測する仕組み未知のデータ 𝑥⋆ が従う規則利点使いやすい • ラベルなしでも知見が得られる • 教師あり学習のための特徴量学習

機械学習の問題の多くは，確率分布の推定に帰着される 9 教師あり学習未知の事例 𝑥⋆ に対するラベル 𝑦⋆ を予測できる仕組み 𝑝
𝑦 𝑥 入力: 𝒟 = 𝑥𝑛 , 𝑦𝑛 𝑛=1 𝑁 出力: 𝒟 の従う確率分布 𝑝 𝑦 𝑥 教師なし学習未知の事例 𝑥⋆ が従う法則 𝑝(𝑥) 入力: 𝒟 = 𝑥𝑛 𝑛=1 𝑁 出力: 𝒟 の従う確率分布 𝑝 𝑥 = =

データから確率分布を推定するには最尤推定法を用いる 10 最尤推定法入力: • パラメトリックモデル 𝑝𝜃 𝑥 𝜃 ∈
Θ • サンプル 𝒟 = 𝑥𝑛 𝑛=1 𝑁 独立同一分布に従うと仮定出力: 最尤推定量 𝜃⋆ ∈ Θ 最尤推定法の手順 1. 対数尤度を書き下す 𝐿 𝜃 : = log 𝑝𝜃 (𝒟) = ෍ 𝑛=1 𝑁 log 𝑝𝜃 𝑥𝑛 2. 対数尤度を最大にするパラメタを見つける 𝜃⋆ ∈ argmax 𝜃∈Θ 𝐿 𝜃 モデルで表現できる範囲内でサンプルを最もよく説明できる

モデルとして正規分布を選ぶと，最尤推定量は解析的に求まる 11 例: 分散固定の正規分布での最尤推定確率密度関数 𝑝𝜇 𝑥 = 1 2𝜋
exp − 𝑥 − 𝜇 2 2 (𝑥, 𝜇 ∈ ℝ) サンプル 𝒟 = 𝑥𝑛 ∈ ℝ 𝑛=1 𝑁 1. 対数尤度を書き下す 𝐿 𝜇 = ෍ 𝑛=1 𝑁 log 𝑝𝜇 𝑥𝑛 = − ෍ 𝑛=1 𝑁 𝑥𝑛 − 𝜇 2 2 + 𝐶 2. 対数尤度をパラメタについて最大化 𝐿 𝜇 は 𝜇 に関する2次関数なので停留点を求めればよい 𝑑𝐿 𝑑𝜇 𝜇 = − σ𝑛=1 𝑁 𝜇 − 𝑥𝑛 = ȁ 0 𝜇=𝜇⋆ より 𝜇⋆ = 1 𝑁 ෍ 𝑛=1 𝑁 𝑥𝑛

本セミナーでは3つのモデルとその学習手法を紹介する 12 正規分布混合正規分布変分オートエンコーダ表現力小中大最尤推定
解析解あり EMアルゴリズム確率的勾配変分EMアルゴリズム用途数値データのフィッティング • フィッティング • クラスタリング • 生成モデル • 事前学習

混合分布モデルを用いるとクラスタリングができる 13 混合正規分布モデル複数の分布を混ぜ合わせて複雑な分布を表現するモデル応用例 1. 多峰の分布へのフィッティング • 基本的な分布は単峰のことが多い
• データが多峰の場合 2. 教師なしの分類（クラスタリング）事例がどの分布から発生したか推測

変分オートエンコーダを用いるとデータの生成や表現学習が可能になる 14 変分オートエンコーダ確率モデルに基づくオートエンコーダ応用例 1. デコーダを用いたデータ生成 2. エンコーダを用いた表現学習
𝑥 𝑥′ 𝒛 ∈ ℝ𝐻 なるべく近くなるように学習 𝑥′ 𝒩(0, 𝐼) 𝑥 𝑦 学習済みのエンコーダを用いる

多くのモデルでは，最尤推定量を解析的に計算できない 15 最尤推定量が解析的に求まらないアルゴリズムを工夫する勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム変分EMアルゴリズム確率的勾配
変分EMアルゴリズムその他のアルゴリズム 10% 90% 80% 20% 今回取り扱うアルゴリズム

もっとも基本的な手法である勾配法を紹介する 16 最尤推定量が解析的に求まらないアルゴリズムを工夫する勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム変分EMアルゴリズム確率的勾配

対数尤度関数が「微分可能」であればほぼ自動的に勾配法が適用できる 17 勾配法による学習の手順 1. 対数尤度関数𝐿 𝜃 を微分可能な計算手続きで記述する 2.
自動微分により勾配を計算しパラメタを更新 𝜃 ← 𝜃 + 𝛼 ⋅ 𝜕𝐿 𝜕𝜃 𝜃 機械学習における「微分可能」とは • 定義域全体で勾配が定義できる • 定義域の多くで勾配が0ではない（勾配が0だと情報が伝わらない） ※微分可能な演算で書けるモデル ≒ 自動微分＋勾配法で学習可能 ≒ NN 微分可能でない微分可能最も対数尤度関数を大きくする方向

18 混合正規分布モデルと EMアルゴリズム※ ※本講演では通常とは異なる導出を行うが，アルゴリズムの手続きは通常と同様である Dempster, Arthur P., Nan M. Laird,
and Donald B. Rubin. "Maximum likelihood from incomplete data via the EM algorithm." Journal of the royal statistical society: series B (methodological)39.1 (1977): 1-22.

多くのモデルでは，最尤推定量を解析的に計算できない 19 最尤推定量が解析的に求まらないアルゴリズムを工夫する勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム変分EMアルゴリズム確率的勾配

混合分布モデルは，複数の確率分布を混ぜることで複雑な確率分布を表現できる 20 混合分布モデル確率密度関数 𝑝 𝑥 = ෍ 𝑘=1
𝐾 𝑝 𝑥 𝑧 = 𝑘 𝑝 𝑧 = 𝑘 確率変数 • 𝑋: 観測変数 • 𝑍: 潜在変数（観測されない） 𝑋 の従う分布が正規分布のとき混合ガウスモデルとよぶ（Gaussian Mixture Model; GMM）生成モデルとしての説明 𝐾 面さいころを振って 𝑍 = 𝑘 を得る 𝑝(𝑥 ∣ 𝑧 = 𝑘)にしたがって事例 𝑥 を生成

潜在変数の推論により教師なしの分類ができる 21 データの教師なし分類（クラスタリング）各事例 𝑥𝑛 の背後にある潜在変数 𝑧𝑛 は事例がどの山から生成されたかを示す 𝑝
𝑧𝑛 𝑥𝑛 = 𝑝 𝑥𝑛 𝑧𝑛 𝑝(𝑧𝑛 ) 𝑝(𝑥𝑛 )

手もとのサンプルでモデルを学習したのち事後分布を計算する 22 混合ガウスモデルを用いた解析のながれ 1. 混合ガウスモデルの最尤推定入力 • モデル 𝑝𝜃 𝑥
𝜃 ∈ Θ • サンプル 𝒟 = 𝑥𝑛 𝑛=1 𝑁 出力最尤推定量 𝜃⋆ 2. 各事例に対する事後分布の計算 𝑝𝜃⋆ 𝑧𝑛 𝑥𝑛 = 𝑝𝜃⋆ 𝑥𝑛 𝑧𝑛 𝑝𝜃⋆(𝑧𝑛 ) 𝑝𝜃⋆ (𝑥𝑛 ) 各事例の分類が得られる

最尤推定の手順を適用する 23 混合ガウスモデルを用いた解析のながれ 1. 混合ガウスモデルの最尤推定入力 • モデル 𝑝𝜃 𝑥
𝜃 ∈ Θ • サンプル 𝒟 = 𝑥𝑛 𝑛=1 𝑁 出力最尤推定量 𝜃⋆ 2. 各事例に対する事後分布の計算 𝑝𝜃⋆ 𝑧𝑛 𝑥𝑛 = 𝑝𝜃⋆ 𝑥𝑛 𝑧𝑛 𝑝𝜃⋆(𝑧𝑛 ) 𝑝𝜃⋆ (𝑥𝑛 ) 最尤推定法の手順 1. 対数尤度を書き下す 𝐿 𝜃 : = log 𝑝𝜃 (𝒟) = ෍ 𝑛=1 𝑁 log 𝑝𝜃 𝑥𝑛 2. 対数尤度を最大にするパラメタを見つける 𝜃⋆ ∈ argmax 𝜃∈Θ 𝐿 𝜃

GMMのpdfはK面さいころと正規分布を組み合わせて書ける 24 最尤推定法の手順 1. 対数尤度を書き下す 𝐿 𝜃 : = log
𝑝𝜃 (𝒟) = ෍ 𝑛=1 𝑁 log 𝑝𝜃 𝑥𝑛 2. 対数尤度を最大にするパラメタを見つける 𝜃⋆ ∈ argmax 𝜃∈Θ 𝐿 𝜃 混合ガウスモデル (GMM) 𝑝𝜃 𝑥 = ෍ 𝑘=1 𝐾 𝜋𝑘 ⋅ 𝒩 𝑥; 𝜇𝑘 , Σ𝑘 学習するパラメタ𝜃 • 𝜇𝑘 , Σ𝑘 𝑘=1 𝐾 : 正規分布のパラメタ • 𝜋𝑘 𝑘=1 𝐾 : K面さいころのパラメタ ෍ 𝑘=1 𝐾 𝜋𝑘 = 1 𝑝(𝑧 = 𝑘) 正規分布の pdf

GMMのpdfはK面さいころと正規分布を組み合わせて書ける 25 最尤推定法の手順 1. 対数尤度を書き下す 𝐿 𝜃 : = log
𝑝𝜃 (𝒟) = ෍ 𝑛=1 𝑁 log 𝑝𝜃 𝑥𝑛 2. 対数尤度を最大にするパラメタを見つける 𝜃⋆ ∈ argmax 𝜃∈Θ 𝐿 𝜃 混合ガウスモデルの対数尤度 𝐿 𝜃 = ෍ 𝑛=1 𝑁 log ෍ 𝑘=1 𝐾 𝜋𝑘 ⋅ 𝒩 𝑥𝑛 ; 𝜇𝑘 , Σ𝑘 学習するパラメタ𝜃 • 𝜇𝑘 , Σ𝑘 𝑘=1 𝐾 : 正規分布のパラメタ • 𝜋𝑘 𝑘=1 𝐾 : K面さいころのパラメタ ෍ 𝐾 𝜋𝑘 = 1 さきほどのpdf

最尤推定量を解析的に求めることはできない 26 最尤推定法の手順 1. 対数尤度を書き下す 𝐿 𝜃 : = log
𝑝𝜃 (𝒟) = ෍ 𝑛=1 𝑁 log 𝑝𝜃 𝑥𝑛 2. 対数尤度を最大にするパラメタを見つける 𝜃⋆ ∈ argmax 𝜃∈Θ 𝐿 𝜃 混合ガウスモデルの対数尤度 𝐿 𝜃 = ෍ 𝑛=1 𝑁 log ෍ 𝑘=1 𝐾 𝜋𝑘 ⋅ 𝒩 𝑥𝑛 ; 𝜇𝑘 , Σ𝑘 logの中に足し算があるので解析的に解けなさそう 

混合ガウスモデルでは勾配法での最適化も可能 27 最尤推定量が解析的に求まらないアルゴリズムを工夫する勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム変分EMアルゴリズム確率的勾配

使いやすさからEMアルゴリズムが適用されることが多い 28 最尤推定量が解析的に求まらないアルゴリズムを工夫する勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム変分EMアルゴリズム確率的勾配

EMアルゴリズムは，ハイパーパラメタの設定が不要な点で使いやすい 29 勾配法 EMアルゴリズム手続き勾配にしたがってパラメタを更新しつづける E-step/M-stepを繰り返す利点
実装が簡単 • ハイパーパラメタが不要 • 尤度が単調非減少性欠点学習率などハイパーパラメタの設定が必要モデル個別の実装が必要

最も基本的なEMアルゴリズムを紹介する 30 最尤推定量が解析的に求まらないアルゴリズムを工夫する勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム変分EMアルゴリズム確率的勾配

対数関数は凹関数だから期待値と入れ替えて下界を導出できる 31 EMアルゴリズム変分分布 𝑞(𝑧) を用いて対数尤度の下界（ELBO）を設定する 𝐿 𝜃 =
෍ 𝑛=1 𝑁 log ෍ 𝑘=1 𝐾 𝑝 𝑥𝑛 , 𝑧𝑛 = 𝑘 = ෍ 𝑛=1 𝑁 log 𝔼𝑍𝑛∼𝑞 𝑝 𝑥𝑛 , 𝑍𝑛 𝑞 𝑍𝑛 ≥ ෍ 𝑛=1 𝑁 𝔼𝑍𝑛∼𝑞 log 𝑝 𝑥𝑛 , 𝑍𝑛 𝑞(𝑍𝑛 )

任意の変分分布について，ELBOは対数尤度の下界となる 32 変分下界 (Evidence Lower Bound; ELBO) 任意の変分分布 𝑞 𝑧
について以下が成立 𝐿 𝜃 ≥ ෍ 𝑛=1 𝑁 𝔼𝑍∼𝑞 log 𝑝𝜃 𝑥, 𝑍 𝑞 𝑍 =: ELBO(𝜃, 𝑞) • 𝜃を学習するのに対数尤度の代わりにその下界を最大化してもよさそう • 𝑞によって下界の良さが変わるので良い 𝑞 に更新しつづける必要あり 𝜃 𝐿 𝜃 ELBO 𝜃, 𝑞1 ELBO 𝜃, 𝑞2

33 𝜃 𝐿 𝜃 ELBO 𝜃, 𝑞1 ELBO 𝜃, 𝑞2
𝜃(1) 𝜃 1 でのELBOの値が最大になるように変分分布を選ぶ

34 𝜃 𝐿 𝜃 ELBO 𝜃, 𝑞2 𝜃(1) ELBOを最大にするように𝜃を更新
𝜃(2)

35 𝜃 𝐿 𝜃 𝜃(2) 𝜃 2 でのELBOの値が最大になるように変分分布を選ぶ

36 𝜃 𝐿 𝜃 𝜃(2) 𝜃(3) ELBOを最大にするように𝜃を更新

変分分布は，現状のモデルでの事後分布に設定するのがベスト 37 Eステップ 𝑞を動かして最良のELBOを求める ELBO 𝜃, 𝑞 = ෍ 𝑛=1
𝑁 𝔼𝑍∼𝑞 log 𝑝𝜃 𝑥, 𝑍 𝑞 𝑍 𝜕 𝜕𝑞 𝑧𝑛 = 𝑧 ELBO 𝜃, 𝑞 + 𝜆 1 − ෍ 𝑘=1 𝐾 𝑞 𝑧𝑛 = 𝑘 = log 𝑝𝜃 (𝑥𝑛 , 𝑧) − log 𝑞 𝑧 − 1 + 𝜆 ቚ = 0 𝑞 𝑧 =𝑞⋆ 𝑧 を解くと 𝑞⋆ 𝑧 = 𝑝𝜃 𝑧 𝑥𝑛 「𝑞は確率分布」という制約 GMMの場合計算可能

各分布について重み付き最尤推定を解けばよい 38 Mステップ (1/2) 𝑞を固定して下界を𝜃（のうち各コンポーネントのパラメタ）について最大化 𝜕 𝜕𝜃 ELBO 𝜃, 𝑞
= 𝜕 𝜕𝜃 ෍ 𝑛=1 𝑁 𝔼𝑍𝑛∼𝑞 log 𝑝𝜃 𝑥𝑛 𝑍𝑛 = 𝜕 𝜕𝜃 ෍ 𝑘=1 𝐾 ෍ 𝑛=1 𝑁 𝑞(𝑧𝑛 = 𝑘) log 𝑝𝜃 𝑥𝑛 𝑧𝑛 = 𝑘 𝑘番目の分布のパラメタは重み付き最尤推定で求まる

K面さいころのパラメタ推定も重み付き最尤推定となる 39 Mステップ (2/2) 𝑞を固定して下界を𝜃（のうちK面さいころのパラメタ𝜋）について最大化 𝜕 𝜕𝜋𝑘 ELBO 𝜃, 𝑞
= 𝜕 𝜕𝜋𝑘 ෍ 𝑛=1 𝑁 𝔼𝑍𝑛∼𝑞 log 𝑝𝜃 𝑍𝑛 + 𝜆 1 − ෍ 𝑘=1 𝐾 𝜋𝑘 = 𝜕 𝜕𝜋𝑘 ෍ 𝑘=1 𝐾 ෍ 𝑛=1 𝑁 𝑞 𝑧𝑛 = 𝑘 log 𝜋𝑘 − 𝜆 ෍ 𝑘=1 𝐾 𝜋𝑘 = ෍ 𝑛=1 𝑁 𝑞 𝑧𝑛 = 𝑘 𝜋𝑘 − 𝜆 ቚ = 0 𝜋𝑘=𝜋𝑘 ⋆ より 𝜋𝑘 ⋆ = 1 𝑁 ෍ 𝑛=1 𝑁 𝑞 𝑧𝑛 = 𝑘 ソフトな割り当てを元にした最尤推定「𝜋は確率分布」という制約

EステップとMステップを交互に繰返すと局所最適解が求まる 40 EMアルゴリズムの全体 1. パラメタ𝜃を適当に初期化 2. 適当な終了条件を満たすまで繰返す 1. Eステップ（事後分布の計算） 2.
Mステップ（重み付き最尤推定） EMアルゴリズムの特長 • 各ステップとも解析的に書ける Eステップを解析的に計算できない場合，変分EMアルゴリズム（変分ベイズ）と呼ばれる • 各繰返しで尤度が単調非減少 • 局所最適解が求まる

41 変分オートエンコーダと確率的勾配EMアルゴリズム※ ※確率的勾配変分ベイズ推定（Stochastic gradient variational Bayes estimator）と呼ばれているが，こちらの名称の方がおそらく適当 Kingma, Diederik
P. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013).

変分オートエンコーダおよびその学習で用いられるアルゴリズムを紹介する 42 最尤推定量が解析的に求まらないアルゴリズムを工夫する勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム変分EMアルゴリズム
確率的勾配変分EMアルゴリズムその他のアルゴリズム 10% 90% 80% 20% 今回取り扱うアルゴリズム

変分オートエンコーダはNNを用いた生成モデルの1つ 43 変分オートエンコーダ目的: NNを使って生成モデルを作る 𝑝 𝑥 = න 𝑝
𝑥 𝑧 𝑝 𝑧 d𝑧 利点 • NNの表現力を活かせる • （副産物として）データ𝑥の潜在表現zを計算できる学習の方針 𝐿 𝜃 ≥ ෍ 𝑛=1 𝑁 𝔼𝑍𝑛∼𝑞𝜙(⋅∣𝑥𝑛) log 𝑝𝜃 𝑥𝑛 , 𝑍𝑛 𝑞𝜙 (𝑍𝑛 ∣ 𝑥𝑛 ) EMアルゴリズムにしたがう • 変分分布を動かしてELBO最大化 • 変分分布を固定してパラメタについて最大化特徴 • 変分分布は 𝑥 で条件付けてNNを用いる • NN部分は勾配法で学習したいサンプリングが簡単な確率分布 NNで 𝑧 を 𝑥 に変換

データとその潜在表現を行き来するためのエンコーダ・デコーダを学習できる 44 変分オートエンコーダの構造 • 事前分布 𝑝(𝒛) 平均𝟎，分散共分散行列𝐼の正規分布 • デコーダ
𝑝𝜃 (𝒙 ∣ 𝒛) • エンコーダ（変分分布） 𝑞𝜙 (𝒛 ∣ 𝒙) • ニューラルネット部分はデータ𝑥 に応じて適切なものを用いる 𝒛 NN 何らかの確率分布 𝒙 𝒙 NN 何らかの確率分布 𝒛

データ 𝑥𝑛 とその潜在表現 𝑧𝑛 が与えられたもとで ELBOは計算可能で微分可能 45 𝒙𝒏 , 𝒛𝒏
を与えたもとでのELBOの計算手順 𝔼𝑍𝑛∼𝑞𝜙(⋅∣𝑥𝑛) log 𝑝𝜃 𝑥𝑛 ∣ 𝑍𝑛 𝑝 𝑍𝑛 𝑞𝜙 (𝑍𝑛 ∣ 𝑥𝑛 ) ⋅ の計算 • log 𝑝 𝑧𝑛 : できる • log 𝑝𝜃 𝑥𝑛 𝑧𝑛 : できる/微分可能 • log 𝑞𝜙 𝑧𝑛 𝑥𝑛 : できる/微分可能 𝒛𝑛 NN 正規分布 𝒙𝑛 正規分布の平均・分散 𝒙𝑛 NN 正規分布 𝒛𝑛 正規分布の平均・分散正規分布の実現値正規分布の実現値

確率変数の実現値を微分する必要がある 46 𝒙𝒏 を与えたもとでのELBOの計算手順 𝔼𝑍𝑛∼𝑞𝜙(⋅∣𝑥𝑛) log 𝑝𝜃 𝑥𝑛 ∣ 𝑍𝑛
𝑝 𝑍𝑛 𝑞𝜙 (𝑍𝑛 ∣ 𝑥𝑛 ) 期待値は平均で近似すると計算可能: 1 𝑆 ෍ 𝑠=1 𝑆 log 𝑝𝜃 𝑥𝑛 ∣ 𝑧𝑛 (𝑠) 𝑝 𝑧𝑛 (𝑠) 𝑞𝜙 (𝑧 𝑛 (𝑠) ∣ 𝑥𝑛 ) ELBO計算の課題実現値𝑧𝑛 𝑠 は𝜙に依存するが， 𝜙に関して微分可能にできるか？ →自明ではない例: 𝑞𝜙 𝑧 𝑥 = 𝒩 𝑧; 𝜇𝜙 𝑥 , Σ𝜙 𝑥 としたとき，上記の正規分布の実現値は微分できない気がする

確率変数を適切に分解することで実現値の微分が計算できる 47 再パラメタ化法 (reparameterization trick) 𝑞𝜙 𝑧 𝑥 = 𝒩
𝑧; 𝜇𝜙 𝑥 , Σ𝜙 𝑥 のとき 𝝐 ∼ 𝒩(⋅; 𝟎, 𝐼) を用いて 𝒁 = 𝝁𝜙 𝑥 + Σ𝜙 𝑥 1 2 𝝐 ポイント • 𝑍 ∼ 𝑞𝜙 ⋅ 𝑥 は 𝜙 に依存する確率変数だった • 確率変数を以下の2つに分離すると自動微分できる • パラメタに依存するが決定的に計算できる項 • パラメタに依存しない確率変数 • 適用可能例 • 正規分布 • カテゴリカル分布（Gumbel softmax）パラメタに依存しない確率変数

全事例でELBOを計算するのは大変なのでミニバッチで計算 48 変分オートエンコーダ学習手順 ෍ 𝑛=1 𝑁′ ෡ 𝔼𝑍𝑛∼𝑞𝜙(⋅∣𝑥𝑛) log 𝑝𝜃
𝑥𝑛 , 𝑍𝑛 𝑞𝜙 (𝑍𝑛 ∣ 𝑥𝑛 ) 𝑁′個の事例からなるミニバッチ 𝑥𝑛 𝑛=1 𝑁 を取得

期待値は再パラメタ化法に基づきモンテカルロ近似する 49 変分オートエンコーダ学習手順 ෍ 𝑛=1 𝑁′ ෡ 𝔼𝑍𝑛∼𝑞𝜙(⋅∣𝑥𝑛) log 𝑝𝜃
𝑥𝑛 , 𝑍𝑛 𝑞𝜙 (𝑍𝑛 ∣ 𝑥𝑛 ) 各事例𝑥𝑛 に対して 𝑧𝑛 𝑠 𝑠=1 𝑆 を再パラメタ化法で計算

変分オートエンコーダの各コンポーネントを使って計算 50 変分オートエンコーダ学習手順 ෍ 𝑛=1 𝑁′ ෡ 𝔼𝑍𝑛∼𝑞𝜙(⋅∣𝑥𝑛) log 𝑝𝜃
𝑥𝑛 , 𝑍𝑛 𝑞𝜙 (𝑍𝑛 ∣ 𝑥𝑛 ) 各 𝑥𝑛 , 𝑧𝑛 𝑠 に対してエンコーダ・デコーダを用いて計算

ELBOの近似値を微分可能な形で計算できたので確率的勾配降下法で最適化可能 51 変分オートエンコーダ学習手順 ෍ 𝑛=1 𝑁′ ෡ 𝔼𝑍𝑛∼𝑞𝜙(⋅∣𝑥𝑛) log
𝑝𝜃 𝑥𝑛 , 𝑍𝑛 𝑞𝜙 (𝑍𝑛 ∣ 𝑥𝑛 ) 全体を計算したら自動微分で𝜃, 𝜙について勾配を計算し確率的勾配降下法にしたがって 𝜃, 𝜙を更新

EMアルゴリズムの一族は，ELBOを最適化する点で共通しているが最適化の方法が異なる 52 最尤推定量が解析的に求まらないアルゴリズムを工夫する勾配法で計算する EMアルゴリズムの一族 EMアルゴリズム変分EMアルゴリズム
確率的勾配変分EMアルゴリズムその他のアルゴリズム 10% 90% 80% 20%

教師なし学習の基本的なモデルとその学習手法を紹介した 53 教師なし学習のモデルを紹介した • 混合分布モデル用途: • フィッティング • クラスタリング
• 変分オートエンコーダ用途: • 生成モデル • 事前学習教師なし学習のアルゴリズムを紹介した • EMアルゴリズム • 確率的勾配変分EMアルゴリズムより発展的な話題 • 拡散モデル ELBOの導出＋マルコフ性の利用＋正規分布まわりの公式 • 実装 https://github.com/kanojikajino/lecture Luo, Calvin. "Understanding diffusion models: A unified perspective." arXiv preprint arXiv:2208.11970 (2022).

教師なし学習の基礎

教師なし学習の基礎

More Decks by Hiroshi Kajino

Other Decks in Technology

Featured

Transcript