20211107_【社内論文読み会】MCFlow: Monte Carlo Flow Models for Data Imputation

MCFlow: Monte Carlo Flow Models for Data Imputation 論文読み会 https://openaccess.thecvf.com/content_CVPR_2020/html/Richardson_McFlow_Monte_Carlo_Flow_Models_for_Data_Imputation_CVPR_2020_paper.html
https://github.com/trevor-richardson/MCFlow

/21 MCFlow arXiv:2003.12628 2

/21 MCFlow arXiv:2003.12628 MCFlowの三行まとめ • ランダムに欠損したデータ(Missing Completely at Random:MCAR)に対する新たな補完技術 MCFlowを提案する論文
• 逐次的に分布の母数(Flow Network:G)の更新と埋め込み空間へのmapするネットワーク (Feedforward Network:H)の更新とデータの補完を繰り返すことでMCARの問題にアプローチする • 正解データと乖離しない堅実なデータ補完を実現している 3

アプローチ方法

/21 MCFlow arXiv:2003.12628 記法および問題設定観測可能なデータxは特定の分布関数p X (x)に従っているとする。また観測値はMCARで欠損している。 5 i番目のマスク: i番目のデータ:
マスクの位置非マスクの位置 i番目の非マスク: ⊙ i番目の観測値: 観測値から(非)マスクの位置がわかる設定とする … … 欠損値を埋めるデータ補完の問題は次のように定式化されたxを求める問題とみなせる。 iについてランダムにマスク位置が変わる

/21 MCFlow arXiv:2003.12628 記法および問題設定一般にデータが従う分布p X (x)は知り得ることができない上に、通常の場合p X (x)は高次元で非凸関数でありp
X (x)を獲得することは非常に難しい課題となる。 6 解き易い最適化問題にやき直し、分布p X (x)を獲得することが目標 →Normalizing Flowでアプローチ(次ページ)

/21 MCFlow arXiv:2003.12628 Flow-Baseな生成モデルの導入 Flow-baseな生成モデルでは逆変換可能な関数f(•)を用いてautoencoderを構築する。VAE等の従来の生成モデルではELBOを用いて近似分布と事後分布の距離を最小化しているのに対し、Flow-baseなモデルでは直接的に分布関数を近づけている。 https://lilianweng.github.io/lil-log/2018/10/13/ﬂow-based-deep-generative-models.html https://deepgenerativemodels.github.io/notes/ﬂow/ https://arxiv.org/abs/1505.05770
7 負の対数尤度を最小化するように関数f i (•)のパラメータを更新することが尤度最大化に繋がる。 Flow-Baseな生成アルゴリズム例 • NICE • RealNVP • GLOW • etc... シンプルな分布関数と実際の生成モデル分布関数を行き来できるように変換関数f(•)を導入する f(•)の逆関数f-1(•)が追える形で用意することでz 0 とz K を直接行き来させることができる

/21 MCFlow arXiv:2003.12628 RealNVP Flow-baseな生成モデルの一つであるRealNVPをMCFlowでは採用している。 8 https://lilianweng.github.io/lil-log/2018/10/13/ﬂow-based-deep-generative-models.html https://arxiv.org/abs/1605.08803 変換関数f(•)の主な要請 1.
“It is easily invertible.” 2. “Its Jacobian determinant is easy to compute.” s, tの関数を(全結合+LeakyReLU, tanh)NN4層で構成し6セット繰り返している。 MCFlow論文では50%の乱数でアフィン変換する次元Dを決めている。

/21 MCFlow arXiv:2003.12628 RealNVP(例) RealNVPでは色々できるものの、またの機会に。 9 https://lilianweng.github.io/lil-log/2018/10/13/ﬂow-based-deep-generative-models.html https://keras.io/examples/generative/real_nvp/ https://arxiv.org/abs/1605.08803

/21 MCFlow arXiv:2003.12628 MCFlowの導入教師なしで学習されるNormalizing Flowモデル(G)と、教師ありで学習されるFeedforward Network(H) からなるハイブリッドなフレームワークで構築されます。 10 Flow
model(G)の役割データの分布関数を学習すること Flow model(G)の更新 Feedforward Network(H)の役割最も好ましい埋め込みベクトルを見つけること [1] 観測された値（マスクではないインデックスの値）と一致するエントリを持つデータベクトルにマップ [2] 可能な限り最大の密度推定値を持つ最も好ましい埋め込みベクトルを見つけること Feedforward Net(H)の更新: https://github.com/trevor-richardson/MCFlow

/21 MCFlow arXiv:2003.12628 MCFlowの詳細 11 https://github.com/trevor-richardson/MCFlow Flow model(G) Feedforward Net(H)

/21 MCFlow arXiv:2003.12628 学習ステップのpseudo code 学習ステップの更新手順です。特に重要な点が2の冪(2n)のエポックでモデルを保存し、ﬂowモデル(G)のパラメータθをリセットします。また1epoch目ではテーブルデータの場合分布の周辺確率から、画像の場合最近傍の欠損していない画素値からサンプルして欠損を補完します(ナイーブにはゼロ埋めでも良いと言っている)。 12
Flow model(G)の更新: Feedforward Net(H)の更新:

/21 MCFlow arXiv:2003.12628 推論ステップのpseudo code 推論時のデータ補完手順です。保存されたlog 2 (epochs)個のモデルを順々に通し、欠損補完をします。最初の欠損値補完も学習時と同様に設定します。 13

実験

/21 MCFlow arXiv:2003.12628 テーブルデータの欠損値補完 UCIにあるテーブルデータの欠損値補完をした。RMSEで最も性能が良い。 15

/21 MCFlow arXiv:2003.12628 画像の欠損値補完(正解との誤差評価) 画像データ(MNIST, CIFAR-10, CelebA)で欠損値を補完するタスクを実施。ベンチマークモデルと比較実験をしている。評価指標はRMSEで全てMCFlowが勝った。 16

/21 MCFlow arXiv:2003.12628 MNISTの欠損値補完(欠損補完したデータでの分類問題) FID(GAN等でよく用いられるInceptionV3で潜在空間に埋め込んだベクトルの距離(のようなもの))で MNISTを評価。正解データとの距離ではなく、論文によると「人間の知覚・認識と相関がある指標」とのこと(実際の画像を見るとニュアンスは掴める[次ページ])。さらに、欠損のないデータで学習したLeNETでのデータ補完された画像の分類精度の評価。 17 ↓これ、すごい!!

/21 MCFlow arXiv:2003.12628 MNISTの欠損値補完(欠損値補完した画像比較) 詳しくは下記リンクの補助資料にて著者らが結果を提供している。欠損が激しい時こそMCFlowが威力を発揮している(?) 18 https://openaccess.thecvf.com/content_CVPR_2020/supplemental/Richardson_McFlow_Monte_Carlo_CVPR_2020_supplemental.pdf

まとめ

/21 MCFlow arXiv:2003.12628 まとめ • ランダムに欠損したデータ(Missing Completely at Random:MCAR)に対する新たな補完技術 MCFlowを提案する論文
• 逐次的に分布関数の近似(Flow Network:G)と埋め込み空間へのmappingを調整するネットワーク (Feedforward Network:H)の更新によってMCARの問題にアプローチした • 比較モデルと比べ、補完の精度が高い • 補完されたデータを別の機械学習モデルに食わせても、精度の劣化があまりなく、実用的 20

/21 MCFlow arXiv:2003.12628 個人的な感想・展望感想 • メリット ◦ モデル自体はシンプルな構造をしているにもかかわらず、実用向き。 ◦
画像の欠損埋め結果がインパクトあるし、一眼見てわかりやすく、バエる。 ◦ 欠損が激しいときにMCFlowの真の威力発揮(?)。 ▪ 比較モデルとかと比べて勝手に正解データと異なる良い感じの生成等をしなそう。 ▪ 実際、超重要な点である気がする。 • デメリット ◦ (論文には実行時間のことはあまり触れていないが)おそらく結構遅い。 ◦ 処理がちょっと特殊で面倒 ▪ 2nエポックでモデル保存&Flow modelのリセット ▪ 保存モデルをつなげて推論 • LightGBM等にNullとして入力して学習させる際との使い分けは意識しないとならない。下記のことに着手したい(所信表明) • モデルがシンプルなのでJuliaで実装して遊んでみたい。 • スパースモデリングの文脈で実験してみたい(ブラックホールの撮像再現)。 • 実際のテーブルデータを用いた案件で活用したい。 21

20211107_【社内論文読み会】MCFlow: Monte Carlo Flow Mode...

20211107_【社内論文読み会】MCFlow: Monte Carlo Flow Models for Data Imputation

Yuya Kaneta

More Decks by Yuya Kaneta

Other Decks in Technology

Featured

Transcript

MCFlow: Monte Carlo Flow Models for Data Imputation 論文読み会 https://openaccess.thecvf.com/content_CVPR_2020/html/Richardson_McFlow_Monte_Carlo_Flow_Models_for_Data_Imputation_CVPR_2020_paper.html

/21 MCFlow arXiv:2003.12628 2

/21 MCFlow arXiv:2003.12628 MCFlowの三行まとめ • ランダムに欠損したデータ(Missing Completely at Random:MCAR)に対する新たな補完技術 MCFlowを提案する論文

アプローチ方法

/21 MCFlow arXiv:2003.12628 記法および問題設定観測可能なデータxは特定の分布関数p X (x)に従っているとする。また観測値はMCARで欠損している。 5 i番目のマスク: i番目のデータ:

/21 MCFlow arXiv:2003.12628 記法および問題設定一般にデータが従う分布p X (x)は知り得ることができない上に、通常の場合p X (x)は高次元で非凸関数でありp

/21 MCFlow arXiv:2003.12628 RealNVP Flow-baseな生成モデルの一つであるRealNVPをMCFlowでは採用している。 8 https://lilianweng.github.io/lil-log/2018/10/13/ﬂow-based-deep-generative-models.html https://arxiv.org/abs/1605.08803 変換関数f(•)の主な要請 1.

/21 MCFlow arXiv:2003.12628 RealNVP(例) RealNVPでは色々できるものの、またの機会に。 9 https://lilianweng.github.io/lil-log/2018/10/13/ﬂow-based-deep-generative-models.html https://keras.io/examples/generative/real_nvp/ https://arxiv.org/abs/1605.08803

/21 MCFlow arXiv:2003.12628 MCFlowの導入教師なしで学習されるNormalizing Flowモデル(G)と、教師ありで学習されるFeedforward Network(H) からなるハイブリッドなフレームワークで構築されます。 10 Flow

/21 MCFlow arXiv:2003.12628 MCFlowの詳細 11 https://github.com/trevor-richardson/MCFlow Flow model(G) Feedforward Net(H)

/21 MCFlow arXiv:2003.12628 推論ステップのpseudo code 推論時のデータ補完手順です。保存されたlog 2 (epochs)個のモデルを順々に通し、欠損補完をします。最初の欠損値補完も学習時と同様に設定します。 13

実験

/21 MCFlow arXiv:2003.12628 テーブルデータの欠損値補完 UCIにあるテーブルデータの欠損値補完をした。RMSEで最も性能が良い。 15

/21 MCFlow arXiv:2003.12628 画像の欠損値補完(正解との誤差評価) 画像データ(MNIST, CIFAR-10, CelebA)で欠損値を補完するタスクを実施。ベンチマークモデルと比較実験をしている。評価指標はRMSEで全てMCFlowが勝った。 16

まとめ

/21 MCFlow arXiv:2003.12628 まとめ • ランダムに欠損したデータ(Missing Completely at Random:MCAR)に対する新たな補完技術 MCFlowを提案する論文

/21 MCFlow arXiv:2003.12628 個人的な感想・展望感想 • メリット ◦ モデル自体はシンプルな構造をしているにもかかわらず、実用向き。 ◦