データセットシフト・Batch Normalization

Transcript

データセットシフト仲宗根太朗・櫻井研究室学会名・セッション名・発表年月日・開催場所

はじめに ◼以下のデータシフトの問題設定がある ⚫Covariate Shift ⚫Target Shift ⚫Concept Shift ⚫Sample Selection

Bias ⚫Domain Shift ◼ただし，それそれの問題が必ずしも独立ではない

はじめに ◼以下のデータシフトの問題設定がある ⚫Covariate Shift ⚫Target Shift ⚫Concept Shift ⚫Sample Selection

Bias ⚫Domain Shift ◼ただし，それそれの問題が必ずしも独立ではない

Covariate Shift ◼定義学習時とテスト時で入力変数の周辺分布が異なるという問題設定

Target Shift ◼定義学習時とテスト時で出力変数の周辺分布が異なるという問題設定

Concept Shift ◼定義学習時とテスト時で条件付き確率分布が異なるという問題設定

Sample Selection Bias ◼定義観測データをデータセットに含めるかどうかを決める隠れた関数ξ が存在し，この関数が学習時とテスト時で異なるという問題設定

Domain Shift 潜在的に同じものを説明しているにも関わらず，計測技術や環境の違いなどの影響で変数が異なってしまう問題設定

対策手法 ◼以下のような対策手法がある ⚫Batch Normalization

Batch Normalization ◼解決したい問題 − Internal Covariate Shift ⚫深層モデルにて，インプットの分布がころころ変わる ◼解決方法 ⚫レイヤごとのインプットを正規化しようという発想

⚫ただし，パラメータ更新の度に学習データ全体をネットワークに流して，各レイヤのインプットを求め正規化を行うのは効率悪い ⚫そこでミニバッチごとの統計量を使って，ミニバッチごとに簡易的な正規化を行う

Batch Normalization ◼解決したい問題 − Internal Covariate Shift ⚫深層モデルにて，インプットの分布がころころ変わる ◼解決方法 ⚫レイヤごとのインプットを正規化しようという発想

Batch Normalization ◼アルゴリズム

Batch Normalization ◼ミニバッチごとの平均分散を計算する

Batch Normalization ◼正規化を行う

Batch Normalization ◼正規化を行う分母に𝜖を加えていますが、これは微小値を表し、𝝈𝑩 𝟐 が小さい場合に計算を安定されるため

Batch Normalization ◼レイヤの非線形性に対応させる調整

Batch Normalization ◼平均と分散の調節単純にෞ 𝒙𝒊 をインプットとすると，本来レイヤが持つ非線形性の表現力を失っている可能性がある

Batch Normalization ◼例えば，シグモイド関数の場合

Batch Normalization ◼例えば，シグモイド関数の場合インプットが-1から1の範囲ではほぼ線形になっている

Batch Normalization ◼この解決策として

Batch Normalization ◼以下のように横にシフト，スケール変化すれば良い

Batch Normalization ◼それを踏まえて，

Batch Normalization ◼平均に対応するパラメータ𝜷と分散に対応する𝜸を導入

Batch Normalization ◼平均に対応するパラメータ𝜷と分散に対応する𝜸を導入 ෞ 𝒙𝒊 を𝜷の分だけ横にシフト， 𝜸でスケールを変更できる．

データセットシフト・Batch Normalization

データセットシフト・Batch Normalization

Taro Nakasone

More Decks by Taro Nakasone

Other Decks in Research

Featured

Transcript

データセットシフト仲宗根太朗・櫻井研究室学会名・セッション名・発表年月日・開催場所

はじめに ◼以下のデータシフトの問題設定がある ⚫Covariate Shift ⚫Target Shift ⚫Concept Shift ⚫Sample Selection

はじめに ◼以下のデータシフトの問題設定がある ⚫Covariate Shift ⚫Target Shift ⚫Concept Shift ⚫Sample Selection

Covariate Shift ◼定義学習時とテスト時で入力変数の周辺分布が異なるという問題設定

Target Shift ◼定義学習時とテスト時で出力変数の周辺分布が異なるという問題設定

Concept Shift ◼定義学習時とテスト時で条件付き確率分布が異なるという問題設定

Sample Selection Bias ◼定義観測データをデータセットに含めるかどうかを決める隠れた関数ξ が存在し，この関数が学習時とテスト時で異なるという問題設定

Domain Shift 潜在的に同じものを説明しているにも関わらず，計測技術や環境の違いなどの影響で変数が異なってしまう問題設定

対策手法 ◼以下のような対策手法がある ⚫Batch Normalization

Batch Normalization ◼解決したい問題 − Internal Covariate Shift ⚫深層モデルにて，インプットの分布がころころ変わる ◼解決方法 ⚫レイヤごとのインプットを正規化しようという発想

Batch Normalization ◼解決したい問題 − Internal Covariate Shift ⚫深層モデルにて，インプットの分布がころころ変わる ◼解決方法 ⚫レイヤごとのインプットを正規化しようという発想

Batch Normalization ◼解決したい問題 − Internal Covariate Shift ⚫深層モデルにて，インプットの分布がころころ変わる ◼解決方法 ⚫レイヤごとのインプットを正規化しようという発想

Batch Normalization ◼解決したい問題 − Internal Covariate Shift ⚫深層モデルにて，インプットの分布がころころ変わる ◼解決方法 ⚫レイヤごとのインプットを正規化しようという発想

Batch Normalization ◼アルゴリズム

Batch Normalization ◼ミニバッチごとの平均分散を計算する

Batch Normalization ◼正規化を行う

Batch Normalization ◼正規化を行う分母に𝜖を加えていますが、これは微小値を表し、𝝈𝑩 𝟐 が小さい場合に計算を安定されるため

Batch Normalization ◼レイヤの非線形性に対応させる調整

Batch Normalization ◼平均と分散の調節単純にෞ 𝒙𝒊 をインプットとすると，本来レイヤが持つ非線形性の表現力を失っている可能性がある

Batch Normalization ◼例えば，シグモイド関数の場合

Batch Normalization ◼例えば，シグモイド関数の場合インプットが-1から1の範囲ではほぼ線形になっている

Batch Normalization ◼この解決策として

Batch Normalization ◼以下のように横にシフト，スケール変化すれば良い

Batch Normalization ◼それを踏まえて，

Batch Normalization ◼平均に対応するパラメータ𝜷と分散に対応する𝜸を導入

Batch Normalization ◼平均に対応するパラメータ𝜷と分散に対応する𝜸を導入 ෞ 𝒙𝒊 を𝜷の分だけ横にシフト， 𝜸でスケールを変更できる．