Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Deep Learning と位相・微分幾何学

Deep Learning と位相・微分幾何学

Published.

connection_automated_ai

January 14, 2018
Tweet

More Decks by connection_automated_ai

Other Decks in Technology

Transcript

  1. 深層学習モデルは、「アフィン変換」によって、 入力データの特徴量(=本質的な情報) を抽出する  深層学習モデルは、入力データが持つ「本質的な情報(量)」 =入力データの特徴量を取り出そうとする。  深層学習モデルは、前の中間層から次の中間層へとデータを受け渡す度に、 データを拡大縮小したり、回転させたり、ゆがめたり、平行移動させる幾何学 的な操作を加えていく。

     この操作を繰り返すことで、入力データがもつ「本質的な情報(量)」を最大 限に保存する、別の幾何学構造体(多様体)”を得ようとする。  獲得される新たな幾何学構造体(多様体)の次元数は、最終中間層の次元 数=最終中間層のノードの数となる。通常、入力データの次元数よりも小さ い)
  2. 入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークが獲得した関数を,

    データセット多様体を大域的な座標系へ 写像する関数だとみなすと, その関数 を解析することで, 元の多様体の性質を知ることが可能となる. なぜならば,多様体から多様体への写像 の微分は,以下で 定義される多様体の接空間 を定義し,そこから多様体の次元や 接ベクトル 等の情報を得ることができるからである.」
  3. 入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークの写像関数の微分

    (ヤコビアン行列) の特異値・特異ベクトル のうち,0 より大きな特異値に対応する 特異ベクトルが多様体の接線方向を, 0 の特異値に対応するベクトルが 多様体の垂直方向をあらわす. 従って,0 でない特異値の数から, 多様体の次元もわかる.」
  4. 入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークの写像関数の微分

    (ヤコビアン行列) の特異値・特異ベクトル のうち,0 より大きな特異値に対応する 特異ベクトルが多様体の接線方向を, 0 の特異値に対応するベクトルが 多様体の垂直方向をあらわす. 従って,0 でない特異値の数から, 多様体の次元もわかる.」
  5. 入力データ(元データ)の情報構造が持つ 接線方向を獲得する (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークの写像関数の微分

    (ヤコビアン行列) の特異値・特異ベクトル のうち,0 より大きな特異値に対応する 特異ベクトルが多様体の接線方向を, 0 の特異値に対応するベクトルが 多様体の垂直方向をあらわす.」
  6. 深層学習モデルが、 入力データの『どこに注目しているか』 を可視化する手法としては、 Saliency map や Class Activatiom Map (CAM)

    が知られている。 これとは別に、深層学習モデルを用いて、 『入力データ』(次元の数 や 基底軸となる解釈軸の方向性は、未知) が、どのような幾何学構造をもつ情報の構造体なのか (「次元の数」と「接線方向」) を、数理的に導出することができる。 元データのデータ構造を逆算的に特定できる
  7. 自然勾配学習法  損失関数の偏微分ベクトル(勾配ベクトル)が最大値をとる方向に、 中間層の重み wi,j を更新するのが妥当なのは、 入力データが中間層によって 構造変換(同相変換)された結果、 得られる多様体の曲率が、 ユークリッド空間である場合

    に限定される。  中間層によって 構造変換(同相変換)された結果、得られた多様体が、 リーマン多様体などである場合を考慮に入れて、 損失関数の偏微分値を、一般化した上で、 重みを更新する勾配の方向を見積もる必要があるという考え方。