Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Deep Learningと位相・微分幾何学
Search
connection_automated_ai
January 14, 2018
Technology
0
1.7k
Deep Learning と位相・微分幾何学
Published.
connection_automated_ai
January 14, 2018
Tweet
Share
More Decks by connection_automated_ai
See All by connection_automated_ai
TowardThinkingMachine_GoogleDeepMind_LanguageEvolutionPapers.pdf
connection_automated_ai
9
5.1k
自己組織化と創発メカニズムを発生原理として、汎用人工知能は誕生するか
connection_automated_ai
1
620
複雑系・創発現象として、汎用人工知能が出現するシナリオを考える
connection_automated_ai
1
930
タスクの変化に応じて、最適なDeep neural networkモデルを自動編成するアルゴリズム を Ethereum上の「AIモジュール売買市場」の中で走らせるとどうなるのか、想像してみる
connection_automated_ai
1
160
2018年以降のAIを考える ~ 課題解決に必要な「最適なAIモデルの組み合わせ方」を、AIが自動で見つけ出して、自動構築したAIモデルを、誰もが手軽に利用できるようになる時代
connection_automated_ai
1
410
Other Decks in Technology
See All in Technology
AWS全冠芸人が見た世界 ~資格取得より大切なこと~
masakiokuda
5
6.3k
4/16/25 - SFJug - Java meets AI: Build LLM-Powered Apps with LangChain4j
edeandrea
PRO
2
120
クラウド開発環境Cloud Workstationsの紹介
yunosukey
0
180
PagerDuty×ポストモーテムで築く障害対応文化/Building a culture of incident response with PagerDuty and postmortems
aeonpeople
1
320
AWSの新機能検証をやる時こそ、Amazon Qでプロンプトエンジニアリングを駆使しよう
duelist2020jp
1
260
クォータ監視、AWS Organizations環境でも楽勝です✌️
iwamot
PRO
1
320
ドキュメント管理の理想と現実
kazuhe
1
210
「経験の点」の位置を意識したキャリア形成 / Career development with an awareness of the “point of experience” position
pauli
4
100
アジャイル脅威モデリング#1(脅威モデリングナイト#8)
masakane55
3
230
От ручной разметки к LLM: как мы создавали облако тегов в Lamoda. Анастасия Ангелова, Data Scientist, Lamoda Tech
lamodatech
0
750
ElixirがHW化され、最新CPU/GPU/NWを過去のものとする数万倍、高速+超省電力化されたWeb/動画配信/AIが動く日
piacerex
0
150
バックオフィス向け toB SaaS バクラクにおけるレコメンド技術活用 / recommender-systems-in-layerx-bakuraku
yuya4
6
550
Featured
See All Featured
For a Future-Friendly Web
brad_frost
176
9.7k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
How STYLIGHT went responsive
nonsquared
99
5.5k
The Language of Interfaces
destraynor
157
25k
Code Reviewing Like a Champion
maltzj
522
40k
Unsuck your backbone
ammeep
670
57k
Adopting Sorbet at Scale
ufuk
76
9.3k
Building an army of robots
kneath
304
45k
Raft: Consensus for Rubyists
vanstee
137
6.9k
Speed Design
sergeychernyshev
29
900
Why You Should Never Use an ORM
jnunemaker
PRO
55
9.3k
Code Review Best Practice
trishagee
67
18k
Transcript
Deep Learning と位相・微分幾何学 Connection automated A.I. 2018/1/14 (Sun.)
多様体仮説 (抜粋) 『近年,機械学習分野において, 「現実世界の高次元データは,本質的に低次元であ る」 という多様体仮説 を元にした学習方法が見られる. 深層学習においても,多様 体仮説に基づく学習方法がそうでない学習方 法と比較して性能が良いことが示唆さ
れている. 』 (出典) 全脳アーキテクチャ・イニシアティブ 11 回全脳アークテクチャー勉強会 「Deep Learning の中身に迫る」 報告書 http://ailab.dwango.co.jp/technical_report/DWAL-TR-2015-004.pdf
深層学習モデルは、「アフィン変換」によって、 入力データの特徴量(=本質的な情報) を抽出する 深層学習モデルは、入力データが持つ「本質的な情報(量)」 =入力データの特徴量を取り出そうとする。 深層学習モデルは、前の中間層から次の中間層へとデータを受け渡す度に、 データを拡大縮小したり、回転させたり、ゆがめたり、平行移動させる幾何学 的な操作を加えていく。
この操作を繰り返すことで、入力データがもつ「本質的な情報(量)」を最大 限に保存する、別の幾何学構造体(多様体)”を得ようとする。 獲得される新たな幾何学構造体(多様体)の次元数は、最終中間層の次元 数=最終中間層のノードの数となる。通常、入力データの次元数よりも小さ い)
深層学習モデルは、「アフィン変換」によって、 入力データの特徴量(=本質的な情報) を抽出する 「データを拡大縮小したり、回転させたり、ゆがめたり、平行移動させる幾何 学的な操作」のことを、数学上のことばでは、 「同相写像」(「アフィン変換」)と呼ぶ。 この操作は、データを「切断したり折り返したり」はしない。 「線形変換」=サイズを伸縮する・歪める操作と、
「平行移動」させる操作のみを適用する。
「アフィン変換」を繰り返す様子 (出典) Koji Ohki Qiita記事 「ニューラルネットワーク、多様体、トポロジー」 https://qiita.com/KojiOhki/items/af2241027b00f892d2bd クラス分類タスクに取り組む 深層学習モデルの場合は、 もとの入力データを、
線形分離可能になるように、 入力データの幾何学構造 を変えようと頑張る。
「アフィン変換」を繰り返す様子 (出典) Koji Ohki Qiita記事 「ニューラルネットワーク、多様体、トポロジー」 https://qiita.com/KojiOhki/items/af2241027b00f892d2bd
「アフィン変換」について (出典) Hatena Blog 大人になってからの再学習 「アフィン変換とは」 http://zellij.hatenablog.com/entry/20120523/p1
深層学習モデルのひとつの解釈 深層学習モデル(深層ニューラルネットワーク・モデル)とは、 入力データ(元データ)に幾何学的な構造変換操作(アフィン変換)を適用 することで、 ・ クラス分類を行いやすいデータ構造 ・ テキスト・画像・音声・動画データに潜む本質的な情報を圧縮できる データ構造
を得る(通常は、元データよりも小さな次元をもつ構造にする) ための「データの幾何学構造の変換(写像)操作」である。 (高次元の多様体を、小さな次元の多様体へと写像する操作)
つまり、 分類精度や回帰予測精度、文章生成精度などが高い深層学習モデルは、 もともとのデータが備えていた「本質的な情報」を極力、損なわずに、 「より小さな次元(=最終中間層のノード数に一致)の多様体」 へと写像変換することに成功した、 と解釈できる。
深層学習モデルがアフィン変換によっておこなう 入力データ(=多様体) から 低次限の別の多様体 への 同相写像 をもとに、数理解析的に、 もとの入力データがもっていた幾何学的な構造 を特定することができる、 元データのデータ構造を逆算的に特定できる
精度の高い深層学習モデルが獲得した 「低次元の多様体」(=情報構造体元) から、 「もともとのデータ」の「次元数」と「基底となる軸の接線方向」 を、数理解析的に、逆算的に得ることができる。 元データのデータ構造を逆算的に特定できる
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークが獲得した関数を,
データセット多様体を大域的な座標系へ 写像する関数だとみなすと, その関数 を解析することで, 元の多様体の性質を知ることが可能となる. なぜならば,多様体から多様体への写像 の微分は,以下で 定義される多様体の接空間 を定義し,そこから多様体の次元や 接ベクトル 等の情報を得ることができるからである.」
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークの写像関数の微分
(ヤコビアン行列) の特異値・特異ベクトル のうち,0 より大きな特異値に対応する 特異ベクトルが多様体の接線方向を, 0 の特異値に対応するベクトルが 多様体の垂直方向をあらわす. 従って,0 でない特異値の数から, 多様体の次元もわかる.」
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークの写像関数の微分
(ヤコビアン行列) の特異値・特異ベクトル のうち,0 より大きな特異値に対応する 特異ベクトルが多様体の接線方向を, 0 の特異値に対応するベクトルが 多様体の垂直方向をあらわす. 従って,0 でない特異値の数から, 多様体の次元もわかる.」
入力データ(元データ)の情報構造が持つ 次元数の獲得 (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf
入力データ(元データ)の情報構造が持つ 接線方向を獲得する (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークの写像関数の微分
(ヤコビアン行列) の特異値・特異ベクトル のうち,0 より大きな特異値に対応する 特異ベクトルが多様体の接線方向を, 0 の特異値に対応するベクトルが 多様体の垂直方向をあらわす.」
入力データ(元データ)の情報構造が持つ 次元数を獲得する 正の値をもつ特異値の個数から、 入力データの多様体は、O(1) だと考えられる。 (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」
https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf
tt-SNE(多様体学習法)を用いて、入力データを次元圧縮 して結果、推定される入力データの次元数は、3次元であった。 入力データ(元データ)の情報構造が持つ 次元数を獲得する
深層学習モデルが、 入力データの『どこに注目しているか』 を可視化する手法としては、 Saliency map や Class Activatiom Map (CAM)
が知られている。 これとは別に、深層学習モデルを用いて、 『入力データ』(次元の数 や 基底軸となる解釈軸の方向性は、未知) が、どのような幾何学構造をもつ情報の構造体なのか (「次元の数」と「接線方向」) を、数理的に導出することができる。 元データのデータ構造を逆算的に特定できる
(微分幾何・情報幾何学と深層学習)
自然勾配学習法 損失関数の偏微分ベクトル(勾配ベクトル)が最大値をとる方向に、 中間層の重み wi,j を更新するのが妥当なのは、 入力データが中間層によって 構造変換(同相変換)された結果、 得られる多様体の曲率が、 ユークリッド空間である場合
に限定される。 中間層によって 構造変換(同相変換)された結果、得られた多様体が、 リーマン多様体などである場合を考慮に入れて、 損失関数の偏微分値を、一般化した上で、 重みを更新する勾配の方向を見積もる必要があるという考え方。
自然勾配学習法 (出典) 甘利 「自然勾配学習法-学習空間の幾何学」 https://www.jstage.jst.go.jp/article/sicejl1962/40/10/40_10_735/_pdf
自然勾配学習法 (出典) 田中・杉原・須田 「自然勾配学習法の有効性」 https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=29375&item_no=1&attribute_id=1&file_no=1
情報幾何学 (出典) 大阪市立大学数学研究所ミニスクール 「情報幾何への入門と応用 http://www.sci.osaka-cu.ac.jp/~ohnita/2006/inf_geom/sos_dan/book_0403.pdf
自然勾配学習法 実務上では、自然勾配学習法を用いた事例は多くない印象がある。 理由として、最急降下法に続いて、確率的最急降下法(SGD)がでると、 計算コストの観点で、SGDの方が、計算負荷が小さく、尚且つ、短時間に、 局所最適解にそこそこ陥らずに、大域最適解にいきつけ るとみなす動きが主流となった可能性が考えられる。 さらに、計算負荷の大きいヘシアン行列を計算せずに済む、
「ヘシアン・フリー最適化」とよばれる手法も、注目を集めている。