Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Deep Learningと位相・微分幾何学
Search
connection_automated_ai
January 14, 2018
Technology
0
1.5k
Deep Learning と位相・微分幾何学
Published.
connection_automated_ai
January 14, 2018
Tweet
Share
More Decks by connection_automated_ai
See All by connection_automated_ai
TowardThinkingMachine_GoogleDeepMind_LanguageEvolutionPapers.pdf
connection_automated_ai
9
5.1k
自己組織化と創発メカニズムを発生原理として、汎用人工知能は誕生するか
connection_automated_ai
1
590
複雑系・創発現象として、汎用人工知能が出現するシナリオを考える
connection_automated_ai
1
840
タスクの変化に応じて、最適なDeep neural networkモデルを自動編成するアルゴリズム を Ethereum上の「AIモジュール売買市場」の中で走らせるとどうなるのか、想像してみる
connection_automated_ai
1
150
2018年以降のAIを考える ~ 課題解決に必要な「最適なAIモデルの組み合わせ方」を、AIが自動で見つけ出して、自動構築したAIモデルを、誰もが手軽に利用できるようになる時代
connection_automated_ai
1
400
Other Decks in Technology
See All in Technology
データプロダクトの定義からはじめる、データコントラクト駆動なデータ基盤
chanyou0311
2
330
マルチモーダル / AI Agent / LLMOps 3つの技術トレンドで理解するLLMの今後の展望
hirosatogamo
37
12k
IBC 2024 動画技術関連レポート / IBC 2024 Report
cyberagentdevelopers
PRO
1
110
OCI Security サービス 概要
oracle4engineer
PRO
0
6.5k
Flutterによる 効率的なAndroid・iOS・Webアプリケーション開発の事例
recruitengineers
PRO
0
120
B2B SaaSから見た最近のC#/.NETの進化
sansantech
PRO
0
890
生成AIが変えるデータ分析の全体像
ishikawa_satoru
0
170
Terraform Stacks入門 #HashiTalks
msato
0
360
iOSチームとAndroidチームでブランチ運用が違ったので整理してます
sansantech
PRO
0
150
ノーコードデータ分析ツールで体験する時系列データ分析超入門
negi111111
0
420
TypeScriptの次なる大進化なるか!? 条件型を返り値とする関数の型推論
uhyo
2
1.7k
100 名超が参加した日経グループ横断の競技型 AWS 学習イベント「Nikkei Group AWS GameDay」の紹介/mediajaws202411
nikkei_engineer_recruiting
1
170
Featured
See All Featured
Building a Scalable Design System with Sketch
lauravandoore
459
33k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
1.9k
How to Ace a Technical Interview
jacobian
276
23k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
27
840
Code Reviewing Like a Champion
maltzj
520
39k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
25
1.8k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
0
100
Testing 201, or: Great Expectations
jmmastey
38
7.1k
The Cost Of JavaScript in 2023
addyosmani
45
6.8k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Agile that works and the tools we love
rasmusluckow
327
21k
How To Stay Up To Date on Web Technology
chriscoyier
788
250k
Transcript
Deep Learning と位相・微分幾何学 Connection automated A.I. 2018/1/14 (Sun.)
多様体仮説 (抜粋) 『近年,機械学習分野において, 「現実世界の高次元データは,本質的に低次元であ る」 という多様体仮説 を元にした学習方法が見られる. 深層学習においても,多様 体仮説に基づく学習方法がそうでない学習方 法と比較して性能が良いことが示唆さ
れている. 』 (出典) 全脳アーキテクチャ・イニシアティブ 11 回全脳アークテクチャー勉強会 「Deep Learning の中身に迫る」 報告書 http://ailab.dwango.co.jp/technical_report/DWAL-TR-2015-004.pdf
深層学習モデルは、「アフィン変換」によって、 入力データの特徴量(=本質的な情報) を抽出する 深層学習モデルは、入力データが持つ「本質的な情報(量)」 =入力データの特徴量を取り出そうとする。 深層学習モデルは、前の中間層から次の中間層へとデータを受け渡す度に、 データを拡大縮小したり、回転させたり、ゆがめたり、平行移動させる幾何学 的な操作を加えていく。
この操作を繰り返すことで、入力データがもつ「本質的な情報(量)」を最大 限に保存する、別の幾何学構造体(多様体)”を得ようとする。 獲得される新たな幾何学構造体(多様体)の次元数は、最終中間層の次元 数=最終中間層のノードの数となる。通常、入力データの次元数よりも小さ い)
深層学習モデルは、「アフィン変換」によって、 入力データの特徴量(=本質的な情報) を抽出する 「データを拡大縮小したり、回転させたり、ゆがめたり、平行移動させる幾何 学的な操作」のことを、数学上のことばでは、 「同相写像」(「アフィン変換」)と呼ぶ。 この操作は、データを「切断したり折り返したり」はしない。 「線形変換」=サイズを伸縮する・歪める操作と、
「平行移動」させる操作のみを適用する。
「アフィン変換」を繰り返す様子 (出典) Koji Ohki Qiita記事 「ニューラルネットワーク、多様体、トポロジー」 https://qiita.com/KojiOhki/items/af2241027b00f892d2bd クラス分類タスクに取り組む 深層学習モデルの場合は、 もとの入力データを、
線形分離可能になるように、 入力データの幾何学構造 を変えようと頑張る。
「アフィン変換」を繰り返す様子 (出典) Koji Ohki Qiita記事 「ニューラルネットワーク、多様体、トポロジー」 https://qiita.com/KojiOhki/items/af2241027b00f892d2bd
「アフィン変換」について (出典) Hatena Blog 大人になってからの再学習 「アフィン変換とは」 http://zellij.hatenablog.com/entry/20120523/p1
深層学習モデルのひとつの解釈 深層学習モデル(深層ニューラルネットワーク・モデル)とは、 入力データ(元データ)に幾何学的な構造変換操作(アフィン変換)を適用 することで、 ・ クラス分類を行いやすいデータ構造 ・ テキスト・画像・音声・動画データに潜む本質的な情報を圧縮できる データ構造
を得る(通常は、元データよりも小さな次元をもつ構造にする) ための「データの幾何学構造の変換(写像)操作」である。 (高次元の多様体を、小さな次元の多様体へと写像する操作)
つまり、 分類精度や回帰予測精度、文章生成精度などが高い深層学習モデルは、 もともとのデータが備えていた「本質的な情報」を極力、損なわずに、 「より小さな次元(=最終中間層のノード数に一致)の多様体」 へと写像変換することに成功した、 と解釈できる。
深層学習モデルがアフィン変換によっておこなう 入力データ(=多様体) から 低次限の別の多様体 への 同相写像 をもとに、数理解析的に、 もとの入力データがもっていた幾何学的な構造 を特定することができる、 元データのデータ構造を逆算的に特定できる
精度の高い深層学習モデルが獲得した 「低次元の多様体」(=情報構造体元) から、 「もともとのデータ」の「次元数」と「基底となる軸の接線方向」 を、数理解析的に、逆算的に得ることができる。 元データのデータ構造を逆算的に特定できる
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークが獲得した関数を,
データセット多様体を大域的な座標系へ 写像する関数だとみなすと, その関数 を解析することで, 元の多様体の性質を知ることが可能となる. なぜならば,多様体から多様体への写像 の微分は,以下で 定義される多様体の接空間 を定義し,そこから多様体の次元や 接ベクトル 等の情報を得ることができるからである.」
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークの写像関数の微分
(ヤコビアン行列) の特異値・特異ベクトル のうち,0 より大きな特異値に対応する 特異ベクトルが多様体の接線方向を, 0 の特異値に対応するベクトルが 多様体の垂直方向をあらわす. 従って,0 でない特異値の数から, 多様体の次元もわかる.」
入力データ(元データ)の情報構造が獲得できる (得られる情報=次元数と接線方向) (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークの写像関数の微分
(ヤコビアン行列) の特異値・特異ベクトル のうち,0 より大きな特異値に対応する 特異ベクトルが多様体の接線方向を, 0 の特異値に対応するベクトルが 多様体の垂直方向をあらわす. 従って,0 でない特異値の数から, 多様体の次元もわかる.」
入力データ(元データ)の情報構造が持つ 次元数の獲得 (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf
入力データ(元データ)の情報構造が持つ 接線方向を獲得する (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」 https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf (抜粋) 「ニューラルネットワークの写像関数の微分
(ヤコビアン行列) の特異値・特異ベクトル のうち,0 より大きな特異値に対応する 特異ベクトルが多様体の接線方向を, 0 の特異値に対応するベクトルが 多様体の垂直方向をあらわす.」
入力データ(元データ)の情報構造が持つ 次元数を獲得する 正の値をもつ特異値の個数から、 入力データの多様体は、O(1) だと考えられる。 (出典) 本武・池上 「Deep Neural Networksの力学的・幾何学的解析」
https://kaigi.org/jsai/webprogram/2016/pdf/773.pdf
tt-SNE(多様体学習法)を用いて、入力データを次元圧縮 して結果、推定される入力データの次元数は、3次元であった。 入力データ(元データ)の情報構造が持つ 次元数を獲得する
深層学習モデルが、 入力データの『どこに注目しているか』 を可視化する手法としては、 Saliency map や Class Activatiom Map (CAM)
が知られている。 これとは別に、深層学習モデルを用いて、 『入力データ』(次元の数 や 基底軸となる解釈軸の方向性は、未知) が、どのような幾何学構造をもつ情報の構造体なのか (「次元の数」と「接線方向」) を、数理的に導出することができる。 元データのデータ構造を逆算的に特定できる
(微分幾何・情報幾何学と深層学習)
自然勾配学習法 損失関数の偏微分ベクトル(勾配ベクトル)が最大値をとる方向に、 中間層の重み wi,j を更新するのが妥当なのは、 入力データが中間層によって 構造変換(同相変換)された結果、 得られる多様体の曲率が、 ユークリッド空間である場合
に限定される。 中間層によって 構造変換(同相変換)された結果、得られた多様体が、 リーマン多様体などである場合を考慮に入れて、 損失関数の偏微分値を、一般化した上で、 重みを更新する勾配の方向を見積もる必要があるという考え方。
自然勾配学習法 (出典) 甘利 「自然勾配学習法-学習空間の幾何学」 https://www.jstage.jst.go.jp/article/sicejl1962/40/10/40_10_735/_pdf
自然勾配学習法 (出典) 田中・杉原・須田 「自然勾配学習法の有効性」 https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=29375&item_no=1&attribute_id=1&file_no=1
情報幾何学 (出典) 大阪市立大学数学研究所ミニスクール 「情報幾何への入門と応用 http://www.sci.osaka-cu.ac.jp/~ohnita/2006/inf_geom/sos_dan/book_0403.pdf
自然勾配学習法 実務上では、自然勾配学習法を用いた事例は多くない印象がある。 理由として、最急降下法に続いて、確率的最急降下法(SGD)がでると、 計算コストの観点で、SGDの方が、計算負荷が小さく、尚且つ、短時間に、 局所最適解にそこそこ陥らずに、大域最適解にいきつけ るとみなす動きが主流となった可能性が考えられる。 さらに、計算負荷の大きいヘシアン行列を計算せずに済む、
「ヘシアン・フリー最適化」とよばれる手法も、注目を集めている。