Julia Tokyo #11 トーク: 「Juliaで歩く自動微分」

Juliaと歩く自動微分 Julia Tokyo #11 @abap34　 2023/02/03 1 / 142

ソースコード・スライドのソース: https://github.com/abap34/juliatokyo11 このスライド(アニメーション付きのhtml版): https://www.abap34.com/slides/juliatokyo11/slide.html 各種リンク 2 / 142

東京工業大学情報理工学院情報工学系 B2 趣味機械学習個人開発野球をする/みる大岡山の焼き鳥屋に行く @abap34
@abap34 https://abap34.com 自己紹介 3 / 142

Juliaのこんなところが気に入ってます！ 1. 綺麗な可視化・ベンチマークライブラリ i. Plotまわり, @code_... マクロ, BenchmarkTools.jl たち 2.
パッケージ管理ツール i. 言語同梱、仮想環境すぐ作れる、パッケージ化簡単 3. すぐ書けるすぐ動く i. Jupyter サポート, 強力な REPL 4. 速い！！ i. 速い正義 ii. 裏が速いライブラリの「芸人」にならなくても、素直に書いてそのまま速い自己紹介 Introduction 4 / 142

Julia を使って解かれた・書かれたレポートたち Introduction 5 / 142

one of 興味があるもの機械学習(特に深層学習) の基盤 https://github.com/abap34/JITrench.jl 今日のお話 6 / 142

one of 深層学習の基盤自動微分今日のお話 7 / 142

こんなことがありませんか？ 1. 深層学習フレームワークを使っているけど、あまり中身がわかっていない. 2. 微分を求めたいことがあって既存のライブラリを使っているけど、どの場面でどれを使うのが適切かわからない 3. 自分の計算ルーチンに微分の計算を組み込みたいけどやり方がわからない 4. え、自動微分ってただ計算するだけじゃないの？何がおもしろいの？
今日話すこと Introduction 8 / 142

実は... 自動微分は奥が深くて面白い！状況に応じて適切なアルゴリズムを選ぶことで、幸せになれる Julia を使うことで簡単に、そして拡張性の高い自動微分エコシステムに乗っかることができる！今日話すこと 9 / 142

[1] 微分と連続最適化 1.1 微分のおさらい 1.2 勾配降下法 1.3 勾配降下法と機械学習 [2] 自動で微分
2.1 自動微分の枠組み 2.2 数式微分 ─式の表現と微分 2.3 自動微分 ─式からアルゴリズムへ [3] Juliaに微分させる 3.1 FiniteDiff.jl/FiniteDifferences.jl 3.1 ForwardDiff.jl 3.2 Zygote.jl [4] 付録おしながき Introduction 10 / 142

1. 微分を求めることでなにが嬉しくなるのか, なぜ今自動微分が必要なのか理解する ⇩ 2. いろいろな微分をする手法のメリット・デメリットを理解する ⇩ 3. Julia でそれぞれを利用
/ 拡張する方法を理解する全体の流れ Introduction 11 / 142

1. 微分を求めることでなにが嬉しくなるのか, なぜ今微分が必要なのか理解する ⇩ 3. いろいろな微分をする手法のメリット・デメリットを理解する ⇩ 4. Julia でそれぞれを利用
/ 拡張する方法を理解する全体の流れ Introduction 12 / 142

[1] 微分と連続最適化 1.1 微分のおさらい 1.2 勾配降下法 1.3 勾配降下法と機械学習 13 /
142

微分の定義 from 高校数学 [定義1. 微分係数] 関数のにおける微分係数は微分の定義を振り返る ~
高校 1.1 微分のおさらい 14 / 142

偏 • 微分の定義 from 大学数学について偏微分以外の変数を固定して微分 [定義2. 偏微分係数] 変数関数
ののに関する偏微分係数微分の定義を振り返る ~大学 1.1 微分のおさらい 15 / 142

各について偏微分係数を計算して並べたベクトルを勾配ベクトルと呼ぶ例) のにおける勾配ベクトルは微分の定義を振り返る ~大学 1.1
微分のおさらい 16 / 142

　勾配ベクトルの重要ポイントはにおけるの値がもっとも小さくなる方向を指す勾配のうれしいポイント 1.1 微分のおさらい 17 /
142

[定理1. 勾配ベクトルの性質] はの最大値を与える。 ... せっかく Julia を使っているので視覚的に確かめてみる勾配のうれしいポイント 1.1
微分のおさらい 18 / 142

( のプロット) 実例で見てみる 1.1 微分のおさらい 19 / 142

計算すると、なので実例で見てみる 1.1 微分のおさらい 20 / 142

のプロット実例で見てみる 1.1 微分のおさらい 21 / 142

実例で見てみる 1.1 微分のおさらい 22 / 142

は小さくなる方を指す ⇩ の方向にちょっとづつ点を動かしていけば関数のそこそこ小さい値を取る点を探しに行ける勾配降下法 23 / 142

勾配降下法 24 / 142

勾配降下法元ネタ: Ilya Pavlyukevich, "Levy flights, non-local search and simulated
annealing", Journal of Computational Physics 226 (2007) 1830-1844. 25 / 142

機械学習で解きたくなる問題データがあるので、パラメータを変化させて損失をなるべく小さくせよ ⇩ 関数の小さい値を探しに行く問題勾配降下法チャンス！
勾配降下法を機械学習に応用する 1.3 勾配降下法と機械学習 26 / 142

勾配降下法を使った深層学習モデルのパラメータの最適化は、実際やってみると • • • • • • •
• 非常に上手くいく勾配降下法と深層学習 27 / 142

基本的に、深層学習モデルは勾配降下法を使って訓練 ⇨ 今この瞬間も世界中の計算機がせっせと勾配ベクトルを計算中勾配降下法と深層学習 28 / 142

データがあるので、パラメータを変化させて損失をなるべく小さくせよ ⇩ 勾配降下法で解くには... を使ってを更新して小さい値を探索していく
勾配の計算法を考える 1.3 勾配降下法と機械学習 29 / 142

データがあるので、パラメータを変化させて損失をなるべく小さくせよ ⇩ 勾配降下法で解くには... の値を使ってを更新して小さい値を探索していく
... をどうやって計算する？勾配の計算法を考える 1.3 勾配降下法と機械学習 30 / 142

さっきは ⇨ 頑張って手でを求められた深層学習の複雑なモデル... 　 ⇩ とてもつらい. 勾配の計算法を考える画像:
He, K., Zhang, X., Ren, S., & Sun, J. (2015). Deep Residual Learning for Image Recognition. ArXiv. /abs/1512.03385 31 / 142

アイデア1. 近似によって求める？ ⇨ 実際に小さいをとって計算する. function diff(f, x; h=1e-8) return
(f(x + h) - f(x)) / h end 勾配の計算法を考える ~近似編 1.3 勾配降下法と機械学習 32 / 142

これでもそれなりに近い値を得られる. 例) のにおける微分係数を求める. julia> function diff(f, x; h=1e-8)
return (f(x + h) - f(x)) / h end diff (generic function with 1 method) julia> diff(x -> x^2, 2) # おしい！ 3.999999975690116 勾配の計算法を考える ~近似編 1.3 勾配降下法と機械学習 33 / 142

実際に小さいをとって計算「数値微分」お手軽だが... 誤差が出る勾配ベクトルの計算が非効率数値微分 34 / 142

問題点①. 誤差が出る 1. 本来極限をとるのに、小さいをとって計算しているので誤差が出る 2. 分子が極めて近い値同士の引き算になっていて、桁落ちによって精度が大幅に悪化.
問題点②. 勾配ベクトルの計算が非効率 1. 変数関数の勾配ベクトルを計算するには、各について「少し動かす→計算」を繰り返すので回を評価する. 2. 応用ではがとても大きくなり、の評価が重くなりがちでこれが致命的 --> 数値微分 1.3 勾配降下法と機械学習 35 / 142

微分をすることによる誤差なく高次元の勾配ベクトルを効率よく計算できないか？改良を考える 1.3 勾配降下法と機械学習 36 / 142

< できますよ 1.3 勾配降下法と機械学習 37 / 142

自動微分の世界へ 1.3 勾配降下法と機械学習 38 / 142

/ 拡張する方法を理解する全体の流れ 1.3 勾配降下法と機械学習 39 / 142

/ 拡張する方法を理解する全体の流れ 1.3 勾配降下法と機械学習 40 / 142

[2] 自動で微分 2.1 自動微分の枠組み 2.2 数式微分 ─式の表現と微分と連鎖律 2.3 自動微分 ─式からアルゴリズムへ
2.4 自動微分とトレース 2.5 自動微分とソースコード変換 41 / 142

2.1 自動微分の枠組み 42 / 142

計算機上で微分するためには、計算機上で関数を表現しないといけない. 自動微分の枠組み 2.1 自動微分の枠組み 43 / 142

[定義. 自動微分] (数学的な関数を表すように定義された) 計算機上のアルゴリズム • • • • • •
• • • • • を入力とし, その関数の任意の点の微分係数を無限精度の計算モデル上で正確に計算できる計算機上のアルゴリズム • • • • • • • • • • • を出力するアルゴリズムを「自動微分(Auto Differentiation, Algorithmic Differentiation)」と呼ぶ。「自動微分」 2.1 自動微分の枠組み 44 / 142

計算機は、計算機上の表現をもらって計算機上の表現を返す. 自動微分の枠組み 45 / 142

自動微分 46 / 142

[例: 二次関数の微分] < の微分がわからないので、自動微分で計算したい自動微分 2.1 自動微分の枠組み 47 / 142

1. 関数アルゴリズム by プログラマー function f(x::InfinityPrecisionFloat) return x^2 end
例: 二次関数の微分 48 / 142

2. アルゴリズムアルゴリズム by 自動微分ライブラリ using AutoDiffLib # ※ 存在しないです！
function f(x::InfinityPrecisionFloat) return x^2 end df = AutoDiffLib.differentiate(f) df(2.0) # 4.0 df(3.0) # 6.0 例: 二次関数の微分 49 / 142

[例: 二次関数の微分] < の微分がわからないので、自動微分で計算したいプログラムに直したプログラマがミスっていなければ自動微分ライブラリがバグっていなければ正しい微分係数を計算できるアルゴリズムを入手できた例: 二次関数の微分 2.1
自動微分の枠組み 50 / 142

で、実際にどうやって微分する？ ⇩ 自動微分の実装へ自動微分の枠組み 51 / 142

2.2 数式微分 ─式の表現と微分 function symbolic_derivative(f::Function)::Function g = symbolic_operation(f) return g
end 52 / 142

[定義. 自動微分] (数学的な関数を表すように定義された) 計算機上のアルゴリズム • • • • • •
• • • • • を入力とし, その関数の任意の点の微分係数を無限精度の計算モデル上で正確に計算できる計算機上のアルゴリズム • • • • • • • • • • • を出力するアルゴリズムを「自動微分(Auto Differentiation, Algorithmic Differentiation)」と呼ぶ。数式微分 2.2 数式微分 -式の表現と微分 53 / 142

アルゴリズム • • • • • • 　を計算機上でどう表現するか？数式微分 2.2
数式微分 -式の表現と微分 54 / 142

+ * * 1 2 ^ x 2 3 x
単純・解析しやすい表現 ... 式をそのまま木で表す数式微分のアイデア 55 / 142

この木をもとに導関数を表現する木を得たい！数式微分のアイデア 2.2 数式微分 -式の表現と微分 56 / 142

数式微分のアイデア 2.2 数式微分 -式の表現と微分 57 / 142

Julia なら簡単に式の木構造による表現を得られる. julia> f = :(4x + 3) #
or Meta.parse("4x + 3") :(4x + 3) julia> dump(f) Expr head: Symbol call args: Array{Any}((3,)) 1: Symbol + 2: Expr head: Symbol call args: Array{Any}((3,)) 1: Symbol * 2: Int64 4 3: Symbol x 3: Int64 3 Expr 型 2.2 数式微分 -式の表現と微分 58 / 142

Expr 型の可視化 ─ 構造が保持されてる Expr 型 59 / 142

1. 定数を微分できるようにする julia> derivative(ex::Int64) = 0 数式微分の実装 2.2 数式微分 -式の表現と微分
60 / 142

2. についての微分は derivative(ex::Symbol) = 1 数式微分の実装 2.2 数式微分 -式の表現と微分 61
/ 142

3. 足し算に関する微分 function derivative(ex::Expr)::Expr op = ex.args[1] if op ==
:+ return Expr( :call, :+, derivative(ex.args[2]), derivative(ex.args[3]) ) end end 数式微分の実装 2.2 数式微分 -式の表現と微分 62 / 142

4. 掛け算に関する微分 function derivative(ex::Expr)::Expr op = ex.args[1] if op ==
:+ ... elseif op == :* return Expr( :call, :+, Expr(:call, :*, ex.args[2], derivative(ex.args[3])), Expr(:call, :*, derivative(ex.args[2]), ex.args[3]) ) end end 数式微分の実装 2.2 数式微分 -式の表現と微分 63 / 142

derivative(ex::Symbol) = 1 # dx/dx = 1 derivative(ex::Int64) = 0
# 定数の微分は 0 function derivative(ex::Expr)::Expr op = ex.args[1] if op == :+ return Expr(:call, :+, derivative(ex.args[2]), derivative(ex.args[3])) elseif op == :* return Expr( :call, :+, Expr(:call, :*, ex.args[2], derivative(ex.args[3])), Expr(:call, :*, derivative(ex.args[2]), ex.args[3]) ) end end 数式微分の実装 2.2 数式微分 -式の表現と微分 ※ Juliaは 2 * x * x のような式を、 (2 * x) * x でなく *(2, x, x) として表現するのでこのような式については上は正しい結果を返しません. (スペースが足りませんでした) このあたりもちゃんとやるやつは付録のソースコードを見てください. 基本的には二項演算の合成とみて順にやっていくだけで良いです。 64 / 142

例) の導関数を求めてでの微分係数を計算 julia> f = :(x * x
+ 3) :(x * x + 3) julia> df = derivative(f) :((x * 1 + 1x) + 0) julia> x = 2; eval(df) 4 julia> x = 10; eval(df) 20 数式微分の実装 2.2 数式微分 -式の表現と微分 65 / 142

df = ((x * 1 + 1x) + 0) ...
2x にはなっているが冗長？数式微分の改良 ~ 複雑な表現 2.2 数式微分 -式の表現と微分 66 / 142

自明な式の簡約を行ってみる足し算の引数から 0 を除く. 掛け算の引数から 1 を除く. function add(args) args
= filter(x -> x != 0, args) if length(args) == 0 return 0 elseif length(args) == 1 return args[1] else return Expr(:call, :+, args...) end end 簡約化 2.2 数式微分 -式の表現と微分 67 / 142

掛け算の引数から 1 を取り除く. function mul(args) args = filter(x -> x
!= 1, args) if length(args) == 0 return 1 elseif length(args) == 1 return args[1] else return Expr(:call, :*, args...) end end 簡約化 2.2 数式微分 -式の表現と微分 68 / 142

数式微分 + 自明な簡約 derivative(ex::Symbol) = 1 derivative(ex::Int64) = 0 function
derivative(ex::Expr) op = ex.args[1] if op == :+ return add([derivative(ex.args[2]), derivative(ex.args[3])]) elseif op == :* return add([ mul([ex.args[2], derivative(ex.args[3])]), mul([derivative(ex.args[2]), ex.args[3]]) ]) end end 簡約化 2.2 数式微分 -式の表現と微分 69 / 142

　簡単な式を得られた julia> derivative(:(x * x + 3)) :(x + x)
⇨ ではこれでうまくいく？ julia> derivative(:((1 + x) / (2 * x^2))) :((2 * x ^ 2 - (1 + x) * (2 * (2x))) / (2 * x ^ 2) ^ 2) 簡約化 2.2 数式微分 -式の表現と微分 70 / 142

* * * * * x x x x *
* x x x x julia> t1 = :(x * x) julia> t2 = :($t1 * $t1) julia> f = :($t2 * $t2) :(((x * x) * (x * x)) * ((x * x) * (x * x))) というは、木で表現すると... 式の表現法を考える 71 / 142

julia> t1 = :(x * x) julia> t2 = :($t1
* $t1) julia> f = :($t2 * $t2) :(((x * x) * (x * x)) * ((x * x) * (x * x))) 作るときは単純な関数が、なぜこんなに複雑になってしまったのか？ ⇨ (木構造で表す) 式には、代入・束縛がないので、共通のものを参照できない. ⇨ アルゴリズムを記述する言語として、数式(木構造)は貧弱式の表現法を考える 2.2 数式微分 -式の表現と微分 72 / 142

数式微分は微分すると • • • • • 式が肥大化してうまくいかない. 木で式を表現するのがそもそもうまくいかない式の表現法を考える参考:
Laue, S. (2019). On the Equivalence of Automatic and Symbolic Differentiation. ArXiv. /abs/1904.02990 73 / 142

/ - ^ * * 2 ^ x 2 +
* 1 x 2 * 2 x * 2 2 ^ x 2 :((2 * x ^ 2 - (1 + x) * (2 * (2x))) / (2 * x ^ 2) ^ 2) も、式の表現法を考える 74 / 142

y_{1} y_{2} y_{3} y_{4} y_{5} y_{6} y_{7} y_{8} y_{9} y_{1}
^ x 2 y_{2} * 2 y_{3} + 1 x y_{4} * 2 x y_{5} * 2 y_{6} * y_{7} - y_{8} ^ 2 y_{9} / 式の表現法を考える 75 / 142

[需要] 制御構文・関数呼び出し etc... 一般的なプログラミング言語によって記述されたアルゴリズムに対しても、微分したい x = [1, 2,
3] y = [2, 4, 6] function linear_regression_error(coef) pred = x * coef error = 0. for i in eachindex(y) error += (y[i] - pred[i])^2 end return error end 式からアルゴリズムへ、木からDAGへ 2.2 数式微分 -式の表現と微分 76 / 142

木構造の式から木構造の式 ⇩ (ふつうの)　プログラムからプログラム　へ式からアルゴリズムへ、木からDAGへ 2.2 数式微分
-式の表現と微分ヒューリスティックにやってそれなりに簡単な式を得られれば実用的には大丈夫なので与太話になりますが、簡約化を頑張れば最もシンプルな式を得られるか考えてみます。簡単さの定義にもよるかもしれませんが、でなはと簡約化されるべきでしょう。ところが、が四則演算とと有理数, で作れる式のとき、か判定する問題は決定不能であることが知られています。(Richardson's theorem) したがって、一般の式を入力として、最も簡単な式を出力するようなアルゴリズムは存在しないとわかります。 77 / 142

2.3 自動微分式からアルゴリズムへ 78 / 142

おさらい木構造で関数を表現しようとすると、簡単なものでも木が複雑になる. 原因は、木で表現された数式は束縛がないこと束縛ができる (中間変数が導入された) 場合にどうなるか考えてみるアルゴリズムの表現 2.3 自動微分 ─式からアルゴリズムへ
79 / 142

... あるものに名前をつけていくらでも参照できるようになった DAG による表現 80 / 142

有効非巡回グラフ(DAG)　でのアルゴリズムの表現計算グラフ (Kantorovich グラフ) DAG による表現 81 / 142

[計算グラフ] 計算過程をDAGで表現計算グラフによる表現単に計算過程を表しただけのものを Kantorovich グラフなどと呼び、これに偏導関数などの情報を加えたものを計算グラフと呼ぶような定義もあります. (伊里, 久保田 (1998)
に詳しく形式的な定義があります) ただ、単に計算グラフというだけで計算過程を表現するグラフを指すという用法はかなり普及していて一般的と思われます。そのためここでもそれに従って計算過程を表現するグラフを計算グラフと呼びます. 82 / 142

(一旦計算グラフを得たものとして、)　この構造から導関数を得ることを考えてみる. 計算グラフによる表現 2.3 自動微分 ─式からアルゴリズムへ 83 / 142

[連鎖律] の関数による合成関数に対して、連鎖律 2.3 自動微分 ─式からアルゴリズムへ 84 /
142

目標のとき、を求める連鎖律と計算グラフの対応 85 / 142

との対応は、連鎖律と計算グラフの対応 86 / 142

z Mul x y Sub u Add v 連鎖律と計算グラフの対応 87
/ 142

z Mul x y Sub u Add v 変数に対する
による偏微分の計算グラフ上の表現からへの全ての経路の偏微分の総積の総和はからへの全ての経路の集合. は変数から変数への辺を表す. 連鎖律と計算グラフの対応 88 / 142

z x6 x5 x2 x3 v u 一番簡単なやりかたを求める: graph
= ComputationalGraph(f) ∂z_∂u = 0 for path in all_paths(graph, u, z) ∂z_∂u += prod(grad(s, t) for (s, t) in path) end キャッシュ 89 / 142

z x6 x5 x2 x3 v u 続いてを求める: ∂z_∂v
= 0 for path in all_paths(graph, v, z) ∂z_∂v += prod(grad(s, t) for (s, t) in path) end キャッシュ 90 / 142

z x6 x5 x2 x3 v u 共通部がある！独立して計算するのは非効率. ⇨
うまく複数のノードからの経路を計算する. 自動微分とキャッシュ 91 / 142

z x6 x5 x2 x3 v u Backward-Mode AD 92
/ 142

1 x6 x5 x2 x3 v u Backward-Mode AD 93
/ 142

1 x6 6 x5 x2 x3 v u Backward-Mode AD
94 / 142

1 x6 6 x5 30 30 x2 x3 v u
Backward-Mode AD 95 / 142

1 x6 6 x5 30 30 x2 x3 90 60
Backward-Mode AD 96 / 142

　計算グラフを辿っていくことで、共通部の計算を共有しながら、「複数の偏微分係数をグラフ一回の走査で」「中間変数の偏微分係数を共有しながら」計算できた！この微分のアルゴリズムを後退型自動微分 (Backward-Mode AD)、高速微分(fast differentiation)、
逆向き自動微分(Reverse-Mode AD)、高速自動微分(fast AD) などと呼ぶ. Backward-Mode AD 2.3 自動微分 ─式からアルゴリズムへ 97 / 142

一般のについて、常に逆向きに微分を辿るのがよい？ ⇩ の場合を考えてみる Forward-Mode AD 2.3 自動微分 ─式からアルゴリズムへ 98
/ 142

x x6 x5 x2 x3 y z ... から辿っていくことで、共通部を共有しつつ, 複数の出力に対する偏微分係数を一
度に計算できる ⇨ 前進型自動微分 (Forward-Mode AD) Forward-Mode AD 2.3 自動微分 ─式からアルゴリズムへ 99 / 142

逆向き自動微分 (Backward-Mode AD) に対して、の場合に効率的勾配を一回グラフを走査するだけで計算可能前進型自動微分 (Forward-Mode AD) に対して、
の場合に効率的ヤコビ行列の一列を一回グラフを走査するだけで計算可能実装では定数倍が軽くなりがちなため、が小さい場合には効率的な可能性が高い Backward / Forward-Mode AD 2.3 自動微分 ─式からアルゴリズムへ時間がないため割愛しましたが、 Forward-Mode AD の話でよく出てくる二重数というものがあります. かつなるを考え、これと実数からなる集合上の演算を素直に定義すると一見、不思議なことに微分が計算される... というような面白い数です。　興味があるかたは「2乗してはじめて0になる数」とかあったら面白くないですか？ですよね - アジマティクスや ForwardDiff.jlのドキュメント　などおすすめです。 100 / 142

計算グラフは DAG トポロジカルソート可能演算の適用順序を適切に持てば、単に演算の列を持って同様にグラフを辿るのと同じことが可能. この列を、 Wengert List, Gradient
Tape と呼ぶ. 計算グラフ以外の表現 2.3 自動微分 ─式からアルゴリズムへ 101 / 142

PyTorch / Chainer は Wengert List ではなく計算グラフを使っている. [1] No tape.
Traditional reverse-mode differentiation records a tape (also known as a Wengert list) describing the order in which operations were originally executed; <中略> An added benefit of structuring graphs this way is that when a portion of the graph becomes dead, it is automatically freed; an important consideration when we want to free large memory chunks as quickly as possible. Zygote.jl, Tensorflow などは Wengert List を使っている. 計算グラフ vs Wengert List 2.3 自動微分 ─式からアルゴリズムへ [1] Paszke, A., Gross, S., Chintala, S., Chanan, G., Yang, E., DeVito, Z., Lin, Z., Desmaison, A., Antiga, L. & Lerer, A. (2017). Automatic Differentiation in PyTorch. NIPS 2017 Workshop on Autodiff, . [2] 計算グラフとメモリの解放周辺で、Chainer の Aggressive Buffer Release という仕組みがとても面白いです: Aggressive buffer release #2368 102 / 142

< 計算グラフさえあれば計算ができることがわかった。では計算グラフをどう得るか？計算グラフをどう得るか？ 2.3 自動微分 ─式からアルゴリズムへ 103 / 142

一般的なプログラムを直接解析 • • • • して (微分が計算できる) 計算グラフを得るプログラムを実装するのはとても難易度
が高い. x = [1, 2, 3] y = [2, 4, 6] function linear_regression_error(coef) pred = x * coef error = 0. for i in eachindex(y) error += (y[i] - pred[i])^2 end return error end 計算グラフをどう得るか？ 2.3 自動微分 ─式からアルゴリズムへ 104 / 142

トレース実際にプログラムを実行し、その過程を記録することで計算グラフを得るトレースによる計算グラフの獲得 2.3 自動微分 ─式からアルゴリズムへ 105 / 142

[典型的なトレースの実装] 1. Varialble 型を用意 2. 基本的な演算を表す関数について、 Varialble 型用のメソッドを実装し、このメソッドの中で計算グラフも構築するトレースの
OO による典型的な実装 2.3 自動微分 ─式からアルゴリズムへ 106 / 142

import Base mutable struct Scalar values creator grad generation name
end Base.:+(x1::Scalar, x2::Scalar) = calc_and_build_graph(+, x1, x2) Base.:*(x1::Scalar, x2::Scalar) = calc_and_build_graph(*, x1, x2) ... トレースの OO による典型的な実装 2.3 自動微分 ─式からアルゴリズムへ 107 / 142

「実際そのときあった演算」のみが記録され問題になる ⇨ 制御構文がいくらあってもOK function crazy_function(x, y) rand() <
0.5 ? x + y : x - y end x = Scalar(2.0, name="x") y = Scalar(3.0, name="y") z = crazy_function(x, y) JITrench.plot_graph(z, var_label=:name) トレースの利点 108 / 142

計算時にグラフを作ることによるオーバーヘッドコンパイラの最適化の情報が消えてしまい恩恵をうけにくいトレースの欠点 2.3 自動微分 ─式からアルゴリズムへ 109 / 142

コンパイラと深く関わったレベルで自動微分をやっていこう！ ⇩ Zygote.jl, Enzyme, Swift for Tensorflow etc... トレースからソースコード変換へ 2.3
自動微分 ─式からアルゴリズムへ 110 / 142

[3] Juila に微分させる 111 / 142

3.1 FiniteDiff.jl/FiniteDifferences.jl 112 / 142

どちらも数値微分のパッケージ概ね機能は同じだが、スパースなヤコビ行列を求めたいときやメモリのアロケーションを気にしたいときは FIniteDiff.jl を使うといいかもしれない詳しい比較は https://github.com/JuliaDiff/FiniteDifferences.jl julia> using FiniteDifferences
julia> central_fdm(5, 1)(sin, π / 3) 0.4999999999999536 FiniteDiff.jl/FiniteDifferences.jl FiniteDiff.jl/FiniteDifferences.jl 数値微分時代については　「付録: 数値微分」　を参照してください 113 / 142

ForwardDiff.jl 114 / 142

Forward-Mode の自動微分を実装したパッケージ小規模な関数の微分を行う場合は高速なことが多い julia> using ForwardDiff julia> f(x) = x^2
+ 4x f (generic function with 1 method) julia> df(x) = ForwardDiff.derivative(f, x) # 2x + 4 df (generic function with 1 method) julia> df(2) 8 ForwardDiff.jl 115 / 142

Zygote.jl 116 / 142

コンパイラと深く関わったレベルで自動微分をやっていこう！ ⇩ Zygote.jl, Enzyme, Swift for Tensorflow etc... Zygote.jl Zygote.jl
117 / 142

ソースコード変換ベースのAD JuliaのコードをSSA形式のIRに変換して導関数を計算するコード (Adjoint Code) を生成 julia> f(x) = 3x^2
f (generic function with 1 method) julia> Zygote.@code_ir f(0.) 1: (%1, %2) %3 = Main.:^ %4 = Core.apply_type(Base.Val, 2) %5 = (%4)() %6 = Base.literal_pow(%3, %2, %5) %7 = 3 * %6 return %7 Zygote.jl 118 / 142

Julia のコンパイラと連携・最適なコードを生成 SSA形式からの最適化 ... という方向性はJuliaに限らない ⇨ Enzyme, Diffractor.jl... Zygote.jl 119
/ 142

Enzyme LLVMのレイヤーで自動微分を行う. Julia をはじめ、LLVMを中間表現に使っている色々な言語で動作させられる Diffractor.jl より進んで Juliaの型推論を活用し効率的なコードを生成を目指すまだ experimental だが
Keno さんが開発中で期待大！その他のパッケージ 120 / 142

まとめ微分をするアルゴリズムはさまざまあり、それぞれ特徴があった数値微分... 容易に実装可能自動微分... 高速で精度よく計算できる状況(入出力変数の数, 時間 etc...) に応じて適切なアルゴリズムを選ぶのが大事！
メタプログラミングやコンパイラのあれこれに介入しやすいJuliaが楽しい！自動微分は奥が深い！ 121 / 142

おまけ数値微分 function numerical_derivative(f::Function, x::Number)::Number g = numerical_operation(f, x) return
g end 122 / 142

微分の定義をそのまま近似する数値微分のアイデア数値微分 123 / 142

function numerical_derivative(f, x; h=1e-8) g = (f(x+h) - f(x)) /
h return g end f(x) = sin(x) f′(x) = cos(x) x = π / 3 numerical_derivative(f, x) # 0.4999999969612645 f′(x) # 0.5000000000000001 数値微分の実装数値微分 124 / 142

1. 打ち切り誤差が生じる 2. 桁落ちも起こる 3. 計算コストが高い数値微分のデメリット数値微分 125 /
142

本来は極限を取るのに小さい値で誤魔化すので誤差が発生 ⇩ 実際どれくらいの誤差が発生する？数値微分の誤差 ~ 打ち切り誤差数値微分 126 /
142

[定理2. 数値微分の誤差] [証明] テイラー展開すると、数値微分の誤差数値微分 127 / 142

実験: なら、をどんどん小さくすればいくらでも精度が良くなるはず？ H = [0.1^i for i in 4:0.5:10]
E = similar(H) for i in eachindex(H) d = numerical_derivative(f, x, h=H[i]) E[i] = abs(d - f′(x)) end plot(H, E) 誤差の最小化数値微分 128 / 142

実際くらいになるとむしろ精度が悪化する誤差の最小化 129 / 142

が小さくなると、分子の引き算が非常に近い値の引き算になる ⇨ 桁落ちが発生し全体として悪化丸め誤差と打ち切り誤差のトレードオフ数値微分 130 / 142

誤差への対応 1. 打ち切り誤差　⇨ 計算式の変更 2. 桁落ち ⇨ の調整？数値微分の改良数値微分
131 / 142

1. 打ち切り誤差への対応微分の (一般的な) 定義をそのまま計算する方法: は前進差分と呼ばれる数値微分の改良 ~
打ち切り誤差の改善数値微分 132 / 142

ところで、 ⇩ これを近似してみても良さそう？数値微分の改良 ~ 打ち切り誤差の改善数値微分 133 / 142

実はこれの方が精度がよい！ [定理3. 中心差分の誤差] 同じようにテイラー展開をするとわかるまた、簡単な計算で一般のについて点評価での近似式を得られる中心差分による２次精度の数値微分数値微分
中心差分と同様にから左右に個ずつ点とってこれらの評価の重みつき和を考えてみます。すると、テイラー展開の各項を足し合わせて以外の係数をにすることを考えることで公比が各列で初項のヴァンデルモンド行列をとしてを満たすを各成分で割ったのが求めたい重みとわかります. あとはこれの重み付き和をとればいいです. 同様にして階微分の近似式も得られます. 134 / 142

2. 桁落ちへの対応 Q. 打ち切り誤差と丸め誤差のトレードオフでを小さくすればいいというものじゃないことはわかった。じゃあ、最適なは見積もれる？ A. 最適なは
の階微分の大きさに依存するから簡単ではない. 例) 中心差分はくらい ? ⇨ がわからないのにを使った式を使うのは現実的でない. しょうがないのでに線を引いてみると... 数値微分の改良 ~ 桁落ちへの対応数値微分 135 / 142

何回微分しても大きさが変わらないウルトラお行儀が良い関数. 数値微分 136 / 142

　(微分するたびが外に出る) 数値微分 137 / 142

デメリット3. 計算コストが高い数値微分 138 / 142

のにおける勾配ベクトルを求める function numerical_gradient(f, x::Vector; h=1e-8) n = length(x)
g = zeros(n) y = f(x...) for i in 1:n x[i] += h g[i] = (f(x...) - y) / h x[i] -= h end return g end ⇨ を回評価する必要がある. 多変数関数への拡張数値微分 139 / 142

応用ではが重く, が大きくなりがち ⇨ 回評価は高コスト多変数関数への拡張数値微分 https://www.researchgate.net/figure/Number-of-parameters-ie-weights-in-recent-landmark-neural-networks1-2-31-43_fig1_349044689 より引用 140
/ 142

結論: 数値微分を機械学習などで使うのは難しそう. 一方、に特別な準備なくなんでも計算できる実装が容易でバグが混入しにくいため、他の微分アルゴリズムのテストに使われることが多い. 結論数値微分 141 /
142

1. 久保田光一, 伊里正夫「アルゴリズムの自動微分と応用」コロナ社 (1998) i. 自動微分そのものついて扱ったおそらく唯一の和書です.　詳しいです. ii. 形式的な定義から、計算グラフの縮小のアルゴリズムや実装例と基礎から実用まで触れられています.
iii. サンプルコードは、FORTRAN, (昔の) C++ です. 2. 斉藤康毅「ゼロから作るDeep Learning ③」 O'Reilly Japan (2020) i. トレースベースの Reverse AD を Python で実装します. ii. Step by step で丁寧に進んでいくので、とてもおすすめです. iii. 自動微分自体について扱った本ではないため、その辺りの説明は若干手薄かもしれません. 3. Baydin, A. G., Pearlmutter, B. A., Radul, A. A., & Siskind, J. M. (2015). Automatic differentiation in machine learning: A survey. ArXiv. /abs/1502.05767 i. 機械学習 x AD のサーベイですが、機械学習に限らず AD の歴史やトピックを広く取り上げてます. ii. 少し内容が古くなっているかもしれません. 4. Differentiation for Hackers i. Flux.jl や Zygote.jl の開発をしている Mike J Innes さんが書いた自動微分の解説です。 Juliaで動かしながら勉強できます. おすすめです. 5. Innes, M. (2018). Don't Unroll Adjoint: Differentiating SSA-Form Programs. ArXiv. /abs/1810.07951 i. Zygote.jl の論文です. かなりわかりやすいです. 6. Gebremedhin, A. H., & Walther, A. (2019). An introduction to algorithmic differentiation. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 10(1), e1334. https://doi.org/10.1002/widm.1334 i. 実装のパラダイムやCheckpoint, 並列化などかなり広く触れられています 7. Zygote.jl のドキュメントの用語集 i. 自動微分は必要になった応用の人がやったり、コンパイラの人がやったり、数学の人がやったりで用語が乱立しまくっているのでこちらを参照して整理すると良いです 8. JuliaDiff i. Julia での微分についてまとまっています. 9. Chainer のソースコード i. Chainer は Python製の深層学習フレームワークですが、既存の巨大フレームワークと比較すると、裏も Pythonでとても読みやすいです. ii. 気になる実装があったら当たるのがおすすめです. 議論もたくさん残っているのでそれを巡回するだけでとても勉強になります. 自動微分の勉強で参考になる文献 142 / 142

Julia Tokyo #11 トーク: 「Juliaで歩く自動微分」

Julia Tokyo #11 トーク: 「Juliaで歩く自動微分」

More Decks by abap34

Other Decks in Research

Featured

Transcript