Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ミニバッチサイズと学習率の関係 /small-batch-learning
Search
Miyakawa Taku
July 17, 2018
Programming
0
2.2k
ミニバッチサイズと学習率の関係 /small-batch-learning
Miyakawa Taku
July 17, 2018
Tweet
Share
More Decks by Miyakawa Taku
See All by Miyakawa Taku
入門: 末尾呼び出し最適化 /tail-call-elimination-intro
miyakawataku
2
2.5k
JVM言語の動き方・動かし方 /make-jvm-lang
miyakawataku
6
2.3k
Java SE 8から11で何が起きた?一気におさらいしてみよう! /java-se-8-to-11
miyakawataku
15
5.5k
機械学習プロジェクトの進め方 /howtoproceedwithmlproject
miyakawataku
0
370
グラフアルゴリズムその2: 単一始点最短路問題 /graphShortestPaths
miyakawataku
0
190
Strassenのアルゴリズムによる行列積の計算 /strassen-algorithm
miyakawataku
8
3.5k
Viterbiのアルゴリズム /viterbi-algorithm
miyakawataku
0
310
Other Decks in Programming
See All in Programming
大規模Cloud Native環境におけるFalcoの運用
owlinux1000
0
180
SwiftUIで本格音ゲー実装してみた
hypebeans
0
460
Giselleで作るAI QAアシスタント 〜 Pull Requestレビューに継続的QAを
codenote
0
260
GISエンジニアから見たLINKSデータ
nokonoko1203
0
180
tsgolintはいかにしてtypescript-goの非公開APIを呼び出しているのか
syumai
7
2.3k
チームをチームにするEM
hitode909
0
360
ELYZA_Findy AI Engineering Summit登壇資料_AIコーディング時代に「ちゃんと」やること_toB LLMプロダクト開発舞台裏_20251216
elyza
2
500
ゆくKotlin くるRust
exoego
1
130
Github Copilotのチャット履歴ビューワーを作りました~WPF、dotnet10もあるよ~ #clrh111
katsuyuzu
0
120
手が足りない!兼業データエンジニアに必要だったアーキテクチャと立ち回り
zinkosuke
0
800
AI前提で考えるiOSアプリのモダナイズ設計
yuukiw00w
0
150
俺流レスポンシブコーディング 2025
tak_dcxi
14
9.3k
Featured
See All Featured
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
9.1k
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
60
37k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.8k
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
94
More Than Pixels: Becoming A User Experience Designer
marktimemedia
2
250
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
31
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
0
160
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
1.7k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.8k
First, design no harm
axbom
PRO
1
1.1k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
0
79
Information Architects: The Missing Link in Design Systems
soysaucechin
0
710
Transcript
ミニバッチサイズと学習率の関係 2018-07-17 宮川 拓
動機 ⚫ 確率的勾配降下法(SGD)では、訓練セッ ト全体ではなく、m個のサンプル=ミニ バッチを用いて重みを更新する ⚫ mは、メモリが許す限り大きければ大きい 方がいいのだろう、と勝手に決めつけてい たけど、実はそうでもないらしい 2/15
元ネタ ⚫ Dominic Masters and Carlo Luschi, “Revisiting Small Batch
Training for Deep Neural Networks” ◼ 著者はGraphcoreというML用チップ製造 スタートアップの人たち ◼ ミニバッチサイズと、学習率、モデルの 性能の関係を調べた論文 3/15
先に結論 ⚫ ミニバッチのサイズは小さめの方が良い ◼ テストデータに対する性能が良くなる ◼ 学習が発散しない学習率の幅が広くなる ⚫ ミニバッチのサイズを小さくすると、GPU 等を使った時に計算の並列度が低くなるが、
これは計算を複数のコア、マシンに分散す ることで相殺できるかも 4/15
Background 5/15
この章の概要 ⚫ 小さいミニバッチのほうが優れていそうだ、 ということの理論的根拠を示す 6/15
一般的なSGDのアルゴリズム ⚫ +1 = + η − 1 σ =1
∇ (2, 3) ◼ ただし、η : 学習率 ◼ ∇ : 各featureの傾斜 ◼ : サンプルiに対する損失 ⚫ ここでサンプルごとに ◼ 重みの更新値の期待値は、/に比例 ◼ Cov(重みの更新値)の期待値は、m≪M の時、2/に比例 7/15
和で重みを更新するアルゴリズム ⚫ ここで、(2, 3)に = を代入 ◼ +1 =
+ σ =1 ∇ (5) ◼ つまり、損失の平均ではなく、損失の和を 使って重みを更新するように変形した ◼ を「ベース学習率」と呼んでいる ⚫ ここでサンプルごとに ◼ 重みの更新値の期待値は に比例 ◼ Cov(重みの更新値)の期待値はm≪Mの時、 2 ∙ に比例 8/15
バッチサイズ変更の意味 ⚫ (5)において、n回の重み更新は次式のよう に表される ◼ + = − σ
=0 −1 σ =1 ∇ + + (7) ⚫ ここで、バッチサイズをn倍することは、 次式による重み更新を行うことを意味する ◼ +1 = − σ =0 ∇ (8) ⚫ (8)は、勾配の更新頻度を少なくした、(7) の近似計算とみなせる 9/15
バッチサイズ変更の意味 ⚫ 重みの更新に損失の平均を使う式(2, 3)の 観点では、mが大きい方がよく見える。訓 練データ全体を使う場合(m=M)のより 正確な近似になるから ⚫ しかし、サンプルごとの重み更新値の期待 値を一定化する観点からは、逆に見える。
⚫ また、Cov(重みの更新値)は 2 ∙ に比例す るので、mが小さければより大きなベース 学習率が許容できる 10/15
バッチサイズ変更の意味? ⚫ 「バッチサイズが小さいと、複数エポック 回した時に、ミニバッチのバリエーション が増えるからいいんじゃないか」みたいな 議論をどこかで読んだけど、本論文では触 れられてなかった 11/15
Batch Normalizationに関する議論 ⚫ 省略! 12/15
実験 13/15
実験 ベ ー ス 学 習 率 が 大 き
い 場 合 、 バ ッ チ サ イ ズ を 小 さ く 保 つ 必 要 が あ る バ ッ チ サ イ ズ が 小 さ け れ ば 、 大 き な ベ ー ス 学 習 率 が 許 容 で き る データセット、ネットワーク、BN有無、 Augmentation有無などによらず、傾向は同じ 14/15
実験結果 最良の結果はm=2~32の範囲に集中 実験ごとに、どの(ベース学習率xバッチサイズ)で 良い結果が得られたか。縦棒の太いところが良い結果 15/15