Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ミニバッチサイズと学習率の関係 /small-batch-learning

ミニバッチサイズと学習率の関係 /small-batch-learning

Miyakawa Taku

July 17, 2018
Tweet

More Decks by Miyakawa Taku

Other Decks in Programming

Transcript

  1. 元ネタ ⚫ Dominic Masters and Carlo Luschi, “Revisiting Small Batch

    Training for Deep Neural Networks” ◼ 著者はGraphcoreというML用チップ製造 スタートアップの人たち ◼ ミニバッチサイズと、学習率、モデルの 性能の関係を調べた論文 3/15
  2. 一般的なSGDのアルゴリズム ⚫ +1 = + η − 1 σ =1

    ∇ (2, 3) ◼ ただし、η : 学習率 ◼ ∇ : 各featureの傾斜 ◼ : サンプルiに対する損失 ⚫ ここでサンプルごとに ◼ 重みの更新値の期待値は、/に比例 ◼ Cov(重みの更新値)の期待値は、m≪M の時、2/に比例 7/15
  3. 和で重みを更新するアルゴリズム ⚫ ここで、(2, 3)に = ෤ を代入 ◼ +1 =

    + ෤ σ =1 ∇ (5) ◼ つまり、損失の平均ではなく、損失の和を 使って重みを更新するように変形した ◼ ෤ を「ベース学習率」と呼んでいる ⚫ ここでサンプルごとに ◼ 重みの更新値の期待値は ෤ に比例 ◼ Cov(重みの更新値)の期待値はm≪Mの時、 ෤ 2 ∙ に比例 8/15
  4. バッチサイズ変更の意味 ⚫ (5)において、n回の重み更新は次式のよう に表される ◼ + = − ෤ σ

    =0 −1 σ =1 ∇ + + (7) ⚫ ここで、バッチサイズをn倍することは、 次式による重み更新を行うことを意味する ◼ +1 = − ෤ σ =0 ∇ (8) ⚫ (8)は、勾配の更新頻度を少なくした、(7) の近似計算とみなせる 9/15
  5. 実験 ベ ー ス 学 習 率 が 大 き

    い 場 合 、 バ ッ チ サ イ ズ を 小 さ く 保 つ 必 要 が あ る バ ッ チ サ イ ズ が 小 さ け れ ば 、 大 き な ベ ー ス 学 習 率 が 許 容 で き る データセット、ネットワーク、BN有無、 Augmentation有無などによらず、傾向は同じ 14/15