Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械学習プロジェクトの進め方 /howtoproceedwithmlproject

機械学習プロジェクトの進め方 /howtoproceedwithmlproject

Miyakawa Taku

March 18, 2018
Tweet

More Decks by Miyakawa Taku

Other Decks in Programming

Transcript

  1. #ccc_e4 3/105 ネタ元  Coursera「Machine Learning」  機械学習の基礎を学ぶ実務者向け講義  厳密な根拠づけは省いて、「直観的には

    こんな感じ、やり方はこう」という内容  「実務上どう実現すればいいの?」とい う話もちょいちょい出てくる  今回は第6週、第11週がネタ元
  2. #ccc_e4 5/105 題材1: 線形回帰  説明変数 (x)  広さ 

    部屋数  階数  築年数  ……  目的変数 (y)  住宅価格
  3. #ccc_e4 6/105 次にどの手を打つべきか?  「予測がうまくいかない」とき  そもそもそれはどういう時?  何をするべき? 

    データをもっと集める?  説明変数を増やす?減らす?  1 2 + 2 みたいな多項式を新たな説明変 数にする?  正則化を強くする?弱くする?
  4. #ccc_e4 12/105 状況ごとのやるべきこと Underfit: データに対してモデルが単純過ぎ  説明変数を増やす  正則化項の係数を小さくする Overfit:

    データに対してモデルが複雑過ぎ  訓練セットの量を増やす  説明変数を減らす  正則化項の係数を大きくする
  5. #ccc_e4 14/105 基本的な進め方  まずは簡単なモデルを作ってみる  Learning Curve (訓練セット量vs誤差)を プロットしてみる

     誤差が充分に小さければOK!  誤差が大きければ  underfit → モデルを複雑に  overfit → データを集める → モデルを単純に
  6. Ceiling Analysis #ccc_e4 19/105 最終的な accuracy 改善 現行のパイプライン 70% -

    + 完璧なテキスト検出器 75% +5% + 完璧な文字分割器 90% +15% + 完璧な文字認識器 100% +10% → 最も改善が見込める文字分割器の改善に 労力をそそぐべき