Upgrade to Pro — share decks privately, control downloads, hide ads and more …

簡単な機械学習 / Python ML

kaityo256
December 22, 2020

簡単な機械学習 / Python ML

プログラミング基礎同演習

kaityo256

December 22, 2020
Tweet

More Decks by kaityo256

Other Decks in Education

Transcript

  1. 6 教師あり学習 (Supervised Learning) 教師なし学習 (Unsupervised Learning) 強化学習 (Reinforcement Learning)

    「問題と解答のセット」を与えて学習させる方法 ・画像認識、家賃推定など データだけ与えて、データの分類を行う方法 ・売上データを解析し、一緒に売れそうな商品を推薦する等 エージェントの行動に適切に報酬を与えることで 最適な行動を学習させる方法 ・チェスや囲碁の思考ルーチンなど ネコ イヌ
  2. 7 分類問題 (classification) 入力に対して「ラベル」を推定する問題 ネコ イヌ 回帰問題 (regression) 入力に対して「値」を推定する問題 16万円

    写真に写るものがネコか イヌか判定する 築年数、駅までの距離、 周辺施設などから家賃を 推定する 築年数: X年 駅から: 徒歩Y分 広さ: Z平米 近所にコンビニあり
  3. 13 0 入力 出力 訓練誤差 0 入力 出力 汎化誤差 訓練誤差

    汎化誤差 訓練データとモデルとの誤差 テストデータとモデルとの誤差 訓練誤差が小さい =うまく学習できている 汎化誤差が小さい =モデルが予測能力を持つ
  4. 14 0 出力 入力 0 出力 入力 訓練データは完璧に再現するが… 訓練データ テストデータ

    テストデータが全然合わない 0 出力 入力 訓練データに最適化され過ぎ、 予測性能を失うことを 過学習(Over fitting)と呼ぶ 実はこんな関数だった
  5. 15 荷重 x 伸び y モデル データ 荷重 x’ 伸び

    y’ 予測 データ ネコ イヌ モデル モデルパラメータ:少数 最適化:最小二乗法 モデルパラメータ:多数 最適化:SGD, Adam, AdaGrad, etc. ネコ 予測
  6. 20 = age age + size size + size= 0

    (小企業) 1 (中企業) 2 (大企業) 係数の意味 小企業勤務に比べ、中企業勤務は size 円 だけ給与が多い 小企業勤務に比べ、大企業勤務は 2size 円 だけ給与が多い 中企業勤務による給与増分は、大企業と小企業の 中間であると仮定していることに 小→中→大の給与の増分は独立に扱いたい
  7. 21 「小規模かどうか?」「中規模かどうか?」の変数を作る 小 = 1 (小企業勤務) 0 (それ以外) 中 =

    1 (中企業勤務) 0 (それ以外) 大 = 1 (大企業勤務) 0 (それ以外) 小 中 大 ( ) , , このようなベクトルを作ると 小企業勤務= (1, 0, 0) 中企業勤務= (0, 1, 0) 大企業勤務= (0, 0, 1) ベクトルのうち、要素一つだけ1、それ以外は0 これをone-hot 表現と呼ぶ
  8. 22 = age age + + + + 小 小

    中 中 大 大 One-hot表現による回帰 係数の意味 中 中企業勤務の人は、小企業勤務の人より − 小 円だけ給与が高い 大 大企業勤務の人は、小企業勤務の人より − 小 円だけ給与が高い 差しか意味を持たないが、ラベルの数だけ変数を作るのが楽 学歴も同様にone-hot表現を作る
  9. 23 課題の手順 • Pandasを使ってデータを読み込む • 大企業に務める人の給与を学歴別にプロット • ラベル変数からone-hot表現を作る • 年齢・企業規模・学歴について回帰分析

    結果の解析 = age age + + + + 小 小 中 中 大 大 company_size_small company_size_middle company_size_large age 係数が上記のような名前で得られるので、その値について考察 学歴は education_[middle/high/tech/university]という名前に