機械学習 - 決定木からはじめる機械学習

決定木からはじめる機械学習⼭本祐輔名古屋市⽴⼤学データサイエンス研究科 [email protected] 第3回機械学習発展（導入編）

授業資料 2 https://mlnote.hontolab.org/

⼈⼯知能の研究（技術）トピック人工知能推論探索機械学習知識表現 … 機械学習大量のデータの背後に潜む法則性（モデル）を自動的に取得し、予測や分類に役立てる技術
3

⼈⼯知能の研究（技術）トピック人工知能推論探索機械学習知識表現 … 教師あり学習教師なし学習強化学習
・クラスタリング・データ圧縮・分類・回帰・順序回帰 … 機械学習 4 …

機械学習の流れ（教師あり学習）⼤量のデータ（正解ラベル付き）前処理特徴抽出学習（モデル構築）
機械学習（ML）アルゴリズム学習済みモデル ML 学習フェーズ 5

機械学習の流れ（教師あり学習）⼤量のデータ（正解ラベル付き）前処理特徴抽出学習（モデル構築）
機械学習（ML）アルゴリズム学習済みモデル ML 推論特徴抽出？前処理未知データ（ラベルなし）予測結果推論フェーズ MLアルゴリズム学習フェーズ 6

教師あり学習の歴史（⼀部抜粋）ロジスティック回帰サポートベクターマシン決定木パーセプトロン単純ベイズ分類器ランダムフォレスト k-近傍法ベイジアンネットワーク深層学習
1958年 1957年 1951年 1979年 1985年 1992年 1960年代 2001年 2010年代本⽇体験するのはコレ（初学者が勉強しやすい） 7

決定⽊の概要（問題定義）入力分類ラベルのついたベクトルの集合（表データ）出力ラベルを予測するためのルールを要約した⽊利用するケース予測モデルに加えて，分類ルールを確認したいとき
ID 柄色柄形臭い毒 1 紫直線ありあり 2 朱末広刺激なし … … … … … キノコの記録毒キノコを分類するルールを抽出臭いありなし柄の色が緑 yes no 毒あり1% 毒あり100% … 8

例: 迷惑メール分類問題 9 Email（通常メール）かSpam（広告メール）がラベリングされたメールの本⽂を使って迷惑メール分類器を作りたい HAM or SPAM ?

迷惑メールデータセット @UCI Machine Learning Repository 10 データセット: https://archive.ics.uci.edu/ml/datasets/spambase 4601通の英⽂メールに関するデータセット
• ある単語がメールに占める割合（例: business, free, address） • email or spamの2値ラベル • ある⽂字がメールに占める割合（例: !, $, #） • 連続した⼤⽂字の⻑さの平均値 • 連続した⼤⽂字の⻑さの最⼤値 • 連続した⼤⽂字の⻑さの総和

データを分類するif-thenルールを出力迷惑メール問題に対する決定⽊の出⼒例 11 画像出典: T. Hastie et al. (2009): “The
Elements of Statistical Learning”, Springer.

例: 毒キノコ分類問題 12 ID 柄色柄形臭い毒 1 紫
直線ありあり 2 朱末広刺激なし … … … … … キノコの記録毒キノコ分類ルール臭いありなし柄の色が緑 yes no 毒あり1% 毒あり100% … 毒々しい⾊ → 毒あり柄が縦に割ける → 毒なし⾍が⾷べている → 毒なし迷信決定⽊どうやってデータから分類ルールを見つけるか？

決定⽊アルゴリズムの直感的アイデア柄の⾊が緑有毒無毒データの割合有毒無毒データの割合 YES NO
カサの裏にヒダ有毒無毒データの割合有毒無毒データの割合 YES NO vs. 分類ルールを仮適応したときにデータの不純度（の加重平均）が最も小さくなるようなルールを選ぶ 13 異なるクラスのデータの混じり度合が⼩さいのはどっち？

決定⽊アルゴリズムの直感的アイデア分類ルールを仮適応したときにデータの不純度（の加重平均）が最も小さくなるようなルールを選ぶ柄の⾊が緑有毒無毒データの割合有毒無毒データの割合
YES NO カサの裏にヒダ有毒無毒データの割合有毒無毒データの割合 YES NO > 分類後のデータの不純度 14

不純度（impurity）の数学的定義ある集合Sについて，ラベルがnS 個あり，その集合内の要素がクラスkに属する割合をpk とすると， = " !"# $! 𝑝!
(1 − 𝑝! ) = 1 − " !"# $! 𝑝! % ジニ係数 IG (S) = − " !"# $! 𝑝! log 𝑝! エントロピー E(S) 15

エントロピーの計算例 16 以下の集合SのエントロピーE(S)を計算してみよう 𝑝(•) = 6 10 𝑝(•) = 4
10 , E 𝑆 = −𝑝 • log 𝑝 • − 𝑝 • log 𝑝 • = − 6 10 log 6 10 − 4 10 log 4 10 = 0.673

ジニ不純度とエントロピーを図⽰正例・負例の2クラスしかなく、正例の割合を𝑝とする（負例の割合は 1 − 𝑝 ）エントロピージニ係数 2
x ジニ係数 𝑝 集合内の正例と負例の数が等しいときにどちらも最⼤値をとる 17

分類ルールの良さの求め⽅ 18 分類後の集合の不純度の加重平均で評価集合のサイズを重みとする平均 E 𝑆1 = − 3 6
log 3 6 − 3 6 log 3 6 = 0.693 E 𝑆2 = − 3 4 log 3 4 − 1 4 log 1 4 = 0.562 ルールの良さ = 6 10 𝐸 𝑆1 + 4 10 𝐸 𝑆2 = 𝟎. 𝟔𝟒𝟏 10個中6個がS1 10個中4個がS2 ルールA

決定⽊のアルゴリズム 1. 3. ステップ2で選択したルールでデータを分割 2. 4. 5. 分割の必要がなくなったら終了全データについて，各特徴による分割パターンをすべて調査
データの不純度にもとづき，最適な分割ルールをひとつ選択分割されたデータ群に対して，上記⼿順を繰り返し適⽤ 19

予測⽊の成⻑の抑制（1/2）予測木をできるだけ汎用的にするために木の大きさを制限する（過学習の防止） • ⽊の葉っぱに含まれているデータの数 • 不純度の変化量 • ⽊の深さ •
⽊の葉っぱでの誤り率 20 ある事柄を説明するために、必要以上に多くを仮定するべきでない（オッカムの剃刀）画像出典: wikipedia.org

予測⽊の成⻑の抑制（2/2）ここの深さまで木の深さで制限わざわざ点を分けても不純度がほとんど変化しない深すぎ不純度の変化量で制限予測木をできるだけ汎用的にするために木の大きさを制限する（過学習の防止） 21

予測⽊の成⻑の抑制（2/2）ここの深さまで木の深さで制限不純度の変化量で制限わざわざ点を分けても不純度がほとんど変化しない深すぎ予測木をできるだけ汎用的にするために木の大きさを制限する（過学習の防止） 22

Hands-on タイム以下のURLにアクセスして，決定木による教師あり学習を体験しましょう https://mlnote.hontolab.org/ 23

余談： Why Python?（1/3） 24 CARET 機械学習ライブラリ

余談： Why Python?（2/3） 25 機械学習ライブラリ前処理⾃然⾔語処理画像処理ウェブ
アプリ

余談： Why Python?（3/3） 26 機械学習ライブラリ By Google By Facebook
深層学習 Pythonはデータサイエンスを全方位でカバー

数理的に考える分類問題（1/2） X 0 Y ? ▲ •と×のデータ集合が与えられたときに，未知の2次元データが•か×をどう分類する？ Q.

数理的に考える分類問題（2/2） X 0 Y ? ▲ •と×のデータを2分するような直線を見つける A. 直線より上側なら「×」直線より上側なら「•」
ax+by+c=0

決定⽊が⾏っていること in 特徴空間（データ空間） X1 0 X2 t1 NO X1 ≦
t1 YES X2 ≦ t2 NO YES S1 S2 X1 ≦ t3 NO YES S3 X2 ≦ t4 NO YES S4 S5 t2 t3 S1 S2 t4 S4 S5 S3 直線で特徴空間を複数回分割する

分類モデルと分離（超）平⾯の関係 30 決定⽊サポートベクタマシンニューラルネットワーク出典：https://tjo-en.hatenablog.com/entry/2014/01/06/234155 ランダムフォレスト

今後の予定回実施⽇トピック 1 04/13 ガイダンス 2 04/20 pandas⼊⾨
3 04/27 決定⽊からはじめる機械学習 4 05/11 クラスタリング1：k-means & 階層的クラスタリング 5 05/18 クラスタリング2：密度ベースクラスタリング 6 05/25 分類1：K近傍法 & 教師あり機械学習のお作法 7 06/01 分類2：サポートベクターマシン 8 06/08 分類3：ニューラルネットワーク⼊⾨ 31

機械学習 - 決定木からはじめる機械学習

機械学習 - 決定木からはじめる機械学習

Y. Yamamoto PRO

More Decks by Y. Yamamoto

Other Decks in Science

Featured

Transcript

決定木からはじめる機械学習⼭本祐輔名古屋市⽴⼤学データサイエンス研究科 [email protected] 第3回機械学習発展（導入編）

授業資料 2 https://mlnote.hontolab.org/

⼈⼯知能の研究（技術）トピック人工知能推論探索機械学習知識表現 … 機械学習大量のデータの背後に潜む法則性（モデル）を自動的に取得し、予測や分類に役立てる技術

⼈⼯知能の研究（技術）トピック人工知能推論探索機械学習知識表現 … 教師あり学習教師なし学習強化学習

機械学習の流れ（教師あり学習）⼤量のデータ（正解ラベル付き）前処理特徴抽出学習（モデル構築）

機械学習の流れ（教師あり学習）⼤量のデータ（正解ラベル付き）前処理特徴抽出学習（モデル構築）

教師あり学習の歴史（⼀部抜粋）ロジスティック回帰サポートベクターマシン決定木パーセプトロン単純ベイズ分類器ランダムフォレスト k-近傍法ベイジアンネットワーク深層学習

決定⽊の概要（問題定義）入力分類ラベルのついたベクトルの集合（表データ）出力ラベルを予測するためのルールを要約した⽊利用するケース予測モデルに加えて，分類ルールを確認したいとき

例: 迷惑メール分類問題 9 Email（通常メール）かSpam（広告メール）がラベリングされたメールの本⽂を使って迷惑メール分類器を作りたい HAM or SPAM ?

迷惑メールデータセット @UCI Machine Learning Repository 10 データセット: https://archive.ics.uci.edu/ml/datasets/spambase 4601通の英⽂メールに関するデータセット

データを分類するif-thenルールを出力迷惑メール問題に対する決定⽊の出⼒例 11 画像出典: T. Hastie et al. (2009): “The

例: 毒キノコ分類問題 12 ID 柄色柄形臭い毒 1 紫

決定⽊アルゴリズムの直感的アイデア柄の⾊が緑有毒無毒データの割合有毒無毒データの割合 YES NO

決定⽊アルゴリズムの直感的アイデア分類ルールを仮適応したときにデータの不純度（の加重平均）が最も小さくなるようなルールを選ぶ柄の⾊が緑有毒無毒データの割合有毒無毒データの割合

不純度（impurity）の数学的定義ある集合Sについて，ラベルがnS 個あり，その集合内の要素がクラスkに属する割合をpk とすると， = " !"# $! 𝑝!

エントロピーの計算例 16 以下の集合SのエントロピーE(S)を計算してみよう 𝑝(•) = 6 10 𝑝(•) = 4

ジニ不純度とエントロピーを図⽰正例・負例の2クラスしかなく、正例の割合を𝑝とする（負例の割合は 1 − 𝑝 ）エントロピージニ係数 2

分類ルールの良さの求め⽅ 18 分類後の集合の不純度の加重平均で評価集合のサイズを重みとする平均 E 𝑆1 = − 3 6

決定⽊のアルゴリズム 1. 3. ステップ2で選択したルールでデータを分割 2. 4. 5. 分割の必要がなくなったら終了全データについて，各特徴による分割パターンをすべて調査

予測⽊の成⻑の抑制（1/2）予測木をできるだけ汎用的にするために木の大きさを制限する（過学習の防止） • ⽊の葉っぱに含まれているデータの数 • 不純度の変化量 • ⽊の深さ •

予測⽊の成⻑の抑制（2/2）ここの深さまで木の深さで制限わざわざ点を分けても不純度がほとんど変化しない深すぎ不純度の変化量で制限予測木をできるだけ汎用的にするために木の大きさを制限する（過学習の防止） 21

予測⽊の成⻑の抑制（2/2）ここの深さまで木の深さで制限不純度の変化量で制限わざわざ点を分けても不純度がほとんど変化しない深すぎ予測木をできるだけ汎用的にするために木の大きさを制限する（過学習の防止） 22

Hands-on タイム以下のURLにアクセスして，決定木による教師あり学習を体験しましょう https://mlnote.hontolab.org/ 23

余談： Why Python?（1/3） 24 CARET 機械学習ライブラリ

余談： Why Python?（2/3） 25 機械学習ライブラリ前処理⾃然⾔語処理画像処理ウェブ

余談： Why Python?（3/3） 26 機械学習ライブラリ By Google By Facebook

数理的に考える分類問題（1/2） X 0 Y ? ▲ •と×のデータ集合が与えられたときに，未知の2次元データが•か×をどう分類する？ Q.

数理的に考える分類問題（2/2） X 0 Y ? ▲ •と×のデータを2分するような直線を見つける A. 直線より上側なら「×」直線より上側なら「•」

決定⽊が⾏っていること in 特徴空間（データ空間） X1 0 X2 t1 NO X1 ≦

分類モデルと分離（超）平⾯の関係 30 決定⽊サポートベクタマシンニューラルネットワーク出典：https://tjo-en.hatenablog.com/entry/2014/01/06/234155 ランダムフォレスト

今後の予定回実施⽇トピック 1 04/13 ガイダンス 2 04/20 pandas⼊⾨