Upgrade to Pro — share decks privately, control downloads, hide ads and more …

k最近傍法(k-Nearest Neighbor, k-NN)でクラス分類・回帰分析・モデルの...

k最近傍法(k-Nearest Neighbor, k-NN)でクラス分類・回帰分析・モデルの適用範囲(適用領域)の設定をしよう!

k-NN とは?
k-NN によるクラス分類
k-NN によるクラス分類 図
k-NN による回帰分析
k をどう決めるか?(クラス分類・回帰分析)
k-NN によるモデルの適用範囲の設定
k-NN によるモデルの適用範囲の指標
指標の閾値をどう決めるか?
k の値をどう決めるか?(モデルの適用範囲)
距離
非類似度

Hiromasa Kaneko

April 14, 2018
Tweet

More Decks by Hiromasa Kaneko

Other Decks in Technology

Transcript

  1. k-NN によるクラス分類 クラスを推定したいサンプル xnew について、すべてのモデル構築用 サンプルとの間でユークリッド距離を計算する 最も距離の近い k 個のサンプルを選択する k

    個のクラスで多数決をとった結果を、 xnew の推定されたクラスとする k 個のクラスにおける、推定されたクラスの割合で信頼度を検討できる • たとえば k = 7 のとき、 ① 4 サンプルがクラス A、3 サンプルがクラスBであった xnew ② 7 サンプルすべてがクラスAであった xnew があれば、② の方が推定結果を信頼できる 2
  2. k-NN によるクラス分類 図 3 例) k = 3 x1 x2

    クラスB A︓B = 1︓2 クラスA A︓B = 3︓0 ︓クラスAのサンプル ︓クラスBのサンプル ︓クラスを推定したいサンプル
  3. k-NN による回帰分析 目的変数の値を推定したいサンプル xnew について、すべての モデル構築用サンプルとの間でユークリッド距離を計算する 最も距離の近い k 個のサンプルを選択する k

    個の目的変数の値の平均値を、 xnew の推定された値とする k 個の目的変数の値の標準偏差で推定値の信頼度を検討できる • 標準偏差が小さい (k 個の値がばらついていない) 方が、 標準偏差が大きい (k 個の値がばらついている) 方より 目的変数の推定値を信頼できる 4
  4. k をどう決めるか︖(クラス分類・回帰分析) クラス分類、回帰分析ともに、k の値を 1, 2, 3, … として、 クロスバリデーションの結果が最も良好であった

    k の値とする • クラス分類の例︓クロスバリデーション後の正解率が最も⾼い k の値 • 回帰分析の例︓r2 CV が最も⾼い k の値 クロスバリデーションや r2 CV についてはこちら http://datachemeng.com/modelvalidation/ 5
  5. k-NN によるモデルの適用範囲の指標 7 例) k = 3 x1 x2 データ密度

    : ⾼い データ密度 : 低い 距離 : 小さい 距離 : 大きい k 個の距離の平均をモデルの適用範囲の指標とする 指標の値が小さいほど、適用範囲内
  6. k の値をどう決めるか︖(モデルの適用範囲) 試⾏錯誤で決める 一般的には k = 5 とか k =

    10 モデル構築用サンプルが少ないときは、k の値を小さくしたほうがよい • 例︓30サンプルのとき、k = 1 9