Upgrade to Pro — share decks privately, control downloads, hide ads and more …

主成分分析(Principal Component Analysis, PCA)

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

主成分分析(Principal Component Analysis, PCA)

主成分分析 (PCA) とは?
PCAの図解
PCAで できること
データセットの表し方
PCAの前に
2変数のときのPCA (3変数以上への拡張も簡単)
主成分とローディング
行列で表すと・・・
第1主成分を考える
ローディングの規格化条件
主成分の分散を最大化
Sを最大化するローディングを求める
Lagrangeの未定乗数法
Gを偏微分して 0
行列で表す
固有値問題へ
寄与率
累積寄与率
逆写像
逆写像のしかた
PCAのプログラミング課題: http://datachemeng.com/pythonassignment/

Avatar for Hiromasa Kaneko

Hiromasa Kaneko

August 04, 2017
Tweet

More Decks by Hiromasa Kaneko

Other Decks in Science

Transcript

  1. 主成分分析 (PCA) とは︖ 主成分分析 (Principal Component Analysis, PCA) • ⾒える化

    (可視化) する手法 • 多変量 (多次元) のデータセットを低次元化する方法 • データセットのもつ情報量をなるべく失わないように 元の次元から より低い次元でデータセットを表現 ⁃ “より低い次元” を2次元にすれば可視化を達成 • 軸を回転 (+反転) させる 1
  2. PCAの図解 2 X1 : ⾝⻑ 例) 15⼈の⾝⻑・体重データ (多次元のデータ) X2 :

    体重 PCA 第1主成分軸 第2主成分軸 第1主成分だけでも、15⼈のだいたいの情報はおさえられる
  3. PCAで できること データセットのだいたいの様⼦を⾒る • いろいろな主成分同⼠のプロットを⾒る • それぞれの主成分の角度を⾒ることで、データセットがどんな方向に 分布しているか分かる ノイズを除く •

    第4成分以降をノイズとみなして、第1,2,3主成分のみ使う、とか データセットの中で外れているサンプルを探す • PCAをした後に主成分のプロットを⾒たとき、他のサンプルと 離れているサンプルは、PCA前のサンプル同⼠も必ず離れている 変数 (PCA後は成分) の間の相関を 0 にする • 回帰分析をしたときの回帰係数の値が安定になる 3
  4. データセットの表し方 4 (1) (1) (1) 1 2 (2) (2) (2)

    1 2 ( ) ( ) ( ) 1 2 d d n n n d x x x x x x x x x ⋯ ⋯ ⋮ ⋮ ⋯ ⋮ ⋯ ( ) k i x : k 個目のサンプルにおける、i 番目の変数(記述⼦) の値 d n : 変数(記述⼦) の数 : サンプルの数 変数(記述⼦) サンプル
  5. 2変数のときのPCA (3変数以上への拡張も簡単) 6 (1) (1) 1 2 (2) (2) 1

    2 ( ) ( ) 1 2 n n x x x x x x ⋮ ⋮ サンプル 変数(記述⼦) 1 2 x x
  6. 主成分とローディング 7 ( ) ( ) ( ) ( )

    1 2 1 1 1 2 1 1 2 2 1 2 2 2 t = x x t = x x p p p p + + t i : 第 i 主成分 ( ) j i p : 第 i 主成分に対応する、j 番目の変数(記述⼦) の重み (ローディング)
  7. ⾏列で表すと・・・ 8 ( ) ( ) ( ) ( )

    (1) (1) (1) (1) 1 2 1 2 1 1 (2) (2) (2) (2) 1 2 1 2 1 2 2 2 1 2 ( ) ( ) ( ) ( ) 1 2 1 2 n n n n t t x x p p t t x x p p t t x x               =                       ⋮ ⋮ ⋮ ⋮ ( ) k i x : k 個目のサンプルにおける、i 番目の変数(記述⼦) の値 ( ) j i p : 第 i 主成分に対応する、j 番目の変数(記述⼦) の重み (ローディング) : k 個目のサンプルにおける、第 i 主成分の値 ( ) k i t
  8. Sを最大化するローディングを求める 12 ( ) ( ) ( ) ( )

    ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 1 1 2 1 2 1 1 2 1 1 2 2 2 2 1 1 2 2 1 1 1 1 1 2 1 2 1 1 1 2 n i i n i i i n n n i i i i i i i S t x p x p p x p p x x p x = = = = = = = + = + +      ( ) ( ) ( ) ( ) 2 2 1 2 1 1 1 p p + = ( ) ( ) 1 2 1 1 , p p が規格化条件 を満たしながら S を最大化する Lagrange の未定乗数法
  9. Lagrangeの未定乗数法 13 ( ) ( ) ( ) ( )

    ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 2 1 2 1 1 2 2 2 2 2 2 1 1 2 2 1 2 1 1 1 1 1 2 1 2 1 1 1 1 1 1 2 1 n n n i i i i i i i G S p p p x p p x x p x p p λ λ = = =   = − + −       = + + − + −        λ を未知の定数として下の G が最大となる λ , を求める ( ) ( ) 1 2 1 1 , p p G が最大 G が極大 G を λ , で偏微分して 0 ( ) ( ) 1 2 1 1 , p p
  10. Gを偏微分して 0 14 G が最大 G が極大 G をλ ,

    で偏微分して 0 ( ) ( ) 1 2 1 1 , p p ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 1 2 1 1 1 2 1 1 1 2 1 2 1 2 1 2 1 1 1 0 0 n n i i i i i n n i i i i i x p x x p x x p x p λ λ = = = =     − + =             + − =             ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 1 1 1 2 1 1 1 2 2 1 1 2 2 1 1 n n i i i i i n n i i i i i x x x p p x x x λ λ = = = =   −       =         −         0 ⾏列で表現
  11. ⾏列で表す 15 ( ) ( ) ( ) ( )

    ( ) ( ) ( ) ( ) ( ) ( ) 2 1 1 1 2 1 1 1 2 2 1 1 2 2 1 1 n n i i i i i n n i i i i i x x x p p x x x λ λ = = = =   −       =         −         0 ( ) T 1 λ − = X X E p 0 ( ) ( ) (1) (1) 1 2 1 (2) (2) 1 1 2 1 2 1 ( ) ( ) 1 2 1 0 , , 0 1 n n x x p x x p x x           = = =                   X E p ⋮ ⋮ ただし、
  12. 固有値問題へ 16 以外の解をもつためには、 ( ) ( ) 1 2 1

    1 0 p p = = ( ) T λ − X X E の⾏列式が 0 である必要がある λ を固有値、 p1 に加えて p2 を固有ベクトルとする固有値問題 これによって p1 , p2 を求め、対応する主成分を計算する ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 1 1 1 2 1 1 1 2 2 1 1 2 2 1 1 n n i i i i i n n i i i i i x x x p p x x x λ λ = = = =   −       =         −         0 ( ) T 1 λ − = X X E p 0
  13. 寄与率 17 第 i 主成分に対応する固有値 λi は、その主成分の二乗和に等しい つまり、 ( )2

    ( ) 1 n j i i j t λ = =  固有値 λi を第 i 主成分のもつ情報量と仮定する 全固有値の中の λi の割合を寄与率 ci として、 第 i 主成分のもつ情報量の割合として⽤いる 1 i i m j j c λ λ = =  m : すべての主成分の数
  14. 逆写像のしかた 第 i 主成分までのローディング P を用いる あるサンプル x に対して、T =

    xP で第 i 主成分までのスコア T を 計算する TPT が逆写像されたサンプルである つまり、 xPPT で逆写像されたサンプルを計算できるあ 20