Upgrade to Pro — share decks privately, control downloads, hide ads and more …

t-SNE(t分布型確率的近傍埋め込み法)による高次元データの可視化について

 t-SNE(t分布型確率的近傍埋め込み法)による高次元データの可視化について

Masato MIWADA

October 19, 2024
Tweet

More Decks by Masato MIWADA

Other Decks in Technology

Transcript

  1. 1 概要 • t-SNE(t-Distributed Stochastic Neighbor Embedding):t分布型確率的近傍埋め 込み法)は、4次元以上の高次元データを2、3次元に落とし込むための次元削 減アルゴリズム。 •

    Geoffrey Hinton(ジェフリー・ヒントン)氏が2008年に開発した手法。 • 主成分分析(PCA)や多次元尺度構成法(MDS)法に比べ、「次元は異なるが類 似しているデータ」に対して低次元でも近くに分類できる。 @kenmatsu4(まつけん)氏, Qiita, "Variational Autoencoder徹底解説", https://qiita.com/kenmatsu4/items/b029d697e9995d93aa24, 2017.06 【Swiss Role構造】
  2. 1 概要(補足:t-SNEでSwiss roll構造を可視化したら?) データ化学工学研究室(金子研究室)@明治大学 理工学部 応用化学科, "t-distributed Stochastic Neighbor Embedding

    (t-SNE) ~データの可視化に特化した手法~", https://datachemeng.com/tsne/ , (最終アクセス日:令和6年5月15日)
  3. 2 t-SNEの特徴 ポイント • 高次元での距離分布を低次元でも(可能な限り)表現できるよう変換してい る。 • 名前のとおり、「距離の推定」に(Studentの)t-分布を仮定している。 • 次元の高いデータの可視化に有効

    そもそも、なぜ可視化は必要か? • そのデータを生み出している、事象をより正確に理解する。 • 機械学習で用いるときに、適切なデータを選ぶため。 • 予測結果やモデルの逆解析の結果の議論 ブラックボックス状態で機械学習を使わないため。
  4. 3 詳細(1/4) SNEについて(2002年にGeoffrey Hinton氏が開発) • データ間の距離(Euclid距離)を条件付き確率として仮定 • SNEでは正規分布(Gaussian)に基づき確率的にデータの位置を推定 • Clowding問題(次元を落としたときにデータが混雑下してしまう)という欠点

    がある。 t-SNE法について 以下の改良によってClowding問題を解消し、より可視化しやすくしている。 1. 損失関数の対称化と最小化 距離の推定を同時確率に変更することで、データの局所構造を保持しながらも見分け やすくしている 2. Studentのt分布を仮定 正規分布に比べて裾野が高いので、Clowding問題を避けることができる
  5. t-SNE法について 1. 損失関数の対称化と最小化 距離の推定を同時確率に変更することで、データの局所構造を保持しながらも見分けや すくしている。 3 詳細(2/4) C:損失関数 KL(~):KLダイバージェンス 2つの確率分布の違い

    を数量化する関数 Pj|i : データ間の距離についての 条件付き確率 qj|i : 次元削減後のデータ間の距 離についての条件付き確率 C:損失関数 KL(~):KLダイバージェンス 2つの確率分布の違い を数量化する関数 Pji : データ間の距離についての 同時確率 qji : 次元削減後のデータ間の距 離についての同時確率 t-SNE SNE
  6. t-SNE法について 1. 損失関数の対称化と最小化 距離の推定を同時確率に変更することで、データの局所構造を保持しながらも見分けや すくしている。 3 詳細(2/4) C:損失関数 KL(~):KLダイバージェンス 2つの確率分布の違い

    を数量化する関数 Pj|i : データ間の距離についての 条件付き確率 qj|i : 次元削減後のデータ間の距 離についての条件付き確率 C:損失関数 KL(~):KLダイバージェンス 2つの確率分布の違い を数量化する関数 Pji : データ間の距離についての 同時確率 qji : 次元削減後のデータ間の距 離についての同時確率 t-SNE SNE
  7. 3 詳細(4/4) t-SNE法について デメリット 1. 可視化以外では使えない。 次元圧縮で構造化されたデータを保持できない 2. 次元の呪いに弱い。 「特徴量が多い→より多くの入力データが必要→ノイズも多くなる」ことで、t-SNEで生成

    されるクラスター(データの集まり)の構造が大きく変わる 3. 損失関数が非凸関数であるため、最適化が難しい (非凸関数については、「最適化の数理—応用数理の視点, https://ocw.u- tokyo.ac.jp/lecture_files/gf_06/7/notes/ja/07murota.pdf」を参考)
  8. 4 実際の使用例(1/2) スマートフォンの慣性センサーログから人間の運動を分類する • データソース https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones (データセットの説明) • 慣性センサーログから得られたデータに信号処理などを施して用意された561 の特徴量から、6つの行動パターンを分類する。(n=5149)

    precision recall LAYING 1 1 STANDING 0.96 0.96 SITTING 0.96 0.96 WALKING 0.99 1 WALKING_UPSTAIRS 0.99 0.99 WALKING_DOWNSTAIRS 1 0.99 目的変数 特徴量の大まかな分類 • 身体加速度計(xyz軸ごと) • 重力加速度計(xyz軸ごと) • 加加速度(加速度の時間微分値)データ(3軸) • 角運動量データ(3軸) 上記のそれぞれに対する周波数データ× 各種統計量(平均、絶対値、信号エントロピー等)
  9. 5 考察 precision recall f1-score support LAYING 1 1 1

    1016 STANDING 0.96 0.96 0.96 895 SITTING 0.96 0.96 0.96 926 WALKING 0.99 1 0.99 853 WALKING_UPSTAIRS 0.99 0.99 0.99 682 WALKING_DOWNSTAIRS 1 0.99 0.99 777 accuracy 0.98 5149 macro avg 0.98 0.98 0.98 5149 weighted avg 0.98 0.98 0.98 5149 「STANDING」と「SITTING」が重なって描画されている。 実際にSVCで分類モデルを作成し評価したところ、上 記の2つが特に検出できていなかった。
  10. まとめ と これから • t-SNEは高次元の特徴量データを2,3次元で描画するための次元削減アルゴリズム。 • これを用いることで、多くの特徴量で作成された学習モデルの出力結果の説明に説 得力を持たせることもできる。 • 2018年以降には、t-SNEの、「次元の呪い」や「描画にしか使えない」という欠点を克

    服し、より可視化力を向上させた「UMAP(1)」及び「DensMAP(2)」という手法も開発さ れている。 • 今回、高次元の特徴量の可視化という視点を得たので、次は上記の手法について研 究したい。 1. Leland McInnes, John Healy, James Melville, "UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction", https://arxiv.org/abs/1802.03426, 2018. 2. Narayan, A., Berger, B. & Cho, H. "Assessing single-cell transcriptomic variability through density- preserving data visualization." Nature Biotechnology, https://www.nature.com/articles/s41587-020- 00801-7 , 2021
  11. 参考文献一覧(1/2) 1. Laurens van der Maaten , Geoffrey Hinton ,

    "Visualizing Data using t-SNE", Journal of Machine Learning Research, https://lvdmaaten.github.io/publications/papers/JMLR_2008.pdf, 2008.11 2. @g-k氏, Qiita, "t-SNEを理解して可視化力を高める”, https://qiita.com/g- k/items/120f1cf85ff2ceae4aba , 2021.10.08(最終アクセス2024.05.15) 3. @sakami氏, Qiita, "t-SNE解説", https://qiita.com/sakami/items/bb466161489771f7d2e9 , 2020.08, (最終アクセス2024.05.15) 4. @hkharmfulbear氏, Qiita, "次元圧縮を片っ端から試してみた(t-SNE, PCA, MDS, UMAP)", https://qiita.com/hkharmfulbear/items/a19dff8f3c637fa3bc12, 2022.03, (最終アクセス2024.05.15) 5. @kenmatsu4(まつけん)氏, Qiita, "Variational Autoencoder徹底解説", https://qiita.com/kenmatsu4/items/b029d697e9995d93aa24, 2017.06,(最終アクセス2024.05.15) 6. データ化学工学研究室(金子研究室)@明治大学 理工学部 応用化学科, "t-distributed Stochastic Neighbor Embedding (t-SNE) ~データの可視化に特化した手法~", https://datachemeng.com/tsne/ , (最終アクセス2024.05.15)
  12. 参考文献一覧(2/2) 7. 室田 一雄, 東京大学計数工学科及び数理情報学専攻 - 俯瞰講義 (数理の世界 第 7回)

    , "最適化の 数理—応用数理の視点", https://ocw.u-tokyo.ac.jp/lecture_files/gf_06/7/notes/ja/07murota.pdf, 2007.06 8. Leland McInnes, John Healy, James Melville, "UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction", https://arxiv.org/abs/1802.03426, 2018. 9. Narayan, A., Berger, B. & Cho, H. "Assessing single-cell transcriptomic variability through density- preserving data visualization." Nature Biotechnology, https://www.nature.com/articles/s41587-020- 00801-7 , 2021 • データソース https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones • 引用元 Davide Anguita, Alessandro Ghio, Luca Oneto, Xavier Parra and Jorge L. Reyes-Ortiz. "A Public Domain Dataset for Human Activity Recognition Using Smartphones". 21th European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning, ESANN 2013. Bruges, Belgium 24- 26 April 2013.