Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
対応分析
Search
Ringa_hyj
November 20, 2020
Science
180
0
Share
対応分析
対応分析
Ringa_hyj
November 20, 2020
More Decks by Ringa_hyj
See All by Ringa_hyj
DVCによるデータバージョン管理
ringa_hyj
0
370
deeplakeによる大規模データのバージョン管理と深層学習フレームワークとの接続
ringa_hyj
0
110
Hydraを使った設定ファイル管理とoptunaプラグインでのパラメータ探索
ringa_hyj
0
220
ClearMLで行うAIプロジェクトの管理(レポート,最適化,再現,デプロイ,オーケストレーション)
ringa_hyj
0
230
Catching up with the tidymodels.[Japan.R 2021 LT]
ringa_hyj
3
880
多次元尺度法MDS
ringa_hyj
0
350
因子分析(仮)
ringa_hyj
0
190
階層、非階層クラスタリング
ringa_hyj
0
150
tidymodels紹介「モデリング過程料理で表現できる説」
ringa_hyj
0
680
Other Decks in Science
See All in Science
イロレーティングを活用した関東大学サッカーの定量的実力評価 / A quantitative performance evaluation of Kanto University Football Association using Elo rating
konakalab
0
250
力学系から見た現代的な機械学習
hanbao
4
4.1k
人生を変えた一冊「独学大全」のはなし / Self-study ENCYCLOPEDIA: The Book Which Change My Life #独学大全 #EM推し本
expajp
0
150
Text-to-SQLの既存の評価指標を問い直す
gotalab555
1
200
機械学習 - K-means & 階層的クラスタリング
trycycle
PRO
0
1.4k
AIPシンポジウム 2025年度 成果報告会 「因果推論チーム」
sshimizu2006
3
490
論文紹介 音源分離:SCNET SPARSE COMPRESSION NETWORK FOR MUSIC SOURCE SEPARATION
kenmatsu4
0
630
因果推論と機械学習
sshimizu2006
1
1.1k
次代のデータサイエンティストへ~スキルチェックリスト、タスクリスト更新~
datascientistsociety
PRO
3
38k
データマイニング - コミュニティ発見
trycycle
PRO
0
250
【RSJ2025】PAMIQ Core: リアルタイム継続学習のための⾮同期推論・学習フレームワーク
gesonanko
0
820
共生概念の整理と AIアライメントの構想
hiroakihamada
0
190
Featured
See All Featured
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
330
Are puppies a ranking factor?
jonoalderson
1
3.4k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
70
39k
Making Projects Easy
brettharned
120
6.6k
My Coaching Mixtape
mlcsv
0
110
Producing Creativity
orderedlist
PRO
348
40k
The untapped power of vector embeddings
frankvandijk
2
1.7k
What's in a price? How to price your products and services
michaelherold
247
13k
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
160
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
250
A better future with KSS
kneath
240
18k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Transcript
対応分析 カテゴリカルな主成分分析 数量化三類 correspondence analysis 双対尺度法
商品に関するアンケートを実施した 数項目あり、はい、いいえでの回答をone-hot表現に変形しておく 全100人の回答のうち、はいの回数をカウントしてクロス集計の形式にした 商品と項目の共起性(相関)を議論するのが対応分析(双対尺度法、数量化三類はほとんど同じもの) (回答が二択でないとき質問1と質問2のクロス集計もつくることができる) 行和と列和を計算する。これは周辺確率として考えられる。 項目1 項目2 商品1 13
31 商品2 15 33 商品3 21 5 項目1 項目2 行和 商品1 13 31 44 商品2 15 33 48 商品3 21 5 26 列和 49 69 総和=118
一点当たりの重さは、集計表の総和で割る。 総和 N = 118 で各セルの値を割る。 項目1∧商品1であるときの確率(同時確率)として解釈することができる。 項目1 項目2 行和
商品1 13 31 44 商品2 15 33 48 商品3 21 5 26 列和 49 69 総和=118 項目1 項目2 商品1 0.11 0.26 商品2 0.13 0.28 商品3 0.18 0.04 同時確率となったクロス集計表を行和して、行和でその行を規格化する。(プロフィル) この値の解釈は、行に関する条件付き確率となる。 列方向にもプロフィルする。 比率になおしている 項目1 項目2 行和 商品1 0.11 0.26 0.37 商品2 0.13 0.28 0.41 商品3 0.18 0.04 0.22 項目1 項目2 商品1 0.3 0.7 商品2 0.31 0.69 商品3 0.81 0.19
項目1 項目2 行和 商品1 0.11 0.26 0.37 商品2 0.13 0.28
0.41 商品3 0.18 0.04 0.22 0.42 0.58 項目1 項目2 商品1 0.3 0.7 商品2 0.31 0.69 商品3 0.81 0.19 項目1 項目2 商品1 0.26 0.45 商品2 0.31 0.48 商品3 0.43 0.07 規格化:行 規格化:列 この値は図として理解すると、 変数1,2、もしくは行1,2,3が合計1となる 平面上(超平面・直線)に存在するようになる
項目1 項目2 商品1 0.3 0.7 商品2 0.31 0.69 商品3 0.81
0.19 項目1 項目2 商品1 0.26 0.45 商品2 0.31 0.48 商品3 0.43 0.07 1 項目1 1 商品1 商品2 商品3 項目2 1 1 1 三次元空間上の2点 二次元空間上の3点
項目1 項目2 商品1 f11 f21 商品2 f12 f22 商品3 f13
f23 同時確率 項目1 項目2 商品1 p11 p21 商品2 p12 p22 商品3 p13 p23 項目1 項目2 商品1 q11 q21 商品2 q12 q22 商品3 q13 q23 規格化:行
項目1 項目2 商品1 f11 f21 商品2 f12 f22 商品3 f13
f23 = + + √(j列目の列和) (i行目の行和) 行和を外に出す方法も見られた = + + = + + これはp_ij に対して行っても同じ
= + + 質的データはそのままでは件数が多いか少ないか、 という情報しかもっていない 数値の関係性を表すための計算方法が研究者達がいくつか考案した 数値的な距離関係を表すためにBenzecriはカイ二乗距離を考えた =1 1
+ + − + 2 = カイ二乗統計量を使った場合には − + + 2 + + 平方根を計算して √n ∗ − ++ ++ √nを取り除くと = + + ා =1 + + − + + 2
= + + 項目1 項目2 商品1 x11 x21 商品2 x12
x22 商品3 x13 x23 = + + Xの行列を主成分分析(固有値・固有ベクトル)する 主成分得点(カテゴリスコア,数量化得点)は、主成分軸上の座標であり、 クロス集計表によって得られた質的変数を 低次元にマッピングすることが可能となる 行に対するXだけでなく、列に対するXも求めて主成分分析する。 (項目に対する主成分分析と、商品に対する主成分分析を行う。)
得られたクロス集計表の行と列に対する主成分得点の寄与率を確認して 第2主成分までの寄与率がたかければbiplotによって二次元表現すること で、 クロス集計表の行列の関係を視覚的に確認できる。
項目1 項目2 商品1 f11 f21 商品2 f12 f22 商品3 f13
f23 同時確率 項目1 項目2 商品1 p11 p21 商品2 p12 p22 商品3 p13 p23 行列π_PQとする 周辺確率(行和p_i+,列和p_+j)を対角成 分にもつものを π_p = diag(p_i+) π_q = diag(p_+j) とする。
= + + = −1 − 1 2 = −
ҧ − ҧ − ҧ ҧ ℎ = ℎ = =1 ℎ = =1 ℎ + + = −1 − 1 2 固有ベクトルHとデータから数量化得点をもとめる これをPに関してだけでなく、Qに関しても求める。 単純にX(π)を転置して求めていく