Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
07 MCAからGDAへ
Search
419kfj
October 09, 2023
0
61
07 MCAからGDAへ
SSJDA計量分析セミナー
対応分析/多重対応分析の原理と実際 07
419kfj
October 09, 2023
Tweet
Share
More Decks by 419kfj
See All by 419kfj
R.Q.(リサーチ・クエスチョン)構築という視点から 伝統的検定手法とベイジアン推定を比較する
419kfj
0
23
多重対応分析/構造化データ解析の原理と研究者視点の介在点「文化と不平等」調査データの分析(1)
419kfj
0
38
Methods and Examples of Correspondence Analysis
419kfj
0
83
01 Introduction
419kfj
0
60
02 ベクトル行列演算とCAの数理
419kfj
0
75
03 CAの数理その2
419kfj
0
27
04 データの準備
419kfj
0
34
05 CAとMCA事例
419kfj
0
29
06 MCA_01
419kfj
0
30
Featured
See All Featured
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
169
50k
Code Review Best Practice
trishagee
65
17k
VelocityConf: Rendering Performance Case Studies
addyosmani
326
24k
How To Stay Up To Date on Web Technology
chriscoyier
789
250k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.7k
Bash Introduction
62gerente
609
210k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
127
18k
How STYLIGHT went responsive
nonsquared
96
5.2k
Become a Pro
speakerdeck
PRO
26
5k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
810
Building an army of robots
kneath
302
44k
We Have a Design System, Now What?
morganepeng
51
7.3k
Transcript
多重対応分析と 幾何学的データ解析 2023/09/06 計量分析セミナー 藤本⼀男
[email protected]
幾何学的データ解析(GDA) • MCAを中⼼においた分析フレームワーク • 実験計画が不可能な、調査データから以下に内部構造(関係 性)を抽出できるか。 • MCAによる空間⽣成 • 追加変数による空間分析(構造化モデリング)
• 記述によって明らかになった差異についての検定(帰納的データ解 析) • 典型性検定 (1標本のt-検定) • 同質性検定 (2標本のt-検定)
構造化データ解析とANOVA、回帰分析 • p95「伝統的な統計学においても、分散分析ANOVA(およびそれを拡張し た多変量分散分析MANOVA)や回帰分析などのいくつかの⼿法で構造化 因⼦を扱ってきた。こうした⼿法を幾何学的データ解析に取り⼊れて統合 化することを構造化データ解析(SDA)と呼ぼう。」 • BlueBook2004のSDAのまとめp268 「GDAのユーザーの中には、個体×変数の表を前に、PCAやMCA をその
まま⾏い、従来のANOVAや回帰分析を並べ、別々に実施し 解釈する⼈も いる。構造化データ解析では、データの幾何学的 モデルから始めて、観 測データの特別な特性(特に⾮直交性)を 必要に応じて考慮しながら、 ANOVAや回帰⼿順を「接ぎ⽊」していく。この⽅法では、基本的な幾何 学的モデル(例えば距離 の定義を変更する)を修正する必要はない。した がって、新しい 構造に出会うたびに「新しい⽅法を発明する」必要はな く、デー タの分析がより豊かになる。つまり、固定化された⼿法の硬直 性と分析⼿順のアドホックな拡散の両⽅を避けることができるのであ る。 」
元の本GDA2004の圧縮版 • https://link.springe r.com/book/10.100 7/1-4020-2236-0 PDFで読めます。 • https://helios2.mi. parisdescartes.fr/~ lerb/livres/Books.h
tml では、2004 • 2005だったり、 2010だったりす る。 • でも、Le Roux 先 ⽣たちは、2004に している。 MCA2004 MCA2010 MCA2021 2022/2/28 対応分析研究会第11回 ver1.1 4
Benzécri 1969/1973 Rouanet & Le Roux 2004 Lebart, Morinow, Warwick
1977/1984 Tukey 1962/197 7 Efron 1979/199 6 Fisher 1940 Hotelling 1933 林知己夫 1956 数量化の方法 1974 調査の科学 1984 データの科学 2001 GDA (GDA) Patrick Suppes による命名 “Geometric Data Analysis” GDA幾何学的データ解析 “Analyse des Données” = “Data Analysis” Bootstrapingなど resampling技法 EDA:探索的データ解析 最適化尺度 PCA主成分分析 1996 津⽥塾⼤学紀要 54号(2022/3) ⽤に作成 2022/2/28 対応分析研究会第11回 ver1.1 5
Analyse des Données からGDAへ • 1960年代 JPベンゼクリがAnalyse des Données を提唱。直訳すると、
Data Analysis、つまり「データ解析」 • これに、構造化データ解析(SDA)や帰納的推論(帰納的データ解 析(IDA))を加えて、幾何学的データ解析(GDA)と呼ぶように なった。 • GDAの命名は、スタンフォード⼤学のPatrick Suppesによる。原注*1 • ただ、GDAという名称は使⽤されていないものの、内容的には、 Lebart, Morinow, Warwick 1977(仏語)/1984(英語)(⽇本語訳は1994に⼤ 隅らによる『記述的多変量解析』)で展開されている。 • La Distinction の5章、注2で参照されているのがこれ。 • 林知⼰夫「データの科学」と同じ発想、アプローチ。 2022/2/28 対応分析研究会第11回 ver1.1 6
GDAの主要なアイデア、3つの理論的枠 組み • 三つのアイデア • 幾何学的解釈 • 定式的なアプローチ • 記述的であること
(以上の指摘は、CAiP3へのGreenacreの⽇本語版への序にもある。) • 3つの理論的枠組み • 対応分析 • 主成分分析 • 多重対応分析 • 個体x変数 • 変数カテゴリは、モダリティとも呼ばれる 2022/2/28 対応分析研究会第11回 ver1.1 7
GDAのステップ • 構造設計 • 空間⽣成する変数:アクティブ変数 • 空間⽣成に寄与せず、射影する変数:追加変数 • MCAによる基本分析 •
変数空間の分析から各座標軸を命名する(新たな変数名) • 軸を⽣成している変数カテゴリを確認 • 変数空間でのカテゴリの関係の確認 • 個体空間の構造を追加変数を⽤いて分析する(構造化データ解 析:SDA) • 記述で⾒えた差異の優位性を検定する(帰納的データ解析: IDA)
『多重対応分析』のデータで例⽰ • 原著のサポートサイトにあるExcelのデータ • https://helios2.mi.parisdescartes.fr/~lerb/Logiciels/Data/Taste_Ex ample.xls • これを⽇本語化したものを使います。ファイルで提供。 • MCAツールは、GDAtools::speMCA
• https://cran.r-project.org/web/packages/GDAtools/index.html • https://cran.r-project.org/web/packages/GDAtools/GDAtools.pdf • https://cran.r- project.org/web/packages/GDAtools/vignettes/GDA_tutorial.pdf • https://github.com/nicolas-robette/GDAtools
基本的MCA分析
MCA事例:嗜好データ(TasteExample*) ⾏:回答者 列:回答設問 *このデータは、 LeRoux&Rouanet2010=2021 で使われているデータを⽇本語 化したもの。 https://helios2.mi.parisdes cartes.fr/~lerb/Logiciels/D ata/Taste_Example.xls
指標⾏列化したもの:データとしては等価 46カテゴリ 変数TVの回答カテゴリ 変数映画の回答カテゴリ 変数芸術の 回答カテゴリ 1215⾏
MCAによる空間⽣成 1215 x 4 ⾏列 4変数= カテゴリ数29(8+8+7+6) 29−1次元までとられる 変数空間 個体空間
データ表がもっていた分散 次元縮減で⽣成された空間の座標軸に分解 その座標軸をもとに ⼆つの空間が⽣成 される。
3.1 MCAの原理 データ、MCA、基本統計量、解釈 2022/2/28 対応分析研究会第11回 ver1.1 14 データ 𝐼×𝑄 MCA
個体の雲 カテゴリの 雲 個体の雲 カテゴリーの雲 主雲 主軸 分散率 修正分散率 個体点、カテゴリ点の 主座標 主変数 寄与率(距離と重み) 表⽰品質 遷移⽅程 𝐼 → 𝑘、𝑘 → 𝐼 追加要素 カテゴリ平均点 さまざまな等価性 バート表
「変数」空間の⽣成 Dim28まである 全変数カテゴリ分(29⾏)
「個体」空間の⽣成 全個体分(1215⾏) Dim28まである
2022/2/28 対応分析研究会第11回 ver1.1 17 修正分散率の計算 GDAtools のmodif.rate で計算。 modif.rate(res.MCA) &
λ = 1 𝑄 = 1 4 = 0.25 0.25 修正前分散 率だと3軸 までの累積 は、17.2% 修正分散率 だと3軸ま での累積は、 81.0%
⽣の固有値、分散率で計算した寄与率、 累積寄与率
修正寄与率、累積修正寄与率 3軸までみれば、全情報の 82%は扱える。 4軸までなら、88.7%。 3軸でいくと決めて、様⼦ をみて、4軸も検討しようか。
分散の分解:その1 • 分析対象のデータは、MCAによって、次元縮減され、それは、 ⼤きい順に、第1軸、第2軸、…、に分解される。 • これが、最初の分解。 • そして、多くの場合、1、2軸という平⾯、もしくは、3軸を 加えた、⽴体でデータの分散の分解を考えていくことになる。
MCA模試図的に… 個体I 変数1 変数2 ….. 変数Q 1 2 3 :
: I 個体I Dim1 Dim2 ….. Dimn 1 2 3 : : I 個体I cat1- 1 cat1- cat1- k1 cat2- 1 cat2- cat2- k2 …. catQ -1 catQ -2 catQ -kq 1 2 3 : : I 変数 Dim1 Dim2 ….. Dimn cat1-1 cat1-2 cat1-3 : : CatQ-q 固有値 寄与率 累積寄与率 Dim1 Dim2 : Dimn 次元縮減 「個体」雲 「変数」雲 座標値 座標値
個体I Dim1 Dim2 ….. Dimn 1 2 3 : :
I 変数 Dim1 Dim2 ….. Dimn cat1-1 cat1-2 cat1-3 : : CatQ-q 固有値 寄与率 累積寄与率 Dim1 Dim2 : Dimn 次元縮減 個体雲 変数雲 変数雲: 各セルごとに、座標値、度数をもっているので、 そこから、分散が計算でき各軸への寄与率を計算で きる。 そこから、Dim1、Dim2…の解釈を⾏う。 この軸の解釈=名称が、あらたな「変数名」 何軸まで分析対象にするかを 累積寄与率を睨んで決める。 その時、修正寄与率、累積修 正寄与率を⾒ること。 修正寄与率 累積修正寄与率 Benzécriの修正寄与率 各軸を解釈(軸に名前をつける)する ために、軸に対する変数カテゴリの寄与 を確認する。 それをもとに軸に名前をつける。 個体雲の解釈は、軸との関係でみていく。
分析のステップ(1)軸の解釈(Dim1) • 変数空間の座標軸 の解釈を変数雲を もとに⾏う • 各軸に対して寄与 率の⼤きなものを 並べて判定する。
この⼿順から軸の名前をつける • この事例では以下の通り。(MCA2010=2021:72-74)から短縮 表現。 • Dim1 • 事実&伝統的 vs 架空&現代的
• Dim2 • ⼤衆的 vs 洗練 • Dim3 • 硬い vs 軟らかい • この表記は、マップに記⼊するのがよい。
図1.2 嗜好データの例(変数) • MCA2021のグラフでの ポイントアイコンのサ イズは、度数。 • ここでは、変数ごとに ⾊分けを⾏ってみた。 •
他にも、寄与率、cos2、 ポイント選択などの 「フィルタリング」を ⾏なって、解釈を進め る。 2022/2/28 対応分析研究会第11回 ver1.1 25
図1.3 嗜好データの例(個体) • テキストの図は、5つ の個体の番号を表⽰。 • ここでは、寄与率で⾊ 分けをしている。 • 寄与率は、重⼼(原
点)に近いほど⼩さい。 慣性が⼩さい=剛体が 重⼼を中⼼に回転する 仕組み。 2022/2/28 対応分析研究会第11回 ver1.1 26
図1.4 個体を年齢グループで選択し表⽰ 2022/2/28 対応分析研究会第11回 ver1.1 27
2022/2/28 対応分析研究会第11回 ver1.1 28 13個 参考:p71の「13個」
3D散布図で表⽰ 2022/2/28 対応分析研究会第11回 ver1.1 29 グルグルまわるので、⾯⽩くはありますが わかりやすいかというとそうでもないので、 軸を指定した2D表⽰と合わせて使うことに なります。 2Dでのフィルタリング(名前を⾊分け、
Ctr、cos2、など)の⼿法の⽅が重要。 • FactoShiny • explor <- 私の好み
MCAの⼆つのバリアント • Specific MCA (speMCA) • MCAする際に、空間⽣成からはずすカテゴリを選定するカテゴリ特定MCA (⼤隅他訳では「限定多重対応分析」と呼んでいる) • Class
Specific Analysis(CSA) • MCAする対象とする個体を選ぶ、個体特定MCA(⼤隅他訳では「集団限定多 重対応分析」と呼んでいる) • どちらも、元データ表のサブセットを作ってMCAを⾏うのではなく、 特定MCAは、元のMCAとの関係を分析可能にするために、周辺度数 を維持して特定MCA⽤の周辺度数(質量)を⽤いてMCAを⾏う。次 ページにその関係を図⽰。 • 『津⽥塾⼤学紀要』55号139−140 • Greenacreは、サブセットMCAと呼ぶ。
Pij r ri cj c P 図A-1 対応⾏列、⾏和、列和の基本形 Pʼij rʼ
rʼi cj c Pʼ r ri 図A-2 speMCAでの 対応⾏列、⾏和、列和 P”ij r ri c”j c” P” cj c 図A-3 CSAでの 対応⾏列、⾏和、列和 2023/02/28 対応分析研究会第17回 31
構造化データ解析(SDA)
p12として保存 p23として保存
2022/8/20 対応分析研究会第15回 ver1.0 34
2022/8/20 対応分析研究会第15回 ver1.0 35
平均点の差と性別ごとのバラツキ⽐較 2022/8/20 対応分析研究会第15回 ver1.0 36
Dimごとのbetween、withinとη2 2022/8/20 対応分析研究会第15回 ver1.0 37
以上から⾔えることは! •η2が⼤きい •嗜好の男⼥間の違いは、主に第3主軸での違い 「硬い」vs「柔らかい」の違い」である。p100 2022/8/20 対応分析研究会第15回 ver1.0 38
ྸʢ"HFʣͷੳ Qʙ • άϥϑ • ݸମͷάϥϑΛͭ͘ΓɺQYYͱ͍͏ΦϒδΣΫτʹ͢Δ • ͦ͜ʹɺੑผʹΑΔूதପԁΛΦʔόʔϨΠ͢Δ • දͷղऍΛͳͧΔ
• WBSTVQΛͬͯฏۉ࠲ඪɺࢄɺ7CFUXFFOɺ7XJUIJOɺБΛऔಘ • ͦΕΛͱʹɺςΩετͷղऍΛͳͧͬͯΈΔɻ
ੑผºྸͷ ੳQʙ
None
各因⼦の分散を ⽐較してみた 2022/8/20 対応分析研究会第15回 ver1.0 42
性別×年齢変数をつくりそれを分析 2022/8/20 対応分析研究会第15回 ver1.0 43
交互作⽤plot 2022/8/20 対応分析研究会第15回 ver1.0 44
帰納的データ解析 IDA 構造化データ解析(SDA)までは記述統計。IDAで検定が⾏われる。 SDAで確認された差異は、有意なのかどうか。 典型性検定 同質性検定
関連する「⽤語集」 • 集中楕円、慣性楕円、指⽰楕円、信頼楕円p174 • 準拠⺟集団p176 • 信頼領域、信頼楕円p176 • 典型性検定p179 •
同質性検定p179 • 並び替え検定p180 • ここで⾔及されているFisher1935(『実験計画法』)の第3章は、p36 〜の21「さらに後半な仮説の検定」の部分。Fisher1936は未だ確認し てません。
注⽬するのは個体空間の座標 • MCAのresultの個体座標のデータセット(1〜1215)に(追加 変数である)性別(Gender)、年齢(Age)、収⼊ (Income)の列を追加する。 : : : 1215 :
: : 2023/4/29 対応分析研究会 18回 MCA/IDA 47 再掲 追加変数のカテゴリで dim.nの部分空間をつくり その関係を分析します。 ということは、分散分析 してもいいのでは。 その結果とIDAの関係を⽐較 することもできそう。 (追って….)
MCAはなにをしているのか • 嗜好データの変数カテゴリは29個 • つまり29次元 • これが、次元縮減によって3次元で81%の情報を扱える • 2軸までで70%、3軸までで81% •
こうして⽣成された空間(個体空間、変数空間)の座標軸が新 たな「変数」として位置付けられる。 • この軸の+⽅向、-⽅向の解釈は、新たな変数になる。 • この空間を⽬的「変数」(被説明「空間」)を追加変数によっ て分析していく、という段取り。 • active変数、追加変数の設定が構造化モデリング。 • ここで明らかになった、追加変数カテゴリの位置が検定される。 2023/06/10 対応分析研究会第19回 48
全体雲 1215 18−24歳 93 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲
93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 平均点(18−24歳)を求める 平 均 点 を 求 め る 93個体 9999個の分布 を確認する 9999個の平均値の 分布と18−24歳の 平均値をplotする。 pointの数は、10000 になる。 ※標本平均なので、 中⼼極限定理の展開その もの 準拠⺟集団 注⽬している年齢群 2023/06/10 対応分析研究会第19回 49
ただし、この分布はシンプル! • 先に確認したように、抽出した93個体の部分雲の平均点の分布 (標本分布)は、中⼼極限定理によって、正規分布で近似でき る。 • 平均はゼロ。 • 分散は、V =
! " #$" #$! 𝜆 • ここで !"# !"$ は、有限⺟集団修正。 東⼤基礎統計学I『統計学⼊⾨』p189〜「9.4 有限⺟集団と有限⺟集団修正」 2023/06/10 対応分析研究会第19回 50
典型性検定 • 前回報告したスライドを再掲します。 • ここでやっていることは、いわゆるリサンプリング。 • 並べ替え検定でのリサンプリングは、⾮復元抽出 • ⼆つの部分集合(n1、n2)を統合して(プールして、というらしい)、 n1個を抽出するので、⾮復元抽出でいいかなとは思うが、
• 典型性検定では、参照⺟集団を考えるときに、(たとえば) 1/100の杉並区のサンプルが得られているなら、それを100倍し て「みなし⺟集団」として、リサンプリングすればいいように 思うので、そのときは、復元抽出でもいいではないのか。
こういう分布に検定統計量を位置付ける • 平均ゼロ、分散は、N とnとλ(軸の固有 値)から計算される。 • この正規分布に注⽬し ている部分集合の平均 点の標準座標を位置付 け、分散と⽐べてどの
くらい離れているかを 確認する。 2023/06/10 対応分析研究会第19回 52 再掲
分散はいくつになるのか • N=1215、n=93、λ=0.4004(Dim1) • これを、 V = ! " #$"
#$! 𝜆 • に代⼊すると • ((1/93)(1215−93)/(1215−1))*0.4004 = 0.4004*(1/93) * 0.924 • =0.00397866 (有限⺟集団修正あり) • という値が得られる。 λ/nが標本分散の値。それに有限⺟集団補正(0.924)をかけ ている。 • 「18-24歳」の軸1の平均点の標準座標(Z値なので)は、+9.34な ので、これは、⾮常に有意ということになる。9.34σ 2023/06/10 対応分析研究会第19回 53 再掲
で、「組合せ論枠組み」とはなんなのか • 確率ではなく、割合でp値を出す。 • p値は、Neyman=Peason体系のように判定基準ではなく、レ ベルを表すものとして解釈していく。 • だから、⾮典型性の検定、⾮同質性の検定、ではなく、典型性検定、 同質性検定、なのだろうか..。 (シャピロウィクスの正規性検定のように、帰無仮説が「正規分布し
ている」なので、正規性を(積極的には)確認できないので、組合せ 論でできないか考えてみたが、そもそも正規性を仮定する必要がな かった..。) • Fisher派としては、p値によって「有意」が確認されたら、そ の先に検討に⼊る。(p値で有意が確認されたら、対⽴仮説が 「正しい」ではないぞ、ということ。) 2023/08/30 対応分析研究会第20回 54
t-検定のaltenativeということでしょうか • 典型性検定 • 参照⺟集団の平均とのズレ • 同質性検定 • ⼆つの部分集合の平均のズレ •
これを(もろもろの仮定を必要とする)「確率論」の枠組みで はなく、記述統計のresultの割合で解釈していく。 2023/08/30 対応分析研究会第20回 55
典型性レベルを表す指標としてのp値? • 第4章のデータで、典型性検定を有意(⾮典型)/⾮有意(典 型ではないとは⾔えない)の「判定」ではなく、典型性レベル でみるとどう⾒えるかを⾒てみる。 • データは、嗜好データ(taste example) • GDAtools2.0のdimtypicality()を使う。
• (前回やっている…) 2023/08/30 対応分析研究会第20回 56
GDAtoolsV2.0で加わったfunction dimtypicality(前回のスライドから) p117の+9.34はこの test.stat:検定統計量 です。 p値はゼロ。 2023/08/30 対応分析研究会第20回 57 コードを読んでみましたが、
使われているのは「近似計 算」つまり正規分布近似で 計算してました。 並べ替え計算をやるなら、 繰り返し数の設定などが必 要。それに、時間がかかり ます!
GDAtoolsV2.0で加わったfunction dimtypicality(⾒どころ変更) 2023/08/30 対応分析研究会第20回 58 統計検定量(test.stat) は、典型からのズレの ⽅向。 p値は、典型性レベル。 ⼩さいほど、⾮典型、
つまり特徴あり。 ⼤きいのは典型⽔準 ⼤。
GDAtools::dimtypicalityは ANOVA? • dimtypicality(resmca, vars,dim=c(1,2), max.pval =1) 2023/08/30 対応分析研究会第20回 59
dim1 dim2 dim… supval1 supval2 sumpval.. resmca MCAのresult vars 追加変数 cat1 cat2 cat3 : varsのcatでgroup化したdim1の平均値を dim1全体の平均値と⽐較。
同質性検定homog.test はMANOVA? • homog.test(resmca, vars,dim=c(1,2) 2023/08/30 対応分析研究会第20回 60 dim1 dim2
dim… supval1 supval2 sumpval.. resmca MCAのresult vars 追加変数 cati : : : catj varsの⼆つのcatでgroup化したdim1の平均値を ⽐較。 平均値 cati 平均値 catj
まとめ • t-検定、分散分析の⾮確率論的置き換え、と考えたら、使える 場⾯がいくらでもありそうです。 • 典型性、同質性のレベル指標としp値を使う(仮説の判定、判 断ではなく)ということが、「統計的推測を現在よりも⾃由に ⽤いることができるし、また⽤いるべきである」p113、にいう 「⾃由に」の意味として理解できそうです。 2023/08/30
対応分析研究会第20回 61
None