Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
対応分析研究会 第6回報告スライド
Search
419kfj
May 23, 2021
Research
0
9
対応分析研究会 第6回報告スライド
『対応分析の理論と実践』オーム社刊2020、の第10章、11方の報告
419kfj
May 23, 2021
Tweet
Share
More Decks by 419kfj
See All by 419kfj
R.Q.(リサーチ・クエスチョン)構築という視点から 伝統的検定手法とベイジアン推定を比較する
419kfj
0
23
多重対応分析/構造化データ解析の原理と研究者視点の介在点「文化と不平等」調査データの分析(1)
419kfj
0
39
Methods and Examples of Correspondence Analysis
419kfj
0
83
01 Introduction
419kfj
0
61
02 ベクトル行列演算とCAの数理
419kfj
0
76
03 CAの数理その2
419kfj
0
28
04 データの準備
419kfj
0
34
05 CAとMCA事例
419kfj
0
30
06 MCA_01
419kfj
0
31
Other Decks in Research
See All in Research
Poster: Feasibility of Runtime-Neutral Wasm Instrumentation for Edge-Cloud Workload Handover
chikuwait
0
230
文化が形作る音楽推薦の消費と、その逆
kuri8ive
0
210
ニュースメディアにおける事前学習済みモデルの可能性と課題 / IBIS2024
upura
3
700
TransformerによるBEV Perception
hf149
1
590
20240918 交通くまもとーく 未来の鉄道網編(太田恒平)
trafficbrain
0
370
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
sansan_randd
1
350
ナレッジプロデューサーとしてのミドルマネージャー支援 - MIMIGURI「知識創造室」の事例の考察 -
chiemitaki
0
100
テキストマイニングことはじめー基本的な考え方からメディアディスコース研究への応用まで
langstat
1
150
Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数
eumesy
PRO
8
1.1k
MetricSifter:クラウドアプリケーションにおける故障箇所特定の効率化のための多変量時系列データの特徴量削減 / FIT 2024
yuukit
2
140
LLM時代にLabは何をすべきか聞いて回った1年間
hargon24
1
530
Tiaccoon: コンテナネットワークにおいて複数トランスポート方式で統一的なアクセス制御
hiroyaonoe
0
150
Featured
See All Featured
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
Writing Fast Ruby
sferik
628
61k
Why You Should Never Use an ORM
jnunemaker
PRO
54
9.1k
Side Projects
sachag
452
42k
Optimizing for Happiness
mojombo
376
70k
Making the Leap to Tech Lead
cromwellryan
133
9k
Gamification - CAS2011
davidbonilla
80
5.1k
BBQ
matthewcrist
85
9.4k
RailsConf 2023
tenderlove
29
940
KATA
mclloyd
29
14k
YesSQL, Process and Tooling at Scale
rocio
169
14k
How To Stay Up To Date on Web Technology
chriscoyier
789
250k
Transcript
対応分析研究会 第6回 3つの特徴的な事例(第10章) と慣性の分解(第11章) 2021年5⽉22⽇ ver1.6 5/23 津⽥塾⼤学 数学・計算機科学研究所 藤本⼀男
[email protected]
本⽇の構成 • 第10章の事例3の解説 • あわせて、RでCAを⾏うステップ • 第11章の慣性の分解 • 第9章のsmokeデータの理解 2021/5/22
対応分析研究会 第6回 2
第7章 最適化尺度 法 第6章 次元を縮減 する 第5章 Χ2距離をプ ロットする 第4章
Χ2距離と慣 性 第1章 散布図と マップ 第2章 プロファイ ルとプロファイル 空間 第3章 質量と重⼼ 2つの量変数の関係を⾒る → 散布図 カテゴリカル変数をどう扱うか 距離! CAの基本概念:プロファイル それが位置するプロファイル 空間。三⾓座標でみていく。 プロファイル:周辺度数→質量 頂点とプロファイル、 平均プロファイル(期待値プロ ファイル)、重⼼ 距離: Χ2距離 慣性: Χ2値/n(プロファイル値で 表現) 最⼤慣性:頂点に⼀致 最⼩慣性:原点(重⼼)に⼀致 Χ2距離をユークリッド距離 に変換し図⽰する。 分布の同等性(分布的に等価) ここまで3次元。これからより 多数の次元を扱う。 低次元下位空間を同定する(回帰 との⽐較) SVD:特異値分解 近似:表⽰の質 第10章 さらに3つ の事例 DS5:科学研究者の評価 DS6:海底試料中海洋種 DS7:著者ごとの⽂字種 慣性の分解 ⾮対称マップ/対称マップ 慣性の⼤きさによる表⽰ の特徴 第9章 2次元表⽰ 主軸のネスティング プロファイルと頂点 ⾮対称マップ/対称マップ 第8章 ⾏分析と列 分析の対称性 頂点位置とプロファイル スケーリング係数 主座標と標準座標 正準相関:最⼤化 整数尺度(likert) 解釈の基準 プロファイル空間の幾何学(1) プロファイル空間の幾何学(2) 2021/5/22 対応分析研究会 第6回 3 DS1 DS2 DS3 DS4
DS5:科学研究者の評価 第10章 3つの典型 事例 2021/5/22 DS5:科学研究者の評価 DS6:海底試料中海洋種 DS7:著者ごとの⽂字種 慣性の分解 ⾮対称マップ/対称マップ
慣性の⼤きさによる表⽰ の特徴 第11章 慣性の分解 第12章 サプリメン タリ・ポイント 第13章 対応分析バ イプロット 第14章 推移と回帰 の関係 第15章 ⾏と列のク ラスタリング 第16章 多重表 第17章 積み重ね表 第18章 多重対応分 析 第19章 同時対応分 析 第20章MCAのス ケーリング特性 第21章 サブセット 対応分析 DS5:科学研究者の評価 DS5:科学研究者の評価 DS5:科学研究者の評価 DS5:科学研究者の評価 DS8:⾷品店における 年齢分布 DS3:健康⾃⼰評価 組み合わせコーディング DS9:働く⼥性に対する 態度 DS9:働く⼥性に対する 態度 DS9:働く⼥性に対する 態度 第21章 サブセット 対応分析 第21章 サブセット 対応分析 第21章 サブセット 対応分析 第21章 サブセット 対応分析 〜 30章まで 対応分析研究会 第6回 4
第10章 3つの典型事例 2021/5/22 対応分析研究会 第6回 5
3つの事例の概要 • データセット5 科学研究者の評価(10 x 5) • プロファイル・ポイントの分散は⼩さい(原点近くに密集) • ⾮対称マップと対称マップ
• 次元解釈の⼿順 • データセット6 海底資料中の海洋種の存在量(92 x 13) • 海洋⽣物学における典型的なデータセット • データセット7 6⼈の著者ごとの書籍にみる⽂字種の度数(12x 26) 2021/5/22 対応分析研究会 第6回 6
⼿順 • データを⽤意する • この事例はExcelファイル • データセット:http://www.carme-n.org/ • 読み込む •
PCにダウンロード • クロス表に対する基礎的分析はしておく。 • χ2検定、⾏分析、列分析(mosaic plot) • CAに投げる • res.CA <- CA(データ) • resultを評価する • スクリープロット(慣性の分解度合い) • ⾮対称マップ、対称マップで概要確認 • 空間(⾮対称マップの標準座標の⽅の軸)へのプロファイルポイントの寄与を確認。→ 軸の性格付 け • (このあと、サプリメタリ処理をして再度CAとか続く) 2021/5/22 対応分析研究会 第6回 7
CA処理前後の処理 CA(対応分析) CAを⾏う前処理 CAのresultの評価 分析の本体 2021/5/22 対応分析研究会 第6回 8 mosaic
plot factoextra explor etc.. このLoopをいかに効率よくまわすか。 tidyverse。
グラフ化 • reslutを描画する • 探索過程でのグラフ化 • 最終出⼒としてのグラフ化 • オプション •
対称マップ • ⾮対称マップ • インターラクティブ・グラフ • explor • グラフのポイントへの修飾 • ⽮印表⽰ • ポイント間を線分でつなぐ(形状、⾊、太さ) 2021/5/22 対応分析研究会 第6回 9
事例1 データセット5科学研究者評価 • 研究費の配分が⽬的 • 5つのカテゴリー:A〜E • 796⼈ • 10の専⾨分野
• Data set 5: funding.xls (74 KB) Evaluation of scientific researchers (chapter 10) 2021/5/22 対応分析研究会 第6回 10
funding.xls ダウンロードしたこのxlsファイルをRに取り込むスクリプトは、chap10.Rmd、chap10.htmlを参照 2021/5/22 対応分析研究会 第6回 11
CA投⼊まえグラフ(mosaic plot) 2021/5/22 対応分析研究会 第6回 12
CA実⾏!(この例はFactoMineR::CA) CAが出⼒したres.CAは、 内部が区分されている。 その区分にアクセスする ⽅法の⼀つが、$でその 項⽬を指定すること。 例)$eigを選ぶと固有値 つまり、慣性が⼿に⼊る 2021/5/22 対応分析研究会
第6回 13
スクリープロット:慣性の分解(1) 2021/5/22 対応分析研究会 第6回 14
2021/5/22 対応分析研究会 第6回 15
2021/5/22 対応分析研究会 第6回 16
事例2 データセット6 • 海底試料中の海洋種の存在量 • 92種 x 13地点 2021/5/22 対応分析研究会
第6回 17
2021/5/22 対応分析研究会 第6回 18
2021/5/22 対応分析研究会 第6回 19
2021/5/22 対応分析研究会 第6回 20
2021/5/22 対応分析研究会 第6回 21
2021/5/22 対応分析研究会 第6回 22
2021/5/22 対応分析研究会 第6回 23
事例3 データセット7 • 6⼈の著者ごとの書籍にみる⽂字種の度数 • 12書籍 x 26⽂字 2021/5/22 対応分析研究会
第6回 24
2021/5/22 対応分析研究会 第6回 25
2021/5/22 対応分析研究会 第6回 26
2021/5/22 対応分析研究会 第6回 27
第11章 慣性への寄与 「慣性は、個々の主軸に沿って⾏および列の成分に分解することができる。 これらの慣性部分の分析は、分散分析に似ており、対応分析(CA)の解釈 を⽀える重要な役割を果たす」 参照されるのは、第10章の事例1のデータセット 2021/5/22 対応分析研究会 第6回 28
慣性の分解 n⾏m列 の多次元 空間 min(n, m)-1 次元空間に再構成 各軸ごと(Dim1〜3…)に慣性が分解される(分解1) 固有値:スクリープロット 各軸が全体の何%を体現しているか
慣性=χ2/N Dim1 Dim2 Dim3 Dim1 Dim2 Dim3 各軸 (Dim1〜3…)の⽣成に各ポイントがどれだけ 寄与しているか(分解3) ポイントごとに各軸への寄与率を合計すると1にな る。 絶対的寄与率(CONTR) Dim1 Dim2 Dim3 ポイントが、各軸でどれだけ表現されているか。 (分解4) ポイントごとに各軸(Dim1〜3…)を合計すると1 になる。 表⽰の「質」相対的寄与率(COS2) 部分空間の表⽰の質は、部分空間を形成する軸ごと の相対的寄与率の合計。 2021/5/22 対応分析研究会 第6回 29 各プロファイルが体現している慣性(分解2−1) 各セルが体現している慣性(分解2−2) prof3 prof4 prof5 prof1 cell1.1 cell1,2 cell1.2 prof2 cell2.1 cell2.2 cell2.3 : : Exhibit11.1 Exhibit11.2 Exhibit11.3 Exhibit11.4 Exhibit11.5 Exhibit11.6 Exhibit11.8
データセット5 funding.xls ダウンロードしたこのxlsファイルをRに取り込むスクリプトは、chap10.Rmd、chap10.htmlを参照 2021/5/22 対応分析研究会 第6回 30
CA投⼊前にグラフ(mosaic plot)で確認 2021/5/22 対応分析研究会 第6回 31
2021/5/22 対応分析研究会 第6回 32 第2軸までで慣性の83.9%が体現されている ポイントの慣性 軸への寄与 軸からの寄与 χ2値とp値 これは、FactoMineR::CAの
result(summary) 個別の値は、リストへのアクセス で取得可能。
スクリープロット:慣性の分解(分解1) 2021/5/22 対応分析研究会 第6回 33
各ポイントの慣性(分解2−1) 2021/5/22 対応分析研究会 第6回 34
2021/5/22 対応分析研究会 第6回 35 分解2−2
Exhibit 11.2 セルのcontribution 2021/5/22 対応分析研究会 第6回 36
2021/5/22 対応分析研究会 第6回 37 分解2−2
⼆つの寄与率 (分解3、4) • 絶対的寄与(分解3) • 座標軸へのプロファイル・ポイントの寄与 • 軸の解釈の根拠 • 相対的寄与(分解4)
• 各軸がプロファイル・ポイントをどれだけ表現しているか • 注⽬している軸でそのポイントの何%が表現されているか。 • ポイントと軸の相関係数 • 1−2軸(部分空間)でのポイントの表現の「質」 • 1軸、2軸での相対的寄与(cos2θ)の和 2021/5/22 対応分析研究会 第6回 38
2021/5/22 対応分析研究会 第6回 39
⾏プロファイル、列プロファイルが、各軸の⽣成にどれだけ寄与しているか、を表すのが contribution(寄与率)。 Dim i の列和が100(%)になっている 2021/5/22 対応分析研究会 第6回 40
2021/5/22 対応分析研究会 第6回 41
2021/5/22 対応分析研究会 第6回 42
0.055 + 0.861 + 0.072 = 1.000 2021/5/22 対応分析研究会 第6回
43 分解4
2021/5/22 対応分析研究会 第6回 44 横⽅向に分割 本当は転置して 縦⽅向に分割 したい..(⼿抜き) 合計1000
2021/5/22 対応分析研究会 第6回 45 横⽅向に分割 本当は転置して 縦⽅向に分割 したい..(⼿抜き) 合計1000
Dim 1とDim2のcos2 を加算して、Quality となる。 2021/5/22 対応分析研究会 第6回 46
p87−88の「因⼦分析による類推」 • ごめんなさい、因⼦分析を使ってないので、よくわからず、で す。 • 詳しい⽅、コメントいただけると助かります! 2021/5/22 対応分析研究会 第6回 47
第9章のデータセット4再考 smokeを⾒てみましょう! 2021/5/22 対応分析研究会 第6回 48
データセット4:: smoke • 職員群の喫煙習慣 2021/5/22 対応分析研究会 第6回 49
2021/5/22 対応分析研究会 第6回 50
smokeの⾮対称マップ 2021/5/22 対応分析研究会 第6回 51
慣性の分解(1) 2021/5/22 対応分析研究会 第6回 52
慣性の分解(2) 2021/5/22 対応分析研究会 第6回 53
2021/5/22 対応分析研究会 第6回 54
2021/5/22 対応分析研究会 第6回 55 列⽅向に分割されているように転置して表⽰
2021/5/22 対応分析研究会 第6回 56
次回、第7回は • 第12章、サプリメンタリ・ポイント、第13章対応分析バイプ ロットをやらせていただきます。 2021/5/22 対応分析研究会 第6回 57