Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
多次元展開法を用いた 多値バイクラスタリング モデルの提案
Search
Koji E. Kosugi
September 12, 2024
Science
0
180
多次元展開法を用いた 多値バイクラスタリング モデルの提案
行動計量学会2024年大会特別セッション「心理学におけるモデリングアプローチの展開VI」での発表資料です。
Koji E. Kosugi
September 12, 2024
Tweet
Share
More Decks by Koji E. Kosugi
See All by Koji E. Kosugi
小杉考司(専修大学)
kosugitti
2
530
電子計算機のイロハ
kosugitti
1
1.5k
Shinyで親父の威厳を回復した話
kosugitti
0
580
ベイズ統計学勉強会 2022年春合宿資料「はじめてのTeX」
kosugitti
2
7.9k
Tokyo.R #94 脱rstan初心者
kosugitti
3
990
Tokyo.R #90 RStudioで日本語論文を書く(2)
kosugitti
1
1.1k
Other Decks in Science
See All in Science
Презентация программы бакалавриата СПбГУ "Искусственный интеллект и наука о данных"
dscs
0
660
化学におけるAI・シミュレーション活用のトレンドと 汎用原子レベルシミュレーター: Matlantisを使った素材開発
matlantis
0
170
Coqで選択公理を形式化してみた
soukouki
0
170
成果物の構造を考慮したテキスト埋め込みによるトレーサビリティリンク回復手法の提案
toskamiya
0
120
2024-06-16-pydata_london
sofievl
0
490
ウェーブレットおきもち講座
aikiriao
1
780
非同期コミュニケーションの構造 -チャットツールを用いた組織における情報の流れの設計について-
koisono
0
120
深層学習を利用して 大豆の外部欠陥を判別した研究事例の紹介
kentaitakura
0
200
拡散モデルの原理紹介
brainpadpr
3
4.2k
【人工衛星開発】能見研究室紹介動画
02hattori11sat03
0
130
いまAI組織が求める企画開発エンジニアとは?
roadroller
2
1.2k
Science of Scienceおよび科学計量学に関する研究論文の俯瞰可視化_LT版
hayataka88
0
850
Featured
See All Featured
Designing for humans not robots
tammielis
249
25k
Teambox: Starting and Learning
jrom
132
8.7k
Building Your Own Lightsaber
phodgson
102
6k
Fireside Chat
paigeccino
32
3k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.6k
Code Review Best Practice
trishagee
63
17k
The Mythical Team-Month
searls
218
43k
[RailsConf 2023] Rails as a piece of cake
palkan
49
4.8k
Agile that works and the tools we love
rasmusluckow
327
21k
Adopting Sorbet at Scale
ufuk
73
9k
Happy Clients
brianwarren
97
6.7k
What the flash - Photography Introduction
edds
67
11k
Transcript
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 多次元展開法を用いた 多値バイクラスタリング モデルの提案 ◦小杉考司(専修大学人間科学部) 荘島宏二郎(大学入試センター) 清水裕士(関西学院大学社会学部) 1
自己紹介 • 名前;小杉考司(こすぎこうじ) • 移動;大阪→京都→山口→神奈川 • 専門;心理統計,統計モデリング 2
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Biclustering • 項目と被験者両方について同時にクラスタリングする。 • 以下,項目のクラスターは「フィールド」,被験者のクラスターは「クラス」 と呼称する。 • 被験者数S,項目数J,U={
},ここで正答は ,誤答は とする。 • 推定したいパラメタは • メンバーがクラスに所属する確率 , • 項目がフィールドに所属する確率 • あるクラスがあるフィールドに所属する確率 usj usj = 1 usj = 0 MC MF ΠB 3
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Class Membership Matrix • ある被験者sがクラス1,2,…,Cに所属する確率ベクトル • 要素の総和は1,つまり •
これを行列にしたのがClass Membership Matrixで, • 4
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Field Membership Matrix • ある項目jがフィールド1,2,…,Fに所属する確率ベクトル • 要素の総和は1,つまり •
これを行列にしたのがField Membership Matrixで, • 5
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Bicluster Reference Matrix • ある被験者sがクラスcに所属し,あるフィールドfに所属す るある項目jに正答する確率を次のように表す。 • これを行列にしたのがBicluster
Reference Matrix で, 6 • この をデータから推定する。 MC MF ΠB Fig.7.3 Biclustering machine Pr (usj = 1 ∣ msc = 1,mjf = 1) = πfc ( ∈ [0,1]) .
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Biclusteringとは 7 3BOLMVTUFSJOH 4IPKJNB C
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 詳しくはこの本に • 荘島宏二郎先生の開発されたモデル は右のTDEで網羅的に紹介されて いる • ExametrikaはExcelで動くプログ ラムで,全てではないがTDEで紹介
されているモデルが動く • Mathematicaのコードは全モデル について公開されている 8 Shojima(2022) Test Data Engineering, Springer
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Rパッケージ公開中 9 IUUQTLPTVHJUUJHJUIVCJP&YBNFUSJLB &YBNFUSJLB(JUIVCͰ ݕࡧݕࡧ͎ʂ
10
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Biclusteringの面白さ • 誰がどこのクラスに所属しているか,どの項目がどのフィールドに所属し ているかを見るだけでも面白い • フィールドが何に対応しているかによって,テストの内容分析の一助に • ランクを上げる・下がる時のオッズなどで個々人の情報をフィードバッ
クできる • ランクごとのフィールド正答率からフィールドのslope, location indexも。 • このランクの人はこういう内容が理解できているというCan-do Chartを書いたり 11
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* これを心理尺度に • 心理尺度の多くは多段階(3〜7件法)なので,心理尺度に使 えるようにしたい。 12 • リッカート法→因子分析,という不適切な慣例が横行していると小 杉は考えているからです。
• 個人の内部に関する要素の同一性(局所均質的構成概念の仮 定;Borsboom(2005))が満たされないものは,カテゴリの度数 を数え上げることさえ限定的な意味しか持ち得ない • 本当はわからないけどこのカテゴリに反応したという意味で「同 じ」とみなす,という無機質な解釈なら可能 • 因子分析のようなデータ生成メカニズムを扱うモデル化は不適切 ˡͳ͔ͥʁ
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 心理学者は何がしたいのか? • 項目を意味的まとまりで納得したい(構成概念が欲しい) • 個人差は認めつつ類型論的に個人を解釈したい 13 • 項目と個人の両方をクラスタリング,あるいは序列化した
い。この時,項目カテゴリは順序尺度水準程度である • クラスタリングやMDSの方が方法論としては妥当なはず
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 提案モデル 14 • 多次元展開法の変量モデル(足立,2000)がベース • 個人s,項目jがそれぞれP次元空間に座標 をもつとして,距 離
を考える。 • 他段階反応カテゴリを持つデータU={ }は,個人と項目の距離を 反映していると仮定する。 • ここで • ただし αsp , βjp d(αs , βj ) = P ∑ p=1 (αsp − βjp )2 usj usj = μsj + esj esj ∼ N(0,σ) μsj = λ − ψd(αs , βj ) ψ > 0 出典; 足立 浩平, 計量多次元展開法の変量モデル, 行動計量学, 2000, 27 巻, 1 号, p. 12-23
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 提案モデル 15
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* MCMC推定 • ラベルスイッチングを避けるために,クラス・フィールドの重心は極座標で表 現 • 原点・尺度・鏡像の不定性が残る→原点と尺度の不定性についてはQR分解 を用いた中心化法で対応,鏡像に関する不定性は避けようがないので,初期 値を選ぶことで対応
• 具体的手順 1. 混合モデルでない多次元展開法から,個人・項目の座標を推定する(多 数のチェインの中から最も良いものを選ぶ) 2. 混合ガウス分布モデルパッケージから,重心と混合率を計算 3. 2で得られた値を初期ととして本モデルを推定 16
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* パラメタリカバリ 17 ࣍ݩɼਓɼ߲ɼΫϥεɼϑΟʔϧυͷԾσʔλΑΓ ԁ ͰಘΒΕΔ4%ͷഒ Σ
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* パラメタリカバリ 18 ࣍ݩɼਓɼ߲ɼΫϥεɼϑΟʔϧυͷԾσʔλΑΓ ϑΟʔϧυͷॏ৺େମରԠ
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* パラメタリカバリ 19 ࣍ݩɼਓɼ߲ɼΫϥεɼϑΟʔϧυͷԾσʔλΑΓ Ϋϥεͷॏ৺େମରԠ
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* パラメタリカバリ • クラスのカッパ係数は0.73,正確性は0.82で,フィールド は完全に一致 • 分類目的としては十分使えるかと 20 ࣍ݩɼਓɼ߲ɼΫϥεɼϑΟʔϧυͷԾσʔλΑΓ
5& $ $ $ $ $ $ 5& ' ' ' '
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 尺度のデータの例 21 • PsychパッケージのBFIデータの一部を利用。以下の五つの性格 次元を各5項目で測定。 • A (Agreeableness;
協調性) • O (Openness; 開放性) • E (Extraversion; 外向性) • C (Conscientiousness; 誠実性) • N (Neuroticism; 神経症傾向) • このうち欠損値を含まない500件を取り出して,25x500のデー タで分析。 • 初期値としてクラス数2,フィールド数6が提案されたのでそれを 採用
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 結果のプロット 22 ˛͕߲ ˔͕ݸਓ
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 結果のプロット 23
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 結果のプロット 24 /߲ಉ͡ϑΟʔϧυʹ "0܈ $&܈ ͦͷ΄͔ͷ܈ П
П П П П П ϑΟʔϧυࠞ߹ К К Ϋϥεࠞ߹
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 考察 • 従来とは違うフィールドの分類結果 • 性格検査は(理論上)「言葉の共通意味空間」を取り出しているが,こ のモデルは「個々人の項目カテゴリとの距離の自己評定」をモデル化 したものだから •
提案手法に適した心理尺度(とその作り方)があるはず • 初期フィールド数は6だが,実質的に2つは混合率の低さから所属する 項目がない(潰れた) • 確率モデルなので,適合度等でフィールド数,クラス数を決定できる • 個人のクラス分けが明確でない 25
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 提案手法の良し悪し • 推定のステップ数の多さ,不安定さ • 非混合多次元展開法の段階で多くの候補を出して,最も マシなものを初期とするのが第一段階 • クラス数の選定は今回外挿的に行なった
• 最後の推定も長くすることで,なんとか収束基準を達成 (warmup=30,000,iteration100,000) • 潜在変数/反応データ生成モデルを考えていないので,不 自然な仮定,因子分析の誤用悪用を回避することができる 26
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* まとめ • 名義尺度,順序尺度反応への拡張,反応カテゴリへの反応感 度の個人差などへの拡張が考えられる • 提案モデルは一例に過ぎず,心理尺度の適切な分析のため に心理モデリングは貢献できるはず •
多次元尺度法,クラスタ分析などをもっと広めたい! • 多相データ,個人差モデルはまだまだモデリングしがいが あるフィールドだと思います! 27
1. 外的基準で数量化でき,それに対応する尺度である→心理尺度 である必要はないが,ラフな近似としての意味があるかも? 2. 反応パターンが一義的でそれに対応して直接意味のある数値化 ができる→テスト理論 3. 反応パターンが一義的で,反応カテゴリの集積が確率分布に従う と仮定できることから,尺度値が数値化できる→態度理論/因子 分析モデル
4. 反応パターンが一義的だが,確率分布が仮定できない→測定モ デルを止める。MDS,クラスタリング,パターン分類へ 5. 反応カテゴリが一義的でなく,程度の評価は個人ごとに異なる→ 非計量MDSの3相モデルなど積極的に個人差をモデル化する 6. 反応カテゴリに個々人の意味が付与されており,その人にしかわ からない→測るという目的に合致しない 28 ৺ ཧ ई ͷ ར ༻ Մ ೳ ੑ
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 多次元展開法を用いた 多値バイクラスタリング モデルの提案 ◦小杉考司(専修大学人間科学部) 荘島宏二郎(大学入試センター) 清水裕士(関西学院大学社会学部) 29
৺ཧֶత࿈ଓମʢ৺ཧֶ͕ରͱ͢Δൣғʣ ཧతԠ ใ ݸਓͷ ओ؍తҙຯ ࣾձత ؒओ؍త߹ҙ ଌఆํ๏ 物理的測定 (狭義の)心理測定
態度測定 テスト ? 物理モデル 計算モデル 多変量解析 ? ଌఆϞσϧ ݚڀର ݸਓͷओ؍తʮҙຯʯʮܦݧʯΛଌఆ͢Δํ๏Ϟσϧʹ͍ͭͯ΄ͱΜͲސΈΒΕͣɼ ࣾձతɾؒओ؍తҙຯͷଌఆϞσϧΛޡͬͯར༻͍ͯ͠Δέʔε͕ଟ͘ΈΒΕΔ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ
Biclusteringの 他のモデル • テストの場合,行方向にも列方向にも比率/正答数で序列か できるのがありがたい。限定的状況だからこそモデリングに はむいているのかも。 • Bi-clusteringはtwo-mode clustering,block clusteringともいわれ,いくつか他のモデルもある
31 (1$.ͷҰൠԽͰ͜Ε໘ന͍ ໊ٛईਫ४ͳΒͪ͜ΒɻϚʔέͳͲͰΘΕͯΔͬΆ͍