Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
三原高校模擬授業/2023-mihara-demo
Search
Takahiro Sumiya
October 31, 2023
Education
0
68
三原高校模擬授業/2023-mihara-demo
Takahiro Sumiya
October 31, 2023
Tweet
Share
More Decks by Takahiro Sumiya
See All by Takahiro Sumiya
卒論・修論執筆における生成AI 活用とAI 不安:広島大学での実態調査/CE176
gnutar
0
70
大学教育現場と著作権/University education and copyright
gnutar
0
12
SNSなど情報教育と著作権について/SNS and Copyright
gnutar
0
55
オンライン授業と著作権/Online class and copyright
gnutar
0
120
ChatGPTによる問い合わせサイトの構築に向けて/Developing a ChatGPT-powered Helpdesk Site
gnutar
0
160
sss2023-pie
gnutar
0
180
2023-03-09 suzuka
gnutar
1
74
ユーザカスタマイズ可能なMoodleとSISの連携/Moodle and SIS
gnutar
0
100
広島大学における全学LMSの移行/Migration of Hiroshima University LMS
gnutar
0
480
Other Decks in Education
See All in Education
Zoom-ohjeet
matleenalaakso
7
7.2k
20241004_Microsoft認定資格のFundamentals全部取ってみた
ponponmikankan
2
310
Human Perception and Cognition - Lecture 4 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
680
Web Application Frameworks - Lecture 4 - Web Technologies (1019888BNR)
signer
PRO
0
2.6k
横浜国立大学大学院 国際社会科学府 経営学専攻博士課程前期(社会人専修コース)_在校生体験談
miki_small_pin
0
650
HCI Research Methods - Lecture 7 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
670
オープンソース防災教育ARアプリの開発と地域防災での活用
nro2daisuke
0
150
week12@tcue2024
nonxxxizm
0
680
week@tcue2024
nonxxxizm
0
510
2024年度春学期 統計学 第14回 分布についての仮説を検証する ― 仮説検定(1) (2024. 7. 11)
akiraasano
PRO
0
150
HCL Domino 14.0 AutoUpdate を試してみた
harunakano
0
1.4k
XML and Related Technologies - Lecture 7 - Web Technologies (1019888BNR)
signer
PRO
0
2.5k
Featured
See All Featured
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
27
790
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Done Done
chrislema
181
16k
Optimising Largest Contentful Paint
csswizardry
33
2.9k
Into the Great Unknown - MozCon
thekraken
31
1.5k
Navigating Team Friction
lara
183
14k
Faster Mobile Websites
deanohume
304
30k
Docker and Python
trallard
40
3.1k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
167
49k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
27
4.2k
Side Projects
sachag
452
42k
10 Git Anti Patterns You Should be Aware of
lemiorhan
654
59k
Transcript
データ科学入門 〜クラスター分析で、複数の属性をもつデータを分類してみよう 広島大学 情報メディア教育研究センター/情報科学部 隅谷孝洋 2023/11/01
‣ 広島大学 情報科学部 ‣ 2018年開設
1 ࣍ 2 ࣍ ϓϩάϥϜհ Program جૅཤमϞσϧ ࣍ʹͭͷϓϩάϥϜ͔ΒͭΛબ ࣍ʹͭͷϓϩάϥϜ͔ΒͭΛબ ࣍ʹ̏ͭͷཤमϞσϧ͔ΒͭΛબ
࣍ʹ̏ͭͷཤमϞσϧ͔ΒͭΛબ ใՊֶ෦Ͱɺ ྩ̐ೖֶੜΑΓɺ ैདྷͷ ڭҭ՝ఔͰ͋ΔϓϩάϥϜίʔε੍ ʢใՊֶ ϓϩάϥϜ ɿ σʔλαΠΤϯείʔεɺ ΠϯϑΥ ϚςΟ Ϋείʔεʣ ͔Βɺ ϓϩάϥϜ੍ ʢܭࢉػ ՊֶϓϩάϥϜɺ σʔλՊֶϓϩάϥϜɺ ೳՊֶ ϓϩάϥϜʣ ʹ࠶ฤ͠·ͨ͠ɻ ·ͨɺ ̏ཤमϞσϧ ʢجૅཤमϞσϧɺ ༥߹ཤमϞσϧɺ ࣮ફཤ मϞσϧʣ Λ৽ͨʹಋೖ͠·ͨ͠ɻ ࣍ʹͦΕͧΕͷϓϩάϥϜʹ͔Εɺ ࣍ ʹͭͷཤमϞσϧΛબ͠·͢ɻ ৽ͨͳཤम ϞσϧͷಋೖʹΑΓɺ ʮํੜʯ ʹࢿ͢Δਓࡐ ҭΛߦ͍ɺ ֶੜͷΩϟϦΞࢤʹԠͨ͡ΧϦ ΩϡϥϜฤΛ࣮ݱ͠·͢ɻ ϓϩάϥϜ ཤमϞσϧ ܭࢉػՊֶ ϓϩάϥϜ ຊϓϩάϥϜͰɺ ࣾձΛࢧ͑Δ*$5 ʢใ௨৴ٕज़ʣ ͷ ϋʔυΣΞ͔ΒιϑτΣΞɺ ωοτϫʔΫʹؔ͢Δجૅ͔ ΒԠ༻·Ͱମܥతʹֶͼ·͢ɻ ͜ΕʹΑΓɺ ͞·͟·ͳใ ॲཧγεςϜ ɾ ΞϓϦέʔγϣϯΛاըఏҊ ɾ ݚڀ։ൃ ɾ ҡ ࣋ӡ༻Ͱ͖Δٕज़ऀΛཆ͠·͢ɻ *$5Λཧղ͠ɺ ։ൃɾӡ༻Ͱ͖ΔೳྗΛशಘ ܭࢉػγεςϜ ௨৴γεςϜ ɾ Πϯλʔωο τ ใωο τ ϫʔΫηΩϡ Ϧς Ο ΞϧΰϦζϜ ɾ ܭࢉཧ ιϑ τ ΣΞ։ൃख๏ ฒྻࢄγεςϜ ɾ ߴੑೳܭࢉ Ϗοάσʔλॲཧ ɾ σʔλϕʔε ը૾ॲཧ ɾ ػցֶश Keyword ͜Μͳਓʹ͓͢͢Ί ৽ͳΞϓϦΛࣗͰ։ൃ͍ͨ͠ *P5ʹΑͬͯੜ׆Λͬͱศརʹ͍ͨ͠ ࣾձΠϯϑϥΛࢧ͑ΔγεςϜΛ։ൃ͍ͨ͠ Πϯλʔωοτͷར༻Λշదʹ͍ͨ͠ σʔλαΠΤϯεΠϯϑΥϚςΟ Ϋεɺ "*ʹ͓͚Δ෯ ͍ใՊֶʹؔ࿈͢ΔઐߨٛՊͷཤमΛ௨ͯ͡ɺ جૅ ͔ΒԠ༻ʹࢸΔ෯͍ࣝΛֶͼ·͢ɻ ݚڀʹର͢Δܭըੑ ɾ ੵۃੑ ɾ ڠಇੑ ɾ ܧଓੑʹؔ͢ΔೳྗΛ౷ ߹తʹߴΊΔ͜ͱͰɺ ৽ͨͳ՝ΛࣗΒൃݟ͠՝Λղܾ͢Δೳ ྗΛഓ͍·͢ɻ ࠷ऴֶͰɺ ݸผݚڀ՝Λઃఆ͠ɺ ୲ڭһ ͷࢦಋͷԼͰɺ ݚڀ ɾ ࣮ݧ ɾ ٞΛਐΊɺ ՌΛ·ͱΊͯଔۀ จͱ͠ ͯൃද͠·͢ɻ Moreabout 03 3 ࣍ 4 ࣍ ༥߹ཤमϞσϧ ࣮ફཤमϞσϧ σʔλՊֶ ϓϩάϥϜ ຊϓϩάϥϜͰɺ ίϯϐϡʔλใॲཧٕज़ΛֶΜͩ ্Ͱɺ ϏοάσʔλΛؚΉ͞ ·͟·ͳσʔλͷॲཧ ɾ ੳ ɾ ཧղ Λޮྑ͘ߦ͏ͨΊͷઐՊΛମܥతʹֶͼ·͢ɻ ͜Ε ʹΑΓɺ ଞͷԠ༻ੑ ɾ ༗༻ੑΛेʹཧղ͠ɺ ੳྗ ͷߴ͍ਓࡐΛཆ͠·͢ɻ σʔλੳͷج൫ͱ Ԡ༻ೳྗΛशಘ ཧ౷ܭ ܦࡁ౷ܭ όΠΦ౷ܭ ۚ༥ֶ ਓؒҩֶ ࣾձ৺ཧֶ Ϗοάσʔλ ใཧֶ ཧ࠷దԽ Keyword ͜Μͳਓʹ͓͢͢Ί σʔλαΠΤϯςΟετͯ͠׆༂͍ͨ͠ ࣏ྍ๏ༀͷ༗ޮੑΛධՁ͍ͨ͠ גՁ༧ଌ ɾ ੳΛߦ͍͍ͨ 4/4Λར༻ͨ͠ϚʔέςΟϯάΛߦ͍͍ͨ ೳՊֶ ϓϩάϥϜ ຊϓϩάϥϜͰɺ ਓೳػցֶशɺ *P5ͳͲʹؔ͢Δ ઐࣝΛجૅ͔ΒԠ༻·Ͱମܥతʹֶͼ·͢ɻ ͜ΕʹΑ Γɺ ೳՊֶͷ෯͍ࣝʹج͍ͮͨଟ֯తͳࢹͱੳ ख๏Λۦ͠ ͯ՝Λղܾ͢ΔೳྗΛʹ͚ٕͭͨज़ऀ ݚڀऀΛཆ͠·͢ɻ "*࣌ʹٻΊΒΕΔ ઐతͳೳྗΛशಘ ਓೳ ػցֶश ೳγεςϜ ೝՊֶ ύλʔϯೝࣝ ҩ༻ֶ ը૾ใॲཧ ֶशֶ 4/4ੳ Keyword ͜Μͳਓʹ͓͢͢Ί ਓೳΛຊ֨తʹֶͼ͍ͨ σΟʔϓϥʔχϯάΛ࣮͍ͨ͠ ը૾ೝࣝԻೝࣝͷݪཧΛΓ͍ͨ ͷΈΛ࠶ݱ͍ͨ͠ ใՊֶٕज़͕͋ΒΏΔֶྖҬʹ͓͍ͯඞཁͱ ͞Ε ͍ͯΔ͜ͱΛߟྀ͠ɺ ใՊֶͷֶతഎܠΛ࣋ͪͳ͕Βɺ *$5ʹݶΒͣ͞ · ͟·ͳͰ׆༂Ͱ͖ ΔೳྗΛ֫ಘ͠ ·͢ ɻ ຊֶͷଞֶ෦Ͱ։ߨ͞Ε͍ͯΔߨٛΛબඞमՊͱ͠ ͯཤम ͢Δ͜ͱ͕ՄೳͰ͋Γɺ ෯͍ࣝɺ ٕೳ͓ΑͼੳྗΛʹͭ ͚Δ͜ͱ͕Ͱ͖·͢ɻ ࠷ऴֶͰɺ ݸผݚڀ՝Λઃఆ͠ɺ ୲ ڭһͷࢦಋͷԼͰɺ ݚڀ ɾ ࣮ݧ ɾ ٞΛਐΊɺ ՌΛ·ͱΊͯ ଔۀจͱ͠ ͯൃද͠·͢ɻ Moreabout اۀͷظݣܦݧΛ௨ͯ͡ɺ େֶͰͷֶͼΛ࠶ߟ͢Δͱ ͱ ʹɺ ࢈ۀքͰٻΊΒΕ͍ͯΔࣝεΩϧΛֶͼ·͢ɻ ใՊֶ෦ڭһͱຽؒاۀɺ ࣏ࣗମʹΑΓݚڀ։ൃௐࠪʹର ͢Δ۩ମతͳܭըΛઃఆ͠ɺ ݚڀ ɾ ࣮ݧ ɾ ٞΛਐΊͳ͕Βݚڀ ඪΛୡ͢Δ͜ͱͰ৽͍͠ՃՁΛੜΉٕज़ͷ֫ಘΛΑΓ͔֬ ͳͷͱ͠·͢ɻ ଔۀจͷΘΓʹɺ ظϑ ΟʔϧυϫʔΫΛཤ म͠ɺ ֶ֎Ͱͷݚڀ։ൃϓϩδΣ Ϋτௐࠪϑ Ο ʔϧυϫʔΫʹࢀ Ճ͢Δ͜ͱͰɺ ࣮ફతͳ՝ղܾʹ׆༻͢ΔೳྗΛʹ͚ͭ·͢ɻ Moreabout 04
` 数理統計学のための確率論の基礎:事象の非独立性の視覚化 音楽的特徴量を用いたBillboardチャートイン予測 ロジスティックモデルとその拡張について Bradley-Terryモデルを用いたプロ野球の勝敗データの解析 我が国の喫煙状況を用いた肺がんマイクロシミュレーション SurvCARTアルゴリズムの概要と既存アルゴリズムとの比較 モランのI統計量のバウンズについて:パスグラフの場合を中心にして 投資環境に応じた最適ポートフォリオ選択 HPVワクチンの接種意図に両面呈示の呈示順序が及ぼす影響:直後効果と抵抗効果からの検討
フードファディズムを引き起こしにくい広告の検討:効果性の認識と企業への信頼の観点から Improvement of Neural Radiance Fields by Using Pixels Neighboring Relations 数の概念の追加学習による勾配加重クラス活性化マッピング (Grad-CAM)の妥当性の向上 グラフの辺の変動に頑健なグラフの識別のためのグラフニューラルネットワークの学習法 画像の変動に対する対象検出手法の頑健性の評価 カテゴリ特化型感情極性辞書を用いたカテゴリ評価値予測の改良 適応的支援を指向した三角ロジック組立演習の解答プロセスの分析 最適数値相関ルールを利用したSHAPの予測モデル解釈の補完 SHAPを用いたMLBの配球分析 属性情報を考慮したサプライチェーンネットワークの埋め込み表現学習 変分拡散モデルによる多変量時系列予測 分散・共分散正則化を用いたニューラルトピックモデルの自己教師あり学習 広島県の主要都市における人口変動分析 Normalizing Flowによる周辺尤度推定 気候と検索件数のデータに基づくガウス過程の説明変数選択を使用したCOVID-19要因推定 集団軌跡モデルとテロデータへの適用 ベーチェット病治療のメタアナリシス:古典的手法とベイズ手法の比較 日本におけるCOVID-19流行前後の生活満足度変化に関する考察 4
None
クラスター分析 6 変数 サンプル サンプル(もしくは変数)同士の距離を用いて, いくつかのクラスター(群)に分類する。
データを作ってみましょう 7 https://bit.ly/mihara-enq
人数分 変量(40コ)
2変数の例 9 身長 体重 身長 体重 身長 体重 このようなグループ分けを 合理的に行うにはどうすべきか
二つの手法 10 身長 体重 階層的クラスタリング 非階層的クラスタリング 二点間の距離が近いものをまとめていく まとめるのをやめた時点でクラスタ数が決まる 先にクラスタ数を決める その数に最も収まりが良いように点を分ける
階層的クラスタリング 11 A B C D E F 1 2
3 4 5 D E F C A B 1 2 3 4 5 6 デンドログラム (樹形図)
階層的クラスタリング/クラスターを併合する方法 ‣ 最短距離法 (single) ‣ 最長距離法 (complete) ‣ 群平均法 (average)
‣ 重心法 (centroid) ‣ メディアン法 (median) ‣ Ward法 (ward.D) 12
階層的クラスタリング/クラスターを併合する方法/Ward法 ‣ Ward法が性能が良いと言われており,よ く利用される ✓ L(X)を,クラスタXの重心からの距離の 平方和とした時,以下を最小にするよう なクラスタを併合する 13 d(Ci
, Cj ) = L(Ci ∪ Cj ) − {L(Ci ) + L(Cj )}
階層的クラスタリング/やってみよう ユークリッド距離+最長距離法 14 A B C D E F X
Y A 1 1 B 2 2 C 1 5 D 4 6 E 5 5 F 6 5
階層的クラスタリング/やってみよう ユークリッド距離+最長距離法 15 A B C D E F A
B C D E F A 0.0 1.4 4.0 5.8 5.7 6.4 B 1.4 0.0 3.2 4.5 4.2 5.0 C 4.0 3.2 0.0 3.2 4.0 5.0 D 5.8 4.5 3.2 0.0 1.4 2.2 E 5.7 4.2 4.0 1.4 0.0 1.0 F 6.4 5.0 5.0 2.2 1.0 0.0
Rでやってみる https://bit.ly/mihara-r
クラスター分析関係のコマンド (1) ‣ d=dist(data) ✓ 距離行列を計算。dataはmatrixでも dataframe でもどちらでも良い。 ‣ hc=hculst(d,method="手法")
✓ 階層的クラスター分析を実行 ✓ methodには,simple, complete, average, ward.D などが指定できる ‣ cn=cutree(hc,n) ✓ クラスタをn個にした時,サンプルに対応 するクラスタ番号のリストを取得 17
クラスター分析のサンプル (1) # 練習問題のデータを作成 sample = matrix(c(1,1, 2,2, 1,5, 4,6,
5,5, 6,5),byrow=T,ncol=2) rownames(sample) = c("A","B","C","D","E","F") colnames(sample) = c("X","Y") plot(sample) 18
クラスター分析のサンプル (2) # 距離行列の計算 sample_dist = dist(sample) # クラスタリング実行 sample_hc
= hclust ( sample_dist, method="complete") # デンドログラム描画 plot(sample_hc,hang=-1) # 各サンプルに対応するクラスタ番号を取得 sample_cn = cutree(sample_hc,2) # クラスタごとに色分けして散布図を描く plot(sample, pch=16, col=sample_cn) 19 1 2 3 4 5 6 7 8 既定の色番号
クラスター分析のサンプル (3) # 非階層的クラスター分析 (k-meansを実施) sample_nhc = kmeans( sample, 2
) # クラスタごとに色分けして散布図を描く plot(sample, pch=16, col=sample_nhc$cluster) 20