Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
三原高校模擬授業/2023-mihara-demo
Search
Takahiro Sumiya
October 31, 2023
Education
0
91
三原高校模擬授業/2023-mihara-demo
Takahiro Sumiya
October 31, 2023
Tweet
Share
More Decks by Takahiro Sumiya
See All by Takahiro Sumiya
Excelグラフはどうしてダサいのか/csd2024-3-sumiya
gnutar
0
22
出前講習会-西海市教育委員会/DME-2025-02-10
gnutar
0
33
オンデマンド授業と著作権/dme-2024-12-17
gnutar
0
43
著作権に関する アンケート (2024) 結果報告/sugowaka-enq-2024
gnutar
0
65
出前講習会-東近江市教育委員会/DME-2024-11-22
gnutar
0
32
卒論・修論執筆における生成AI 活用とAI 不安:広島大学での実態調査/CE176
gnutar
0
120
大学教育現場と著作権/University education and copyright
gnutar
0
47
SNSなど情報教育と著作権について/SNS and Copyright
gnutar
0
130
オンライン授業と著作権/Online class and copyright
gnutar
0
160
Other Decks in Education
See All in Education
FinOpsスキルの効率的な上げ方 #ochacafe
chacco38
1
130
zupanijska natjecanja
petarradanovic2
0
330
郷土教育モデル事業(香川県小豆島町).pdf
bandg
0
120
いにしえの国産データベース~桐~って知っていますか?
masakiokuda
2
140
A Chatbot is Not a Search Engine (it's more like a roleplaying game)
dsalo
0
240
環境・社会理工学院 建築学系 大学院入試について|Science Tokyo(東京科学大学)
sciencetokyo
PRO
0
810
Pen-based Interaction - Lecture 4 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.7k
今から始める8bits CPU アセンブラ言語
sapi_kawahara
0
330
Data Processing and Visualisation Frameworks - Lecture 6 - Information Visualisation (4019538FNR)
signer
PRO
1
2.3k
女子商アプリ開発の軌跡
asial_edu
0
340
中野区ミライ★ライター倶楽部presents『MINT』
nakamuramikumirai
0
1.1k
ハワイアン航空 ステータスへの道 #HAairstudy
maroon1st
0
140
Featured
See All Featured
Adopting Sorbet at Scale
ufuk
76
9.3k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
5
550
Faster Mobile Websites
deanohume
306
31k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
The World Runs on Bad Software
bkeepers
PRO
67
11k
The Cult of Friendly URLs
andyhume
78
6.3k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
9
760
VelocityConf: Rendering Performance Case Studies
addyosmani
328
24k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
Transcript
データ科学入門 〜クラスター分析で、複数の属性をもつデータを分類してみよう 広島大学 情報メディア教育研究センター/情報科学部 隅谷孝洋 2023/11/01
‣ 広島大学 情報科学部 ‣ 2018年開設
1 ࣍ 2 ࣍ ϓϩάϥϜհ Program جૅཤमϞσϧ ࣍ʹͭͷϓϩάϥϜ͔ΒͭΛબ ࣍ʹͭͷϓϩάϥϜ͔ΒͭΛબ ࣍ʹ̏ͭͷཤमϞσϧ͔ΒͭΛબ
࣍ʹ̏ͭͷཤमϞσϧ͔ΒͭΛબ ใՊֶ෦Ͱɺ ྩ̐ೖֶੜΑΓɺ ैདྷͷ ڭҭ՝ఔͰ͋ΔϓϩάϥϜίʔε੍ ʢใՊֶ ϓϩάϥϜ ɿ σʔλαΠΤϯείʔεɺ ΠϯϑΥ ϚςΟ Ϋείʔεʣ ͔Βɺ ϓϩάϥϜ੍ ʢܭࢉػ ՊֶϓϩάϥϜɺ σʔλՊֶϓϩάϥϜɺ ೳՊֶ ϓϩάϥϜʣ ʹ࠶ฤ͠·ͨ͠ɻ ·ͨɺ ̏ཤमϞσϧ ʢجૅཤमϞσϧɺ ༥߹ཤमϞσϧɺ ࣮ફཤ मϞσϧʣ Λ৽ͨʹಋೖ͠·ͨ͠ɻ ࣍ʹͦΕͧΕͷϓϩάϥϜʹ͔Εɺ ࣍ ʹͭͷཤमϞσϧΛબ͠·͢ɻ ৽ͨͳཤम ϞσϧͷಋೖʹΑΓɺ ʮํੜʯ ʹࢿ͢Δਓࡐ ҭΛߦ͍ɺ ֶੜͷΩϟϦΞࢤʹԠͨ͡ΧϦ ΩϡϥϜฤΛ࣮ݱ͠·͢ɻ ϓϩάϥϜ ཤमϞσϧ ܭࢉػՊֶ ϓϩάϥϜ ຊϓϩάϥϜͰɺ ࣾձΛࢧ͑Δ*$5 ʢใ௨৴ٕज़ʣ ͷ ϋʔυΣΞ͔ΒιϑτΣΞɺ ωοτϫʔΫʹؔ͢Δجૅ͔ ΒԠ༻·Ͱମܥతʹֶͼ·͢ɻ ͜ΕʹΑΓɺ ͞·͟·ͳใ ॲཧγεςϜ ɾ ΞϓϦέʔγϣϯΛاըఏҊ ɾ ݚڀ։ൃ ɾ ҡ ࣋ӡ༻Ͱ͖Δٕज़ऀΛཆ͠·͢ɻ *$5Λཧղ͠ɺ ։ൃɾӡ༻Ͱ͖ΔೳྗΛशಘ ܭࢉػγεςϜ ௨৴γεςϜ ɾ Πϯλʔωο τ ใωο τ ϫʔΫηΩϡ Ϧς Ο ΞϧΰϦζϜ ɾ ܭࢉཧ ιϑ τ ΣΞ։ൃख๏ ฒྻࢄγεςϜ ɾ ߴੑೳܭࢉ Ϗοάσʔλॲཧ ɾ σʔλϕʔε ը૾ॲཧ ɾ ػցֶश Keyword ͜Μͳਓʹ͓͢͢Ί ৽ͳΞϓϦΛࣗͰ։ൃ͍ͨ͠ *P5ʹΑͬͯੜ׆Λͬͱศརʹ͍ͨ͠ ࣾձΠϯϑϥΛࢧ͑ΔγεςϜΛ։ൃ͍ͨ͠ Πϯλʔωοτͷར༻Λշదʹ͍ͨ͠ σʔλαΠΤϯεΠϯϑΥϚςΟ Ϋεɺ "*ʹ͓͚Δ෯ ͍ใՊֶʹؔ࿈͢ΔઐߨٛՊͷཤमΛ௨ͯ͡ɺ جૅ ͔ΒԠ༻ʹࢸΔ෯͍ࣝΛֶͼ·͢ɻ ݚڀʹର͢Δܭըੑ ɾ ੵۃੑ ɾ ڠಇੑ ɾ ܧଓੑʹؔ͢ΔೳྗΛ౷ ߹తʹߴΊΔ͜ͱͰɺ ৽ͨͳ՝ΛࣗΒൃݟ͠՝Λղܾ͢Δೳ ྗΛഓ͍·͢ɻ ࠷ऴֶͰɺ ݸผݚڀ՝Λઃఆ͠ɺ ୲ڭһ ͷࢦಋͷԼͰɺ ݚڀ ɾ ࣮ݧ ɾ ٞΛਐΊɺ ՌΛ·ͱΊͯଔۀ จͱ͠ ͯൃද͠·͢ɻ Moreabout 03 3 ࣍ 4 ࣍ ༥߹ཤमϞσϧ ࣮ફཤमϞσϧ σʔλՊֶ ϓϩάϥϜ ຊϓϩάϥϜͰɺ ίϯϐϡʔλใॲཧٕज़ΛֶΜͩ ্Ͱɺ ϏοάσʔλΛؚΉ͞ ·͟·ͳσʔλͷॲཧ ɾ ੳ ɾ ཧղ Λޮྑ͘ߦ͏ͨΊͷઐՊΛମܥతʹֶͼ·͢ɻ ͜Ε ʹΑΓɺ ଞͷԠ༻ੑ ɾ ༗༻ੑΛेʹཧղ͠ɺ ੳྗ ͷߴ͍ਓࡐΛཆ͠·͢ɻ σʔλੳͷج൫ͱ Ԡ༻ೳྗΛशಘ ཧ౷ܭ ܦࡁ౷ܭ όΠΦ౷ܭ ۚ༥ֶ ਓؒҩֶ ࣾձ৺ཧֶ Ϗοάσʔλ ใཧֶ ཧ࠷దԽ Keyword ͜Μͳਓʹ͓͢͢Ί σʔλαΠΤϯςΟετͯ͠׆༂͍ͨ͠ ࣏ྍ๏ༀͷ༗ޮੑΛධՁ͍ͨ͠ גՁ༧ଌ ɾ ੳΛߦ͍͍ͨ 4/4Λར༻ͨ͠ϚʔέςΟϯάΛߦ͍͍ͨ ೳՊֶ ϓϩάϥϜ ຊϓϩάϥϜͰɺ ਓೳػցֶशɺ *P5ͳͲʹؔ͢Δ ઐࣝΛجૅ͔ΒԠ༻·Ͱମܥతʹֶͼ·͢ɻ ͜ΕʹΑ Γɺ ೳՊֶͷ෯͍ࣝʹج͍ͮͨଟ֯తͳࢹͱੳ ख๏Λۦ͠ ͯ՝Λղܾ͢ΔೳྗΛʹ͚ٕͭͨज़ऀ ݚڀऀΛཆ͠·͢ɻ "*࣌ʹٻΊΒΕΔ ઐతͳೳྗΛशಘ ਓೳ ػցֶश ೳγεςϜ ೝՊֶ ύλʔϯೝࣝ ҩ༻ֶ ը૾ใॲཧ ֶशֶ 4/4ੳ Keyword ͜Μͳਓʹ͓͢͢Ί ਓೳΛຊ֨తʹֶͼ͍ͨ σΟʔϓϥʔχϯάΛ࣮͍ͨ͠ ը૾ೝࣝԻೝࣝͷݪཧΛΓ͍ͨ ͷΈΛ࠶ݱ͍ͨ͠ ใՊֶٕज़͕͋ΒΏΔֶྖҬʹ͓͍ͯඞཁͱ ͞Ε ͍ͯΔ͜ͱΛߟྀ͠ɺ ใՊֶͷֶతഎܠΛ࣋ͪͳ͕Βɺ *$5ʹݶΒͣ͞ · ͟·ͳͰ׆༂Ͱ͖ ΔೳྗΛ֫ಘ͠ ·͢ ɻ ຊֶͷଞֶ෦Ͱ։ߨ͞Ε͍ͯΔߨٛΛબඞमՊͱ͠ ͯཤम ͢Δ͜ͱ͕ՄೳͰ͋Γɺ ෯͍ࣝɺ ٕೳ͓ΑͼੳྗΛʹͭ ͚Δ͜ͱ͕Ͱ͖·͢ɻ ࠷ऴֶͰɺ ݸผݚڀ՝Λઃఆ͠ɺ ୲ ڭһͷࢦಋͷԼͰɺ ݚڀ ɾ ࣮ݧ ɾ ٞΛਐΊɺ ՌΛ·ͱΊͯ ଔۀจͱ͠ ͯൃද͠·͢ɻ Moreabout اۀͷظݣܦݧΛ௨ͯ͡ɺ େֶͰͷֶͼΛ࠶ߟ͢Δͱ ͱ ʹɺ ࢈ۀքͰٻΊΒΕ͍ͯΔࣝεΩϧΛֶͼ·͢ɻ ใՊֶ෦ڭһͱຽؒاۀɺ ࣏ࣗମʹΑΓݚڀ։ൃௐࠪʹର ͢Δ۩ମతͳܭըΛઃఆ͠ɺ ݚڀ ɾ ࣮ݧ ɾ ٞΛਐΊͳ͕Βݚڀ ඪΛୡ͢Δ͜ͱͰ৽͍͠ՃՁΛੜΉٕज़ͷ֫ಘΛΑΓ͔֬ ͳͷͱ͠·͢ɻ ଔۀจͷΘΓʹɺ ظϑ ΟʔϧυϫʔΫΛཤ म͠ɺ ֶ֎Ͱͷݚڀ։ൃϓϩδΣ Ϋτௐࠪϑ Ο ʔϧυϫʔΫʹࢀ Ճ͢Δ͜ͱͰɺ ࣮ફతͳ՝ղܾʹ׆༻͢ΔೳྗΛʹ͚ͭ·͢ɻ Moreabout 04
` 数理統計学のための確率論の基礎:事象の非独立性の視覚化 音楽的特徴量を用いたBillboardチャートイン予測 ロジスティックモデルとその拡張について Bradley-Terryモデルを用いたプロ野球の勝敗データの解析 我が国の喫煙状況を用いた肺がんマイクロシミュレーション SurvCARTアルゴリズムの概要と既存アルゴリズムとの比較 モランのI統計量のバウンズについて:パスグラフの場合を中心にして 投資環境に応じた最適ポートフォリオ選択 HPVワクチンの接種意図に両面呈示の呈示順序が及ぼす影響:直後効果と抵抗効果からの検討
フードファディズムを引き起こしにくい広告の検討:効果性の認識と企業への信頼の観点から Improvement of Neural Radiance Fields by Using Pixels Neighboring Relations 数の概念の追加学習による勾配加重クラス活性化マッピング (Grad-CAM)の妥当性の向上 グラフの辺の変動に頑健なグラフの識別のためのグラフニューラルネットワークの学習法 画像の変動に対する対象検出手法の頑健性の評価 カテゴリ特化型感情極性辞書を用いたカテゴリ評価値予測の改良 適応的支援を指向した三角ロジック組立演習の解答プロセスの分析 最適数値相関ルールを利用したSHAPの予測モデル解釈の補完 SHAPを用いたMLBの配球分析 属性情報を考慮したサプライチェーンネットワークの埋め込み表現学習 変分拡散モデルによる多変量時系列予測 分散・共分散正則化を用いたニューラルトピックモデルの自己教師あり学習 広島県の主要都市における人口変動分析 Normalizing Flowによる周辺尤度推定 気候と検索件数のデータに基づくガウス過程の説明変数選択を使用したCOVID-19要因推定 集団軌跡モデルとテロデータへの適用 ベーチェット病治療のメタアナリシス:古典的手法とベイズ手法の比較 日本におけるCOVID-19流行前後の生活満足度変化に関する考察 4
None
クラスター分析 6 変数 サンプル サンプル(もしくは変数)同士の距離を用いて, いくつかのクラスター(群)に分類する。
データを作ってみましょう 7 https://bit.ly/mihara-enq
人数分 変量(40コ)
2変数の例 9 身長 体重 身長 体重 身長 体重 このようなグループ分けを 合理的に行うにはどうすべきか
二つの手法 10 身長 体重 階層的クラスタリング 非階層的クラスタリング 二点間の距離が近いものをまとめていく まとめるのをやめた時点でクラスタ数が決まる 先にクラスタ数を決める その数に最も収まりが良いように点を分ける
階層的クラスタリング 11 A B C D E F 1 2
3 4 5 D E F C A B 1 2 3 4 5 6 デンドログラム (樹形図)
階層的クラスタリング/クラスターを併合する方法 ‣ 最短距離法 (single) ‣ 最長距離法 (complete) ‣ 群平均法 (average)
‣ 重心法 (centroid) ‣ メディアン法 (median) ‣ Ward法 (ward.D) 12
階層的クラスタリング/クラスターを併合する方法/Ward法 ‣ Ward法が性能が良いと言われており,よ く利用される ✓ L(X)を,クラスタXの重心からの距離の 平方和とした時,以下を最小にするよう なクラスタを併合する 13 d(Ci
, Cj ) = L(Ci ∪ Cj ) − {L(Ci ) + L(Cj )}
階層的クラスタリング/やってみよう ユークリッド距離+最長距離法 14 A B C D E F X
Y A 1 1 B 2 2 C 1 5 D 4 6 E 5 5 F 6 5
階層的クラスタリング/やってみよう ユークリッド距離+最長距離法 15 A B C D E F A
B C D E F A 0.0 1.4 4.0 5.8 5.7 6.4 B 1.4 0.0 3.2 4.5 4.2 5.0 C 4.0 3.2 0.0 3.2 4.0 5.0 D 5.8 4.5 3.2 0.0 1.4 2.2 E 5.7 4.2 4.0 1.4 0.0 1.0 F 6.4 5.0 5.0 2.2 1.0 0.0
Rでやってみる https://bit.ly/mihara-r
クラスター分析関係のコマンド (1) ‣ d=dist(data) ✓ 距離行列を計算。dataはmatrixでも dataframe でもどちらでも良い。 ‣ hc=hculst(d,method="手法")
✓ 階層的クラスター分析を実行 ✓ methodには,simple, complete, average, ward.D などが指定できる ‣ cn=cutree(hc,n) ✓ クラスタをn個にした時,サンプルに対応 するクラスタ番号のリストを取得 17
クラスター分析のサンプル (1) # 練習問題のデータを作成 sample = matrix(c(1,1, 2,2, 1,5, 4,6,
5,5, 6,5),byrow=T,ncol=2) rownames(sample) = c("A","B","C","D","E","F") colnames(sample) = c("X","Y") plot(sample) 18
クラスター分析のサンプル (2) # 距離行列の計算 sample_dist = dist(sample) # クラスタリング実行 sample_hc
= hclust ( sample_dist, method="complete") # デンドログラム描画 plot(sample_hc,hang=-1) # 各サンプルに対応するクラスタ番号を取得 sample_cn = cutree(sample_hc,2) # クラスタごとに色分けして散布図を描く plot(sample, pch=16, col=sample_cn) 19 1 2 3 4 5 6 7 8 既定の色番号
クラスター分析のサンプル (3) # 非階層的クラスター分析 (k-meansを実施) sample_nhc = kmeans( sample, 2
) # クラスタごとに色分けして散布図を描く plot(sample, pch=16, col=sample_nhc$cluster) 20