Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
三原高校模擬授業/2023-mihara-demo
Search
Takahiro Sumiya
October 31, 2023
Education
0
110
三原高校模擬授業/2023-mihara-demo
Takahiro Sumiya
October 31, 2023
Tweet
Share
More Decks by Takahiro Sumiya
See All by Takahiro Sumiya
GAI-FD2025
gnutar
0
48
卒論・修論執筆における生成AI 活用とAI 不安:広島大学での実態調査 (2)/CE180
gnutar
0
35
大学教育現場と著作権/DME-2025-06-04
gnutar
0
50
著作権と授業に関する出前講習会/dme-2025-05-01
gnutar
0
210
Excelグラフはどうしてダサいのか/csd2024-3-sumiya
gnutar
0
76
出前講習会-西海市教育委員会/DME-2025-02-10
gnutar
0
51
オンデマンド授業と著作権/dme-2024-12-17
gnutar
0
60
著作権に関する アンケート (2024) 結果報告/sugowaka-enq-2024
gnutar
0
82
出前講習会-東近江市教育委員会/DME-2024-11-22
gnutar
0
51
Other Decks in Education
See All in Education
令和政経義塾第2期説明会
nxji
0
130
理想の英語力に一直線!最高効率な英語学習のすゝめ
logica0419
6
310
Pythonパッケージ管理 [uv] 完全入門
mickey_kubo
21
18k
2025.05.10 技術書とVoicyとわたし #RPALT
kaitou
1
240
予習動画
takenawa
0
11k
JPCERTから始まる草の根活動~セキュリティ文化醸成のためのアクション~
masakiokuda
0
200
Course Review - Lecture 12 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.8k
Webリテラシー基礎
takenawa
0
11k
情報科学類で学べる専門科目38選
momeemt
0
380
推しのコミュニティはなんぼあってもいい / Let's join a lot of communities.
kaga
2
1.8k
計算情報学研究室 (数理情報学第7研究室)紹介スライド (2025)
tomonatu8
0
640
質のよいアウトプットをできるようになるために~「読む・聞く、まとめる、言葉にする」を読んで~
amarelo_n24
0
140
Featured
See All Featured
The World Runs on Bad Software
bkeepers
PRO
70
11k
Producing Creativity
orderedlist
PRO
346
40k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
110
19k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
A Tale of Four Properties
chriscoyier
160
23k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Testing 201, or: Great Expectations
jmmastey
44
7.6k
GraphQLとの向き合い方2022年版
quramy
49
14k
The Language of Interfaces
destraynor
158
25k
Designing Experiences People Love
moore
142
24k
Documentation Writing (for coders)
carmenintech
73
4.9k
Transcript
データ科学入門 〜クラスター分析で、複数の属性をもつデータを分類してみよう 広島大学 情報メディア教育研究センター/情報科学部 隅谷孝洋 2023/11/01
‣ 広島大学 情報科学部 ‣ 2018年開設
1 ࣍ 2 ࣍ ϓϩάϥϜհ Program جૅཤमϞσϧ ࣍ʹͭͷϓϩάϥϜ͔ΒͭΛબ ࣍ʹͭͷϓϩάϥϜ͔ΒͭΛબ ࣍ʹ̏ͭͷཤमϞσϧ͔ΒͭΛબ
࣍ʹ̏ͭͷཤमϞσϧ͔ΒͭΛબ ใՊֶ෦Ͱɺ ྩ̐ೖֶੜΑΓɺ ैདྷͷ ڭҭ՝ఔͰ͋ΔϓϩάϥϜίʔε੍ ʢใՊֶ ϓϩάϥϜ ɿ σʔλαΠΤϯείʔεɺ ΠϯϑΥ ϚςΟ Ϋείʔεʣ ͔Βɺ ϓϩάϥϜ੍ ʢܭࢉػ ՊֶϓϩάϥϜɺ σʔλՊֶϓϩάϥϜɺ ೳՊֶ ϓϩάϥϜʣ ʹ࠶ฤ͠·ͨ͠ɻ ·ͨɺ ̏ཤमϞσϧ ʢجૅཤमϞσϧɺ ༥߹ཤमϞσϧɺ ࣮ફཤ मϞσϧʣ Λ৽ͨʹಋೖ͠·ͨ͠ɻ ࣍ʹͦΕͧΕͷϓϩάϥϜʹ͔Εɺ ࣍ ʹͭͷཤमϞσϧΛબ͠·͢ɻ ৽ͨͳཤम ϞσϧͷಋೖʹΑΓɺ ʮํੜʯ ʹࢿ͢Δਓࡐ ҭΛߦ͍ɺ ֶੜͷΩϟϦΞࢤʹԠͨ͡ΧϦ ΩϡϥϜฤΛ࣮ݱ͠·͢ɻ ϓϩάϥϜ ཤमϞσϧ ܭࢉػՊֶ ϓϩάϥϜ ຊϓϩάϥϜͰɺ ࣾձΛࢧ͑Δ*$5 ʢใ௨৴ٕज़ʣ ͷ ϋʔυΣΞ͔ΒιϑτΣΞɺ ωοτϫʔΫʹؔ͢Δجૅ͔ ΒԠ༻·Ͱମܥతʹֶͼ·͢ɻ ͜ΕʹΑΓɺ ͞·͟·ͳใ ॲཧγεςϜ ɾ ΞϓϦέʔγϣϯΛاըఏҊ ɾ ݚڀ։ൃ ɾ ҡ ࣋ӡ༻Ͱ͖Δٕज़ऀΛཆ͠·͢ɻ *$5Λཧղ͠ɺ ։ൃɾӡ༻Ͱ͖ΔೳྗΛशಘ ܭࢉػγεςϜ ௨৴γεςϜ ɾ Πϯλʔωο τ ใωο τ ϫʔΫηΩϡ Ϧς Ο ΞϧΰϦζϜ ɾ ܭࢉཧ ιϑ τ ΣΞ։ൃख๏ ฒྻࢄγεςϜ ɾ ߴੑೳܭࢉ Ϗοάσʔλॲཧ ɾ σʔλϕʔε ը૾ॲཧ ɾ ػցֶश Keyword ͜Μͳਓʹ͓͢͢Ί ৽ͳΞϓϦΛࣗͰ։ൃ͍ͨ͠ *P5ʹΑͬͯੜ׆Λͬͱศརʹ͍ͨ͠ ࣾձΠϯϑϥΛࢧ͑ΔγεςϜΛ։ൃ͍ͨ͠ Πϯλʔωοτͷར༻Λշదʹ͍ͨ͠ σʔλαΠΤϯεΠϯϑΥϚςΟ Ϋεɺ "*ʹ͓͚Δ෯ ͍ใՊֶʹؔ࿈͢ΔઐߨٛՊͷཤमΛ௨ͯ͡ɺ جૅ ͔ΒԠ༻ʹࢸΔ෯͍ࣝΛֶͼ·͢ɻ ݚڀʹର͢Δܭըੑ ɾ ੵۃੑ ɾ ڠಇੑ ɾ ܧଓੑʹؔ͢ΔೳྗΛ౷ ߹తʹߴΊΔ͜ͱͰɺ ৽ͨͳ՝ΛࣗΒൃݟ͠՝Λղܾ͢Δೳ ྗΛഓ͍·͢ɻ ࠷ऴֶͰɺ ݸผݚڀ՝Λઃఆ͠ɺ ୲ڭһ ͷࢦಋͷԼͰɺ ݚڀ ɾ ࣮ݧ ɾ ٞΛਐΊɺ ՌΛ·ͱΊͯଔۀ จͱ͠ ͯൃද͠·͢ɻ Moreabout 03 3 ࣍ 4 ࣍ ༥߹ཤमϞσϧ ࣮ફཤमϞσϧ σʔλՊֶ ϓϩάϥϜ ຊϓϩάϥϜͰɺ ίϯϐϡʔλใॲཧٕज़ΛֶΜͩ ্Ͱɺ ϏοάσʔλΛؚΉ͞ ·͟·ͳσʔλͷॲཧ ɾ ੳ ɾ ཧղ Λޮྑ͘ߦ͏ͨΊͷઐՊΛମܥతʹֶͼ·͢ɻ ͜Ε ʹΑΓɺ ଞͷԠ༻ੑ ɾ ༗༻ੑΛेʹཧղ͠ɺ ੳྗ ͷߴ͍ਓࡐΛཆ͠·͢ɻ σʔλੳͷج൫ͱ Ԡ༻ೳྗΛशಘ ཧ౷ܭ ܦࡁ౷ܭ όΠΦ౷ܭ ۚ༥ֶ ਓؒҩֶ ࣾձ৺ཧֶ Ϗοάσʔλ ใཧֶ ཧ࠷దԽ Keyword ͜Μͳਓʹ͓͢͢Ί σʔλαΠΤϯςΟετͯ͠׆༂͍ͨ͠ ࣏ྍ๏ༀͷ༗ޮੑΛධՁ͍ͨ͠ גՁ༧ଌ ɾ ੳΛߦ͍͍ͨ 4/4Λར༻ͨ͠ϚʔέςΟϯάΛߦ͍͍ͨ ೳՊֶ ϓϩάϥϜ ຊϓϩάϥϜͰɺ ਓೳػցֶशɺ *P5ͳͲʹؔ͢Δ ઐࣝΛجૅ͔ΒԠ༻·Ͱମܥతʹֶͼ·͢ɻ ͜ΕʹΑ Γɺ ೳՊֶͷ෯͍ࣝʹج͍ͮͨଟ֯తͳࢹͱੳ ख๏Λۦ͠ ͯ՝Λղܾ͢ΔೳྗΛʹ͚ٕͭͨज़ऀ ݚڀऀΛཆ͠·͢ɻ "*࣌ʹٻΊΒΕΔ ઐతͳೳྗΛशಘ ਓೳ ػցֶश ೳγεςϜ ೝՊֶ ύλʔϯೝࣝ ҩ༻ֶ ը૾ใॲཧ ֶशֶ 4/4ੳ Keyword ͜Μͳਓʹ͓͢͢Ί ਓೳΛຊ֨తʹֶͼ͍ͨ σΟʔϓϥʔχϯάΛ࣮͍ͨ͠ ը૾ೝࣝԻೝࣝͷݪཧΛΓ͍ͨ ͷΈΛ࠶ݱ͍ͨ͠ ใՊֶٕज़͕͋ΒΏΔֶྖҬʹ͓͍ͯඞཁͱ ͞Ε ͍ͯΔ͜ͱΛߟྀ͠ɺ ใՊֶͷֶతഎܠΛ࣋ͪͳ͕Βɺ *$5ʹݶΒͣ͞ · ͟·ͳͰ׆༂Ͱ͖ ΔೳྗΛ֫ಘ͠ ·͢ ɻ ຊֶͷଞֶ෦Ͱ։ߨ͞Ε͍ͯΔߨٛΛબඞमՊͱ͠ ͯཤम ͢Δ͜ͱ͕ՄೳͰ͋Γɺ ෯͍ࣝɺ ٕೳ͓ΑͼੳྗΛʹͭ ͚Δ͜ͱ͕Ͱ͖·͢ɻ ࠷ऴֶͰɺ ݸผݚڀ՝Λઃఆ͠ɺ ୲ ڭһͷࢦಋͷԼͰɺ ݚڀ ɾ ࣮ݧ ɾ ٞΛਐΊɺ ՌΛ·ͱΊͯ ଔۀจͱ͠ ͯൃද͠·͢ɻ Moreabout اۀͷظݣܦݧΛ௨ͯ͡ɺ େֶͰͷֶͼΛ࠶ߟ͢Δͱ ͱ ʹɺ ࢈ۀքͰٻΊΒΕ͍ͯΔࣝεΩϧΛֶͼ·͢ɻ ใՊֶ෦ڭһͱຽؒاۀɺ ࣏ࣗମʹΑΓݚڀ։ൃௐࠪʹର ͢Δ۩ମతͳܭըΛઃఆ͠ɺ ݚڀ ɾ ࣮ݧ ɾ ٞΛਐΊͳ͕Βݚڀ ඪΛୡ͢Δ͜ͱͰ৽͍͠ՃՁΛੜΉٕज़ͷ֫ಘΛΑΓ͔֬ ͳͷͱ͠·͢ɻ ଔۀจͷΘΓʹɺ ظϑ ΟʔϧυϫʔΫΛཤ म͠ɺ ֶ֎Ͱͷݚڀ։ൃϓϩδΣ Ϋτௐࠪϑ Ο ʔϧυϫʔΫʹࢀ Ճ͢Δ͜ͱͰɺ ࣮ફతͳ՝ղܾʹ׆༻͢ΔೳྗΛʹ͚ͭ·͢ɻ Moreabout 04
` 数理統計学のための確率論の基礎:事象の非独立性の視覚化 音楽的特徴量を用いたBillboardチャートイン予測 ロジスティックモデルとその拡張について Bradley-Terryモデルを用いたプロ野球の勝敗データの解析 我が国の喫煙状況を用いた肺がんマイクロシミュレーション SurvCARTアルゴリズムの概要と既存アルゴリズムとの比較 モランのI統計量のバウンズについて:パスグラフの場合を中心にして 投資環境に応じた最適ポートフォリオ選択 HPVワクチンの接種意図に両面呈示の呈示順序が及ぼす影響:直後効果と抵抗効果からの検討
フードファディズムを引き起こしにくい広告の検討:効果性の認識と企業への信頼の観点から Improvement of Neural Radiance Fields by Using Pixels Neighboring Relations 数の概念の追加学習による勾配加重クラス活性化マッピング (Grad-CAM)の妥当性の向上 グラフの辺の変動に頑健なグラフの識別のためのグラフニューラルネットワークの学習法 画像の変動に対する対象検出手法の頑健性の評価 カテゴリ特化型感情極性辞書を用いたカテゴリ評価値予測の改良 適応的支援を指向した三角ロジック組立演習の解答プロセスの分析 最適数値相関ルールを利用したSHAPの予測モデル解釈の補完 SHAPを用いたMLBの配球分析 属性情報を考慮したサプライチェーンネットワークの埋め込み表現学習 変分拡散モデルによる多変量時系列予測 分散・共分散正則化を用いたニューラルトピックモデルの自己教師あり学習 広島県の主要都市における人口変動分析 Normalizing Flowによる周辺尤度推定 気候と検索件数のデータに基づくガウス過程の説明変数選択を使用したCOVID-19要因推定 集団軌跡モデルとテロデータへの適用 ベーチェット病治療のメタアナリシス:古典的手法とベイズ手法の比較 日本におけるCOVID-19流行前後の生活満足度変化に関する考察 4
None
クラスター分析 6 変数 サンプル サンプル(もしくは変数)同士の距離を用いて, いくつかのクラスター(群)に分類する。
データを作ってみましょう 7 https://bit.ly/mihara-enq
人数分 変量(40コ)
2変数の例 9 身長 体重 身長 体重 身長 体重 このようなグループ分けを 合理的に行うにはどうすべきか
二つの手法 10 身長 体重 階層的クラスタリング 非階層的クラスタリング 二点間の距離が近いものをまとめていく まとめるのをやめた時点でクラスタ数が決まる 先にクラスタ数を決める その数に最も収まりが良いように点を分ける
階層的クラスタリング 11 A B C D E F 1 2
3 4 5 D E F C A B 1 2 3 4 5 6 デンドログラム (樹形図)
階層的クラスタリング/クラスターを併合する方法 ‣ 最短距離法 (single) ‣ 最長距離法 (complete) ‣ 群平均法 (average)
‣ 重心法 (centroid) ‣ メディアン法 (median) ‣ Ward法 (ward.D) 12
階層的クラスタリング/クラスターを併合する方法/Ward法 ‣ Ward法が性能が良いと言われており,よ く利用される ✓ L(X)を,クラスタXの重心からの距離の 平方和とした時,以下を最小にするよう なクラスタを併合する 13 d(Ci
, Cj ) = L(Ci ∪ Cj ) − {L(Ci ) + L(Cj )}
階層的クラスタリング/やってみよう ユークリッド距離+最長距離法 14 A B C D E F X
Y A 1 1 B 2 2 C 1 5 D 4 6 E 5 5 F 6 5
階層的クラスタリング/やってみよう ユークリッド距離+最長距離法 15 A B C D E F A
B C D E F A 0.0 1.4 4.0 5.8 5.7 6.4 B 1.4 0.0 3.2 4.5 4.2 5.0 C 4.0 3.2 0.0 3.2 4.0 5.0 D 5.8 4.5 3.2 0.0 1.4 2.2 E 5.7 4.2 4.0 1.4 0.0 1.0 F 6.4 5.0 5.0 2.2 1.0 0.0
Rでやってみる https://bit.ly/mihara-r
クラスター分析関係のコマンド (1) ‣ d=dist(data) ✓ 距離行列を計算。dataはmatrixでも dataframe でもどちらでも良い。 ‣ hc=hculst(d,method="手法")
✓ 階層的クラスター分析を実行 ✓ methodには,simple, complete, average, ward.D などが指定できる ‣ cn=cutree(hc,n) ✓ クラスタをn個にした時,サンプルに対応 するクラスタ番号のリストを取得 17
クラスター分析のサンプル (1) # 練習問題のデータを作成 sample = matrix(c(1,1, 2,2, 1,5, 4,6,
5,5, 6,5),byrow=T,ncol=2) rownames(sample) = c("A","B","C","D","E","F") colnames(sample) = c("X","Y") plot(sample) 18
クラスター分析のサンプル (2) # 距離行列の計算 sample_dist = dist(sample) # クラスタリング実行 sample_hc
= hclust ( sample_dist, method="complete") # デンドログラム描画 plot(sample_hc,hang=-1) # 各サンプルに対応するクラスタ番号を取得 sample_cn = cutree(sample_hc,2) # クラスタごとに色分けして散布図を描く plot(sample, pch=16, col=sample_cn) 19 1 2 3 4 5 6 7 8 既定の色番号
クラスター分析のサンプル (3) # 非階層的クラスター分析 (k-meansを実施) sample_nhc = kmeans( sample, 2
) # クラスタごとに色分けして散布図を描く plot(sample, pch=16, col=sample_nhc$cluster) 20