Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
三原高校模擬授業/2023-mihara-demo
Search
Takahiro Sumiya
October 31, 2023
Education
0
110
三原高校模擬授業/2023-mihara-demo
Takahiro Sumiya
October 31, 2023
Tweet
Share
More Decks by Takahiro Sumiya
See All by Takahiro Sumiya
卒論・修論執筆における生成AI 活用とAI 不安:広島大学での実態調査 (2)/CE180
gnutar
0
33
大学教育現場と著作権/DME-2025-06-04
gnutar
0
45
著作権と授業に関する出前講習会/dme-2025-05-01
gnutar
0
200
Excelグラフはどうしてダサいのか/csd2024-3-sumiya
gnutar
0
72
出前講習会-西海市教育委員会/DME-2025-02-10
gnutar
0
48
オンデマンド授業と著作権/dme-2024-12-17
gnutar
0
56
著作権に関する アンケート (2024) 結果報告/sugowaka-enq-2024
gnutar
0
81
出前講習会-東近江市教育委員会/DME-2024-11-22
gnutar
0
45
卒論・修論執筆における生成AI 活用とAI 不安:広島大学での実態調査/CE176
gnutar
0
170
Other Decks in Education
See All in Education
ARアプリを活用した防災まち歩きデータ作成ハンズオン
nro2daisuke
0
120
Gaps in Therapy in IBD - IBDInnovate 2025 CCF
higgi13425
0
500
自己紹介 / who-am-i
yasulab
PRO
3
5.2k
(キラキラ)人事教育担当のつらみ~教育担当として知っておくポイント~
masakiokuda
0
110
OpenRobomaster 中国のロボットコンテスト 日本連携の可能性
takasumasakazu
0
460
モンテカルロ法(3) 発展的アルゴリズム / Simulation 04
kaityo256
PRO
7
1.3k
Info Session MSc Computer Science & MSc Applied Informatics
signer
PRO
0
190
令和政経義塾第2期説明会
nxji
0
110
Implicit and Cross-Device Interaction - Lecture 10 - Next Generation User Interfaces (4018166FNR)
signer
PRO
2
1.7k
生成AIとの上手な付き合い方【公開版】/ How to Get Along Well with Generative AI (Public Version)
handlename
0
510
SkimaTalk Tutorial for Corporate Customers
skimatalk
0
290
IMU-00 Pi
kanaya
0
370
Featured
See All Featured
Making the Leap to Tech Lead
cromwellryan
134
9.4k
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.8k
The Cost Of JavaScript in 2023
addyosmani
51
8.5k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Scaling GitHub
holman
460
140k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
Visualization
eitanlees
146
16k
Building an army of robots
kneath
306
45k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
60k
Why You Should Never Use an ORM
jnunemaker
PRO
58
9.4k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Transcript
データ科学入門 〜クラスター分析で、複数の属性をもつデータを分類してみよう 広島大学 情報メディア教育研究センター/情報科学部 隅谷孝洋 2023/11/01
‣ 広島大学 情報科学部 ‣ 2018年開設
1 ࣍ 2 ࣍ ϓϩάϥϜհ Program جૅཤमϞσϧ ࣍ʹͭͷϓϩάϥϜ͔ΒͭΛબ ࣍ʹͭͷϓϩάϥϜ͔ΒͭΛબ ࣍ʹ̏ͭͷཤमϞσϧ͔ΒͭΛબ
࣍ʹ̏ͭͷཤमϞσϧ͔ΒͭΛબ ใՊֶ෦Ͱɺ ྩ̐ೖֶੜΑΓɺ ैདྷͷ ڭҭ՝ఔͰ͋ΔϓϩάϥϜίʔε੍ ʢใՊֶ ϓϩάϥϜ ɿ σʔλαΠΤϯείʔεɺ ΠϯϑΥ ϚςΟ Ϋείʔεʣ ͔Βɺ ϓϩάϥϜ੍ ʢܭࢉػ ՊֶϓϩάϥϜɺ σʔλՊֶϓϩάϥϜɺ ೳՊֶ ϓϩάϥϜʣ ʹ࠶ฤ͠·ͨ͠ɻ ·ͨɺ ̏ཤमϞσϧ ʢجૅཤमϞσϧɺ ༥߹ཤमϞσϧɺ ࣮ફཤ मϞσϧʣ Λ৽ͨʹಋೖ͠·ͨ͠ɻ ࣍ʹͦΕͧΕͷϓϩάϥϜʹ͔Εɺ ࣍ ʹͭͷཤमϞσϧΛબ͠·͢ɻ ৽ͨͳཤम ϞσϧͷಋೖʹΑΓɺ ʮํੜʯ ʹࢿ͢Δਓࡐ ҭΛߦ͍ɺ ֶੜͷΩϟϦΞࢤʹԠͨ͡ΧϦ ΩϡϥϜฤΛ࣮ݱ͠·͢ɻ ϓϩάϥϜ ཤमϞσϧ ܭࢉػՊֶ ϓϩάϥϜ ຊϓϩάϥϜͰɺ ࣾձΛࢧ͑Δ*$5 ʢใ௨৴ٕज़ʣ ͷ ϋʔυΣΞ͔ΒιϑτΣΞɺ ωοτϫʔΫʹؔ͢Δجૅ͔ ΒԠ༻·Ͱମܥతʹֶͼ·͢ɻ ͜ΕʹΑΓɺ ͞·͟·ͳใ ॲཧγεςϜ ɾ ΞϓϦέʔγϣϯΛاըఏҊ ɾ ݚڀ։ൃ ɾ ҡ ࣋ӡ༻Ͱ͖Δٕज़ऀΛཆ͠·͢ɻ *$5Λཧղ͠ɺ ։ൃɾӡ༻Ͱ͖ΔೳྗΛशಘ ܭࢉػγεςϜ ௨৴γεςϜ ɾ Πϯλʔωο τ ใωο τ ϫʔΫηΩϡ Ϧς Ο ΞϧΰϦζϜ ɾ ܭࢉཧ ιϑ τ ΣΞ։ൃख๏ ฒྻࢄγεςϜ ɾ ߴੑೳܭࢉ Ϗοάσʔλॲཧ ɾ σʔλϕʔε ը૾ॲཧ ɾ ػցֶश Keyword ͜Μͳਓʹ͓͢͢Ί ৽ͳΞϓϦΛࣗͰ։ൃ͍ͨ͠ *P5ʹΑͬͯੜ׆Λͬͱศརʹ͍ͨ͠ ࣾձΠϯϑϥΛࢧ͑ΔγεςϜΛ։ൃ͍ͨ͠ Πϯλʔωοτͷར༻Λշదʹ͍ͨ͠ σʔλαΠΤϯεΠϯϑΥϚςΟ Ϋεɺ "*ʹ͓͚Δ෯ ͍ใՊֶʹؔ࿈͢ΔઐߨٛՊͷཤमΛ௨ͯ͡ɺ جૅ ͔ΒԠ༻ʹࢸΔ෯͍ࣝΛֶͼ·͢ɻ ݚڀʹର͢Δܭըੑ ɾ ੵۃੑ ɾ ڠಇੑ ɾ ܧଓੑʹؔ͢ΔೳྗΛ౷ ߹తʹߴΊΔ͜ͱͰɺ ৽ͨͳ՝ΛࣗΒൃݟ͠՝Λղܾ͢Δೳ ྗΛഓ͍·͢ɻ ࠷ऴֶͰɺ ݸผݚڀ՝Λઃఆ͠ɺ ୲ڭһ ͷࢦಋͷԼͰɺ ݚڀ ɾ ࣮ݧ ɾ ٞΛਐΊɺ ՌΛ·ͱΊͯଔۀ จͱ͠ ͯൃද͠·͢ɻ Moreabout 03 3 ࣍ 4 ࣍ ༥߹ཤमϞσϧ ࣮ફཤमϞσϧ σʔλՊֶ ϓϩάϥϜ ຊϓϩάϥϜͰɺ ίϯϐϡʔλใॲཧٕज़ΛֶΜͩ ্Ͱɺ ϏοάσʔλΛؚΉ͞ ·͟·ͳσʔλͷॲཧ ɾ ੳ ɾ ཧղ Λޮྑ͘ߦ͏ͨΊͷઐՊΛମܥతʹֶͼ·͢ɻ ͜Ε ʹΑΓɺ ଞͷԠ༻ੑ ɾ ༗༻ੑΛेʹཧղ͠ɺ ੳྗ ͷߴ͍ਓࡐΛཆ͠·͢ɻ σʔλੳͷج൫ͱ Ԡ༻ೳྗΛशಘ ཧ౷ܭ ܦࡁ౷ܭ όΠΦ౷ܭ ۚ༥ֶ ਓؒҩֶ ࣾձ৺ཧֶ Ϗοάσʔλ ใཧֶ ཧ࠷దԽ Keyword ͜Μͳਓʹ͓͢͢Ί σʔλαΠΤϯςΟετͯ͠׆༂͍ͨ͠ ࣏ྍ๏ༀͷ༗ޮੑΛධՁ͍ͨ͠ גՁ༧ଌ ɾ ੳΛߦ͍͍ͨ 4/4Λར༻ͨ͠ϚʔέςΟϯάΛߦ͍͍ͨ ೳՊֶ ϓϩάϥϜ ຊϓϩάϥϜͰɺ ਓೳػցֶशɺ *P5ͳͲʹؔ͢Δ ઐࣝΛجૅ͔ΒԠ༻·Ͱମܥతʹֶͼ·͢ɻ ͜ΕʹΑ Γɺ ೳՊֶͷ෯͍ࣝʹج͍ͮͨଟ֯తͳࢹͱੳ ख๏Λۦ͠ ͯ՝Λղܾ͢ΔೳྗΛʹ͚ٕͭͨज़ऀ ݚڀऀΛཆ͠·͢ɻ "*࣌ʹٻΊΒΕΔ ઐతͳೳྗΛशಘ ਓೳ ػցֶश ೳγεςϜ ೝՊֶ ύλʔϯೝࣝ ҩ༻ֶ ը૾ใॲཧ ֶशֶ 4/4ੳ Keyword ͜Μͳਓʹ͓͢͢Ί ਓೳΛຊ֨తʹֶͼ͍ͨ σΟʔϓϥʔχϯάΛ࣮͍ͨ͠ ը૾ೝࣝԻೝࣝͷݪཧΛΓ͍ͨ ͷΈΛ࠶ݱ͍ͨ͠ ใՊֶٕज़͕͋ΒΏΔֶྖҬʹ͓͍ͯඞཁͱ ͞Ε ͍ͯΔ͜ͱΛߟྀ͠ɺ ใՊֶͷֶతഎܠΛ࣋ͪͳ͕Βɺ *$5ʹݶΒͣ͞ · ͟·ͳͰ׆༂Ͱ͖ ΔೳྗΛ֫ಘ͠ ·͢ ɻ ຊֶͷଞֶ෦Ͱ։ߨ͞Ε͍ͯΔߨٛΛબඞमՊͱ͠ ͯཤम ͢Δ͜ͱ͕ՄೳͰ͋Γɺ ෯͍ࣝɺ ٕೳ͓ΑͼੳྗΛʹͭ ͚Δ͜ͱ͕Ͱ͖·͢ɻ ࠷ऴֶͰɺ ݸผݚڀ՝Λઃఆ͠ɺ ୲ ڭһͷࢦಋͷԼͰɺ ݚڀ ɾ ࣮ݧ ɾ ٞΛਐΊɺ ՌΛ·ͱΊͯ ଔۀจͱ͠ ͯൃද͠·͢ɻ Moreabout اۀͷظݣܦݧΛ௨ͯ͡ɺ େֶͰͷֶͼΛ࠶ߟ͢Δͱ ͱ ʹɺ ࢈ۀքͰٻΊΒΕ͍ͯΔࣝεΩϧΛֶͼ·͢ɻ ใՊֶ෦ڭһͱຽؒاۀɺ ࣏ࣗମʹΑΓݚڀ։ൃௐࠪʹର ͢Δ۩ମతͳܭըΛઃఆ͠ɺ ݚڀ ɾ ࣮ݧ ɾ ٞΛਐΊͳ͕Βݚڀ ඪΛୡ͢Δ͜ͱͰ৽͍͠ՃՁΛੜΉٕज़ͷ֫ಘΛΑΓ͔֬ ͳͷͱ͠·͢ɻ ଔۀจͷΘΓʹɺ ظϑ ΟʔϧυϫʔΫΛཤ म͠ɺ ֶ֎Ͱͷݚڀ։ൃϓϩδΣ Ϋτௐࠪϑ Ο ʔϧυϫʔΫʹࢀ Ճ͢Δ͜ͱͰɺ ࣮ફతͳ՝ղܾʹ׆༻͢ΔೳྗΛʹ͚ͭ·͢ɻ Moreabout 04
` 数理統計学のための確率論の基礎:事象の非独立性の視覚化 音楽的特徴量を用いたBillboardチャートイン予測 ロジスティックモデルとその拡張について Bradley-Terryモデルを用いたプロ野球の勝敗データの解析 我が国の喫煙状況を用いた肺がんマイクロシミュレーション SurvCARTアルゴリズムの概要と既存アルゴリズムとの比較 モランのI統計量のバウンズについて:パスグラフの場合を中心にして 投資環境に応じた最適ポートフォリオ選択 HPVワクチンの接種意図に両面呈示の呈示順序が及ぼす影響:直後効果と抵抗効果からの検討
フードファディズムを引き起こしにくい広告の検討:効果性の認識と企業への信頼の観点から Improvement of Neural Radiance Fields by Using Pixels Neighboring Relations 数の概念の追加学習による勾配加重クラス活性化マッピング (Grad-CAM)の妥当性の向上 グラフの辺の変動に頑健なグラフの識別のためのグラフニューラルネットワークの学習法 画像の変動に対する対象検出手法の頑健性の評価 カテゴリ特化型感情極性辞書を用いたカテゴリ評価値予測の改良 適応的支援を指向した三角ロジック組立演習の解答プロセスの分析 最適数値相関ルールを利用したSHAPの予測モデル解釈の補完 SHAPを用いたMLBの配球分析 属性情報を考慮したサプライチェーンネットワークの埋め込み表現学習 変分拡散モデルによる多変量時系列予測 分散・共分散正則化を用いたニューラルトピックモデルの自己教師あり学習 広島県の主要都市における人口変動分析 Normalizing Flowによる周辺尤度推定 気候と検索件数のデータに基づくガウス過程の説明変数選択を使用したCOVID-19要因推定 集団軌跡モデルとテロデータへの適用 ベーチェット病治療のメタアナリシス:古典的手法とベイズ手法の比較 日本におけるCOVID-19流行前後の生活満足度変化に関する考察 4
None
クラスター分析 6 変数 サンプル サンプル(もしくは変数)同士の距離を用いて, いくつかのクラスター(群)に分類する。
データを作ってみましょう 7 https://bit.ly/mihara-enq
人数分 変量(40コ)
2変数の例 9 身長 体重 身長 体重 身長 体重 このようなグループ分けを 合理的に行うにはどうすべきか
二つの手法 10 身長 体重 階層的クラスタリング 非階層的クラスタリング 二点間の距離が近いものをまとめていく まとめるのをやめた時点でクラスタ数が決まる 先にクラスタ数を決める その数に最も収まりが良いように点を分ける
階層的クラスタリング 11 A B C D E F 1 2
3 4 5 D E F C A B 1 2 3 4 5 6 デンドログラム (樹形図)
階層的クラスタリング/クラスターを併合する方法 ‣ 最短距離法 (single) ‣ 最長距離法 (complete) ‣ 群平均法 (average)
‣ 重心法 (centroid) ‣ メディアン法 (median) ‣ Ward法 (ward.D) 12
階層的クラスタリング/クラスターを併合する方法/Ward法 ‣ Ward法が性能が良いと言われており,よ く利用される ✓ L(X)を,クラスタXの重心からの距離の 平方和とした時,以下を最小にするよう なクラスタを併合する 13 d(Ci
, Cj ) = L(Ci ∪ Cj ) − {L(Ci ) + L(Cj )}
階層的クラスタリング/やってみよう ユークリッド距離+最長距離法 14 A B C D E F X
Y A 1 1 B 2 2 C 1 5 D 4 6 E 5 5 F 6 5
階層的クラスタリング/やってみよう ユークリッド距離+最長距離法 15 A B C D E F A
B C D E F A 0.0 1.4 4.0 5.8 5.7 6.4 B 1.4 0.0 3.2 4.5 4.2 5.0 C 4.0 3.2 0.0 3.2 4.0 5.0 D 5.8 4.5 3.2 0.0 1.4 2.2 E 5.7 4.2 4.0 1.4 0.0 1.0 F 6.4 5.0 5.0 2.2 1.0 0.0
Rでやってみる https://bit.ly/mihara-r
クラスター分析関係のコマンド (1) ‣ d=dist(data) ✓ 距離行列を計算。dataはmatrixでも dataframe でもどちらでも良い。 ‣ hc=hculst(d,method="手法")
✓ 階層的クラスター分析を実行 ✓ methodには,simple, complete, average, ward.D などが指定できる ‣ cn=cutree(hc,n) ✓ クラスタをn個にした時,サンプルに対応 するクラスタ番号のリストを取得 17
クラスター分析のサンプル (1) # 練習問題のデータを作成 sample = matrix(c(1,1, 2,2, 1,5, 4,6,
5,5, 6,5),byrow=T,ncol=2) rownames(sample) = c("A","B","C","D","E","F") colnames(sample) = c("X","Y") plot(sample) 18
クラスター分析のサンプル (2) # 距離行列の計算 sample_dist = dist(sample) # クラスタリング実行 sample_hc
= hclust ( sample_dist, method="complete") # デンドログラム描画 plot(sample_hc,hang=-1) # 各サンプルに対応するクラスタ番号を取得 sample_cn = cutree(sample_hc,2) # クラスタごとに色分けして散布図を描く plot(sample, pch=16, col=sample_cn) 19 1 2 3 4 5 6 7 8 既定の色番号
クラスター分析のサンプル (3) # 非階層的クラスター分析 (k-meansを実施) sample_nhc = kmeans( sample, 2
) # クラスタごとに色分けして散布図を描く plot(sample, pch=16, col=sample_nhc$cluster) 20