Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
階層、非階層クラスタリング
Search
Ringa_hyj
January 06, 2021
Science
0
130
階層、非階層クラスタリング
Ringa_hyj
January 06, 2021
Tweet
Share
More Decks by Ringa_hyj
See All by Ringa_hyj
DVCによるデータバージョン管理
ringa_hyj
0
170
deeplakeによる大規模データのバージョン管理と深層学習フレームワークとの接続
ringa_hyj
0
79
Hydraを使った設定ファイル管理とoptunaプラグインでのパラメータ探索
ringa_hyj
0
140
ClearMLで行うAIプロジェクトの管理(レポート,最適化,再現,デプロイ,オーケストレーション)
ringa_hyj
0
140
Catching up with the tidymodels.[Japan.R 2021 LT]
ringa_hyj
3
850
多次元尺度法MDS
ringa_hyj
0
310
因子分析(仮)
ringa_hyj
0
160
tidymodels紹介「モデリング過程料理で表現できる説」
ringa_hyj
0
450
深層学習をつかった画像スタイル変換の話と今までの歴史
ringa_hyj
0
440
Other Decks in Science
See All in Science
論文紹介 音源分離:SCNET SPARSE COMPRESSION NETWORK FOR MUSIC SOURCE SEPARATION
kenmatsu4
0
390
安心・効率的な医療現場の実現へ ~オンプレAI & ノーコードワークフローで進める業務改革~
siyoo
0
400
MCMCのR-hatは分散分析である
moricup
0
500
KH Coderチュートリアル(スライド版)
koichih
1
52k
【論文紹介】Is CLIP ideal? No. Can we fix it?Yes! 第65回 コンピュータビジョン勉強会@関東
shun6211
5
1.6k
Lean4による汎化誤差評価の形式化
milano0017
1
370
白金鉱業Vol.21【初学者向け発表枠】身近な例から学ぶ数理最適化の基礎 / Learning the Basics of Mathematical Optimization Through Everyday Examples
brainpadpr
1
230
People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text
rudorudo11
0
140
主成分分析に基づく教師なし特徴抽出法を用いたコラーゲン-グリコサミノグリカンメッシュの遺伝子発現への影響
tagtag
0
110
Celebrate UTIG: Staff and Student Awards 2025
utig
0
340
LayerXにおける業務の完全自動運転化に向けたAI技術活用事例 / layerx-ai-jsai2025
shimacos
2
19k
タンパク質間相互作⽤を利⽤した⼈⼯知能による新しい薬剤遺伝⼦-疾患相互作⽤の同定
tagtag
0
110
Featured
See All Featured
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
2.9k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.2k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
For a Future-Friendly Web
brad_frost
180
10k
Making Projects Easy
brettharned
120
6.5k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Fireside Chat
paigeccino
41
3.7k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
11
940
Mobile First: as difficult as doing things right
swwweet
225
10k
Thoughts on Productivity
jonyablonski
73
4.9k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Transcript
クラスター分析、クラスタリング、数値分類(toxonomy) 外的基準の無い状態でデータを集合にする手法 n個体をk群に分ける組み合わせの「総数」は 「第二スターリング数」で計算できる ※二項係数とよく似ているため、nCkになぞらえてnSkとあらわされる。 ※パスカルの三角形とも似ているが、単純に数列として求まるものではない。 , = 1 !
=0 −1 1 −
階層的手法 距離、類似度といった評価値から、近いものを順にまとめていく 凝集型階層的分類法とよばれたりする あと分枝型とか。 例:最近傍,最遠法、重心法、メディアン、加重平均、可変法、ウォード法 重心法: データ点ごとのユークリッド距離を計算 一番近い二点の重心(平均)をもとめ、二点を一点に置き換える。 これを繰り返す。 どのデータを結合したとき、重心がいくつであったか?を樹状にplotする←デンドログラム
樹状のなかでどの枝で切るか(クラスタをいくつにするか)を決める ※ユークリッドの他にメディアンなどを使ってもいいが、その場合「距離の逆転」が起こる
非階層的手法 階層以外の手法たち 例:k平均、ファジィc平均,ISODATA法 など 確率分布をクラスタと考えるので、混合分布ガウスモデルもこちらの分類 ヒストグラムで2分割: テストの点数を上位と下位に分けるとする。 まず並べる ヒストグラムを書いて谷で縦に切り2クラスに分ける (群間分散と郡内分散の比の最大化を目指す
群内/群間 の比が最大になるときが、最も谷が深い地点) k平均: データに適当にクラスを割り振る クラス内の平均を計算し、これに近いものを順にラベルつけなおしする また平均、収束するまで繰り返し ※初期値に依存、外れ値に弱い、シングルトン(ひとつだけのクラス)ができる
混合正規分布モデル いくつかの正規分布が背景に存在すると考え、 データから最尤法によってどの正規分布に属しているかを分ける EM法によって求めるが、長くなるので別記する(つもり) クラス数(いくつの正規分布が潜んでいるか)はクラスタリングあるあるだが、 AICによって決めたり、経験だったり
クラスタリングでの距離の公理 dij が0以上である dii=0 同じ点の距離は0 dij=dji 距離は方向で変化しない dij <= dik
+ djk 三角不等式が成り立つ ここまでを「計量的な距離」の公理 dij <= max(dik,djk) 超距離不等式が成り立つ これを加えると「超計量な距離」の公理 別称:ウルトラメトリック これを満たさないものを 非計量的な距離 とよぶ
距離の測り方 絶対距離、チェビシェフ、ユークリッド、平均ユークリッド、ミンコフスキー 類似度の測り方 相関係数、余弦係数 質的データは距離は考えられない。 対応分析の数量化得点を使って無理やり数値にしてから扱う場合は時々ある
あ