Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
階層、非階層クラスタリング
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Ringa_hyj
January 06, 2021
Science
0
140
階層、非階層クラスタリング
Ringa_hyj
January 06, 2021
Tweet
Share
More Decks by Ringa_hyj
See All by Ringa_hyj
DVCによるデータバージョン管理
ringa_hyj
0
220
deeplakeによる大規模データのバージョン管理と深層学習フレームワークとの接続
ringa_hyj
0
89
Hydraを使った設定ファイル管理とoptunaプラグインでのパラメータ探索
ringa_hyj
0
180
ClearMLで行うAIプロジェクトの管理(レポート,最適化,再現,デプロイ,オーケストレーション)
ringa_hyj
0
170
Catching up with the tidymodels.[Japan.R 2021 LT]
ringa_hyj
3
860
多次元尺度法MDS
ringa_hyj
0
320
因子分析(仮)
ringa_hyj
0
170
tidymodels紹介「モデリング過程料理で表現できる説」
ringa_hyj
0
540
深層学習をつかった画像スタイル変換の話と今までの歴史
ringa_hyj
0
460
Other Decks in Science
See All in Science
Kaggle: NeurIPS - Open Polymer Prediction 2025 コンペ 反省会
calpis10000
0
350
AIに仕事を奪われる 最初の医師たちへ
ikora128
0
1k
安心・効率的な医療現場の実現へ ~オンプレAI & ノーコードワークフローで進める業務改革~
siyoo
0
440
ド文系だった私が、 KaggleのNCAAコンペでソロ金取れるまで
wakamatsu_takumu
2
1.9k
Cross-Media Technologies, Information Science and Human-Information Interaction
signer
PRO
3
32k
白金鉱業Meetup_Vol.20 効果検証ことはじめ / Introduction to Impact Evaluation
brainpadpr
2
1.6k
検索と推論タスクに関する論文の紹介
ynakano
1
140
データマイニング - グラフ埋め込み入門
trycycle
PRO
1
150
データベース12: 正規化(2/2) - データ従属性に基づく正規化
trycycle
PRO
0
1.1k
NASの容量不足のお悩み解決!災害対策も兼ねた「Wasabi Cloud NAS」はここがスゴイ
climbteam
1
320
機械学習 - K-means & 階層的クラスタリング
trycycle
PRO
0
1.2k
People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text
rudorudo11
0
180
Featured
See All Featured
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
86
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
1
1.4k
Google's AI Overviews - The New Search
badams
0
890
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
0
160
How to Think Like a Performance Engineer
csswizardry
28
2.4k
Between Models and Reality
mayunak
1
170
Reality Check: Gamification 10 Years Later
codingconduct
0
2k
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
1.8k
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
Designing for Performance
lara
610
70k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
34k
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
0
300
Transcript
クラスター分析、クラスタリング、数値分類(toxonomy) 外的基準の無い状態でデータを集合にする手法 n個体をk群に分ける組み合わせの「総数」は 「第二スターリング数」で計算できる ※二項係数とよく似ているため、nCkになぞらえてnSkとあらわされる。 ※パスカルの三角形とも似ているが、単純に数列として求まるものではない。 , = 1 !
=0 −1 1 −
階層的手法 距離、類似度といった評価値から、近いものを順にまとめていく 凝集型階層的分類法とよばれたりする あと分枝型とか。 例:最近傍,最遠法、重心法、メディアン、加重平均、可変法、ウォード法 重心法: データ点ごとのユークリッド距離を計算 一番近い二点の重心(平均)をもとめ、二点を一点に置き換える。 これを繰り返す。 どのデータを結合したとき、重心がいくつであったか?を樹状にplotする←デンドログラム
樹状のなかでどの枝で切るか(クラスタをいくつにするか)を決める ※ユークリッドの他にメディアンなどを使ってもいいが、その場合「距離の逆転」が起こる
非階層的手法 階層以外の手法たち 例:k平均、ファジィc平均,ISODATA法 など 確率分布をクラスタと考えるので、混合分布ガウスモデルもこちらの分類 ヒストグラムで2分割: テストの点数を上位と下位に分けるとする。 まず並べる ヒストグラムを書いて谷で縦に切り2クラスに分ける (群間分散と郡内分散の比の最大化を目指す
群内/群間 の比が最大になるときが、最も谷が深い地点) k平均: データに適当にクラスを割り振る クラス内の平均を計算し、これに近いものを順にラベルつけなおしする また平均、収束するまで繰り返し ※初期値に依存、外れ値に弱い、シングルトン(ひとつだけのクラス)ができる
混合正規分布モデル いくつかの正規分布が背景に存在すると考え、 データから最尤法によってどの正規分布に属しているかを分ける EM法によって求めるが、長くなるので別記する(つもり) クラス数(いくつの正規分布が潜んでいるか)はクラスタリングあるあるだが、 AICによって決めたり、経験だったり
クラスタリングでの距離の公理 dij が0以上である dii=0 同じ点の距離は0 dij=dji 距離は方向で変化しない dij <= dik
+ djk 三角不等式が成り立つ ここまでを「計量的な距離」の公理 dij <= max(dik,djk) 超距離不等式が成り立つ これを加えると「超計量な距離」の公理 別称:ウルトラメトリック これを満たさないものを 非計量的な距離 とよぶ
距離の測り方 絶対距離、チェビシェフ、ユークリッド、平均ユークリッド、ミンコフスキー 類似度の測り方 相関係数、余弦係数 質的データは距離は考えられない。 対応分析の数量化得点を使って無理やり数値にしてから扱う場合は時々ある
あ