Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
機械学習における評価指標~AUC&C-index~
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Nakashima Takaya
April 25, 2022
Science
3k
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
機械学習における評価指標~AUC&C-index~
Nakashima Takaya
April 25, 2022
More Decks by Nakashima Takaya
See All by Nakashima Takaya
Understanding CVP Waveforms: Interpretation and Clinical Implications in Anesthesiology
taka88
0
600
P値のトリセツ
taka88
18
17k
What is LiNGAM?
taka88
3
1.6k
異質性の検証 〜MTE / Causal Tree/Forest
taka88
3
2.6k
眼瞼下垂について
taka88
0
560
RNNを用いた心音分類
taka88
0
840
人工知能と心房細動
taka88
0
210
人工知能を用いた心血管疾患の臨床研究のための実践的入門書
taka88
0
610
Other Decks in Science
See All in Science
CVPR2026_VGGTとその仲間たち
mickey_0226
0
870
力学系から見た現代的な機械学習
hanbao
4
4.3k
不動産業界における業界特化のデータ整備とAI活用 ─Vertical DataとVertical AI─
estie
1
680
AI bij literatuuronderzoek in de wetenschap
voginip
0
190
因果推論と機械学習
sshimizu2006
1
1.2k
イロレーティングを活用した関東大学サッカーの定量的実力評価 / A quantitative performance evaluation of Kanto University Football Association using Elo rating
konakalab
0
280
機械学習 - DBSCAN
trycycle
PRO
0
1.9k
大黒市で発生した大規模インシデント の ポストモーテムから読み解く、 記憶媒体消去の大切さ
shucho0103
0
190
データベース09: 実体関連モデル上の一貫性制約
trycycle
PRO
0
1.3k
【論文紹介】Is CLIP ideal? No. Can we fix it?Yes! 第65回 コンピュータビジョン勉強会@関東
shun6211
5
2.5k
Cross-Media Technologies, Information Science and Human-Information Interaction
signer
PRO
3
32k
データベース11: 正規化(1/2) - 望ましくない関係スキーマ
trycycle
PRO
0
1.1k
Featured
See All Featured
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.9k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
72
40k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Believing is Seeing
oripsolob
1
150
Bash Introduction
62gerente
615
220k
ラッコキーワード サービス紹介資料
rakko
1
3.7M
From π to Pie charts
rasagy
0
220
Tell your own story through comics
letsgokoyo
1
960
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
120k
Technical Leadership for Architectural Decision Making
baasie
3
420
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
2k
What's in a price? How to price your products and services
michaelherold
247
13k
Transcript
機械学習における 評価指標 ~AUC&C-index~ ⻑崎⼤学病院 初期研修医 中島誉也
参考⽂献 • イベント予測モデルの評価指標 • 岡⽥遥平先⽣のnote • 臨床における良い予測モデルとは? • ⼀番わかりやすいROC曲線とAUCとC統計量
Table of contents 1.評価指標の紹介 2.Discriminationについて 3.C-indexについて
Table of contents 1.評価指標の紹介
評価指標の紹介 ・識別能 (Discrimination): 「予測モデルが正しく予測対象のイベント発⽣のリスクが⾼い患者とリスクが低い患者を区別できる性能」 ・較正能 (Calibration): 「予測がどれくらい実際に当たるか」 ・臨床的有⽤性 (Clinical utility)
引⽤:臨床における良い予測モデルとは? 予測モデルの究極的な⽬標は 「予測に基づき治療⽅針が変化し重要なアウトカムが改善する」
Table of contents 2.AUC(C統計量)について
混同⾏列(Confusion Matrix) https://www.codexa.net/ml-evaluation-cls/
混同⾏列の問題点 1. データに偏りがある場合 元のデータでPositiveが99%,Negativeが1%のような場合,評価指標の数値は偏ったものになる. 2. カットオフ値の設定 カットオフ値をどこにするかで当然PositiveとNegativeの割合が変化し, そのカットオフ値が適切なのかが曖昧になる. AUC(C統計量)による評価
AUCについて 岡⽥遥平先⽣のnoteを引⽤しています 「対象としている連続変数(例:検査の値、スコア, または予測確率)が,⼆値のアウトカム(例えば⽣存 /死亡)をどの程度正確に識別できるか」
SOFAスコア:敗⾎症患者の重症度を表すスコア
−1と0の間をカットオフにする
5と6の間をカットオフにする
6と7の間をカットオフにする
None
C統計量について 岡⽥遥平先⽣のnoteを引⽤ 「アウトカムのイベントなし(⽣存)の患者とアウトカムのイベントあり(死亡)の 患者を、ランダムに1⼈ずつ抽出した時に、それぞれの患者のスコアの⼤⼩関係が, (抽出した⽣存の患者のスコア)<(抽出した死亡の患者のスコア)となる確率」 構築したスコアやモデルが適切に識別できている確率
計算してみよう!!
岡⽥遥平先⽣のnoteを参照
Table of contents 3.C-indexについて
C-indexについて • ⽣存時間解析の分野においても,機械学習を⽤いた予測モデルの開発の研究が盛んに⾏われている. • 打ち切りの概念を取り⼊れなければならないため,AUCで評価することは困難. • 打ち切りの概念を取り⼊れつつ,AUCのように評価したい!! → C ‒indexの登場
Explainable machine learning can outperform Cox regression predictions and provide insights in breast cancer survival
様々な⽣存時間解析×機械学習モデル SurvCART: Constructing Survival Tree in R | R-bloggers https://www.r-bloggers.com
› 2022/01 Pythonでのパッケージ(Scikit-survival)
C-indexについて C統計量(Harrell's C-Statistic.): イベント発症者(Yi=1)の予測確率 Pi の分布と⾮発症者(Yj=0)の予測確率 Pj の分布それぞれからランダムサンプリングした時,発症者での予測確率の⽅が ⾼くなる確率. C-index(C-statistic
by Uno et al.): 標本からランダムに2つの異なるデータi, jを取り出してペアにした時,観測打 ち切り時点τまでの⽣存時間Tの短⻑と予測確率P(t)の⼤⼩が⼀致する確率. 同じアウトカムでも良い!! 異なるアウトカムじゃないと× ???
標本からランダムに2つの異なるデータi, jを取り出してペアにした時, 観測打ち切り時点τまでの⽣存時間Tの短⻑と予測確率P(t)の⼤⼩が⼀致する確率. ランダムに2⼈(iとj)を抽出した時に,観測期間τまでの⽣存期間の⻑さの短⻑と そのモデルによって予測される時点tの死亡確率の⼤⼩が⼀致する確率. iとjを⽐較した時に,iの⽅が,実際のデータでもjより早く死亡(=時点t)しており, かつ モデルによって予測される時点tにおける死亡確率がjよりも⼤きければcountできる! 適切に識別できてる!!
iの⽅が,早く死亡(=時点t)しており, 予測される時点tでの死亡確率がjよりも⼤きい (=正しい予測) iの⽅が,早く死亡(=時点t)しているが, 予測される時点tでの死亡確率がjよりも⼩さい (=誤った予測)
• 分⺟が⽐較可能な(comparable)ペアの総数 • 分⼦はそのうち T と P(t) の短⻑と⼤⼩が揃っている(concordant)ペアの総数を表す. • ペアが⽐較可能である必要⼗分条件は,ペア内で観察時間
T * の短い⽅のイベントが 観測されていること(=iにアウトカムが発⽣していること)である.(Di = 1) C-indexの式(Uno, et al., 2011)
計算してみよう!!
No. Outcome Time(year) 1 ⽣存 10 2 死亡 3 3
死亡 7 4 ⽣存 10 5 ⽣存 10 6 死亡 2 7 死亡 8 8 ⽣存 10 9 死亡 1 10 ⽣存 10 ⼼筋梗塞による死亡をアウトカムとした⽣存時間解析 観測期間τは10年とする.
観測時点 (時点t) No.1 No.2 (死亡) No.3 (死亡) No.4 No.5 No.6
(死亡) No.7 (死亡) No.8 No.9 (死亡) No.10 1 0.03 0.12 0.1 0.03 0 0.2 0.11 0.06 0.31 0.08 2 0.06 0.19 0.12 0.04 0.02 0.3 0.17 0.06 0.34 0.11 3 0.1 0.22 0.12 0.05 0.06 0.31 0.25 0.07 0.41 0.14 7 0.1 0.3 0.13 0.09 0.07 0.4 0.23 0.08 0.42 0.17 8 0.12 0.32 0.2 0.13 0.17 0.44 0.27 0.09 0.43 0.17 10 0.16 0.36 0.26 0.18 0.18 0.47 0.3 0.13 0.46 0.19 Random Survival Forestを⽤いて⾏った死亡確率の予測結果
e.g. ) i をNo.9とすると,時点t = 1, τ = 10であるから, ⽐較可能となる候補
j は,No.1, 2, 3, 4, 5, 6, 7, 8, 10(9組) 例えば,i = No.9, j = No.1とすると, 𝑷𝒊 𝒕 = 𝑷𝑵𝒐.𝟗 𝒕 = 𝟏 = 𝟎. 𝟑𝟏 𝑷𝒋 𝒕 = 𝑷𝑵𝒐.𝟏 𝒕 = 𝟏 = 𝟎. 𝟎𝟑 𝑷𝒊 𝒕 > 𝑷𝒋 𝒕 であるから, i の⽅が,早く死亡(=時点t)しており, 予測される時点tでの死亡確率がjよりも⼤きい → countされる
J = No.2の場合もcountされる.(∵0.31>0.12) J = No.3の場合もcountされる.(∵0.31>0.1) J = No.4の場合もcountされる.(∵0.31>0.03) J
= No.5の場合もcountされる.(∵0.31>0) J = No.6の場合もcountされる.(∵0.31>0.2) J = No.7の場合もcountされる.(∵0.31>0.11) J = No.8の場合もcountされる.(∵0.31>0.06) J = No.10の場合もcountされる.(∵0.31>0.08) 𝐶!"#$.& = & & = 1
同様に, i = No.6の時,⽐較可能群 = 𝒋 は𝑵𝒐. 𝟏, 𝟐, 𝟑,
𝟒, 𝟓, 𝟕, 𝟖, 𝟏𝟎(𝟖組) ,𝑪𝒊(𝑵𝒐.𝟔 = 𝟖 𝟖 = 𝟏 i = No.2の時, ⽐較可能群(= 𝒋)は𝑵𝒐. 𝟏, 𝟑, 𝟒, 𝟓, 𝟕 𝟖, 𝟏𝟎(𝟕組) ,𝑪𝒊(𝑵𝒐.𝟐 = 𝟔 𝟕 ≒ 𝟎. 𝟖𝟔 i = No.3の時,⽐較可能群(= 𝒋)は𝑵𝒐. 𝟏, 𝟒, 𝟓, 𝟕, 𝟖, 𝟏𝟎(𝟔組) ,𝑪𝒊(𝑵𝒐.𝟑 = 𝟒 𝟔 ≒ 𝟎. 𝟔𝟕 i = No.7の時,⽐較可能群(= 𝒋)は𝑵𝒐. 𝟏, 𝟒, 𝟓, 𝟖, 𝟏𝟎(𝟓組) ,𝑪𝒊(𝑵𝒐.𝟕 = 𝟓 𝟓 = 𝟏 ! 𝑪 ≒ 𝟎. 𝟗𝟏 平均
予測確率がランダムに選ばれたもう1つのサンプルが⼤きいかどうかしか⾒ていない → どれくらい正確な予測ができているかどうかまでは分からない → 正しい予測ができているのかをCalibrationしてあげる必要がある AUC(C統計量),C-indexの弱点
1. 予測確率が同じ P のデータを集めると確率 P でイベントを⽣じるように 「同じ予測値を与える状況ではその予測値は較正(calibration)されるべき」 2. 不確実な個々の観測には確率 1
か 0 を個々に割り当てる予測より,0<Pi<1 という確率 Pi で予測する⽅が良い 3. このような確率的な予測 Pi においては「なるべく Pi の分布が極端になるよ うに(0か1に近くなるように)予測確率を割り当てるべき」 おまけ Brier Score