Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械学習における評価指標~AUC&C-index~

 機械学習における評価指標~AUC&C-index~

Nakashima Takaya

April 25, 2022
Tweet

More Decks by Nakashima Takaya

Other Decks in Science

Transcript

  1. C-indexについて C統計量(Harrell's C-Statistic.): イベント発症者(Yi=1)の予測確率 Pi の分布と⾮発症者(Yj=0)の予測確率 Pj の分布それぞれからランダムサンプリングした時,発症者での予測確率の⽅が ⾼くなる確率. C-index(C-statistic

    by Uno et al.): 標本からランダムに2つの異なるデータi, jを取り出してペアにした時,観測打 ち切り時点τまでの⽣存時間Tの短⻑と予測確率P(t)の⼤⼩が⼀致する確率. 同じアウトカムでも良い!! 異なるアウトカムじゃないと× ???
  2. • 分⺟が⽐較可能な(comparable)ペアの総数 • 分⼦はそのうち T と P(t) の短⻑と⼤⼩が揃っている(concordant)ペアの総数を表す. • ペアが⽐較可能である必要⼗分条件は,ペア内で観察時間

    T * の短い⽅のイベントが 観測されていること(=iにアウトカムが発⽣していること)である.(Di = 1) C-indexの式(Uno, et al., 2011)
  3. No. Outcome Time(year) 1 ⽣存 10 2 死亡 3 3

    死亡 7 4 ⽣存 10 5 ⽣存 10 6 死亡 2 7 死亡 8 8 ⽣存 10 9 死亡 1 10 ⽣存 10 ⼼筋梗塞による死亡をアウトカムとした⽣存時間解析 観測期間τは10年とする.
  4. 観測時点 (時点t) No.1 No.2 (死亡) No.3 (死亡) No.4 No.5 No.6

    (死亡) No.7 (死亡) No.8 No.9 (死亡) No.10 1 0.03 0.12 0.1 0.03 0 0.2 0.11 0.06 0.31 0.08 2 0.06 0.19 0.12 0.04 0.02 0.3 0.17 0.06 0.34 0.11 3 0.1 0.22 0.12 0.05 0.06 0.31 0.25 0.07 0.41 0.14 7 0.1 0.3 0.13 0.09 0.07 0.4 0.23 0.08 0.42 0.17 8 0.12 0.32 0.2 0.13 0.17 0.44 0.27 0.09 0.43 0.17 10 0.16 0.36 0.26 0.18 0.18 0.47 0.3 0.13 0.46 0.19 Random Survival Forestを⽤いて⾏った死亡確率の予測結果
  5. e.g. ) i をNo.9とすると,時点t = 1, τ = 10であるから, ⽐較可能となる候補

    j は,No.1, 2, 3, 4, 5, 6, 7, 8, 10(9組) 例えば,i = No.9, j = No.1とすると, 𝑷𝒊 𝒕 = 𝑷𝑵𝒐.𝟗 𝒕 = 𝟏 = 𝟎. 𝟑𝟏 𝑷𝒋 𝒕 = 𝑷𝑵𝒐.𝟏 𝒕 = 𝟏 = 𝟎. 𝟎𝟑 𝑷𝒊 𝒕 > 𝑷𝒋 𝒕 であるから, i の⽅が,早く死亡(=時点t)しており, 予測される時点tでの死亡確率がjよりも⼤きい → countされる
  6. J = No.2の場合もcountされる.(∵0.31>0.12) J = No.3の場合もcountされる.(∵0.31>0.1) J = No.4の場合もcountされる.(∵0.31>0.03) J

    = No.5の場合もcountされる.(∵0.31>0) J = No.6の場合もcountされる.(∵0.31>0.2) J = No.7の場合もcountされる.(∵0.31>0.11) J = No.8の場合もcountされる.(∵0.31>0.06) J = No.10の場合もcountされる.(∵0.31>0.08) 𝐶!"#$.& = & & = 1
  7. 同様に, i = No.6の時,⽐較可能群 = 𝒋 は𝑵𝒐. 𝟏, 𝟐, 𝟑,

    𝟒, 𝟓, 𝟕, 𝟖, 𝟏𝟎(𝟖組) ,𝑪𝒊(𝑵𝒐.𝟔 = 𝟖 𝟖 = 𝟏 i = No.2の時, ⽐較可能群(= 𝒋)は𝑵𝒐. 𝟏, 𝟑, 𝟒, 𝟓, 𝟕 𝟖, 𝟏𝟎(𝟕組) ,𝑪𝒊(𝑵𝒐.𝟐 = 𝟔 𝟕 ≒ 𝟎. 𝟖𝟔 i = No.3の時,⽐較可能群(= 𝒋)は𝑵𝒐. 𝟏, 𝟒, 𝟓, 𝟕, 𝟖, 𝟏𝟎(𝟔組) ,𝑪𝒊(𝑵𝒐.𝟑 = 𝟒 𝟔 ≒ 𝟎. 𝟔𝟕 i = No.7の時,⽐較可能群(= 𝒋)は𝑵𝒐. 𝟏, 𝟒, 𝟓, 𝟖, 𝟏𝟎(𝟓組) ,𝑪𝒊(𝑵𝒐.𝟕 = 𝟓 𝟓 = 𝟏 ! 𝑪 ≒ 𝟎. 𝟗𝟏 平均
  8. 1. 予測確率が同じ P のデータを集めると確率 P でイベントを⽣じるように 「同じ予測値を与える状況ではその予測値は較正(calibration)されるべき」 2. 不確実な個々の観測には確率 1

    か 0 を個々に割り当てる予測より,0<Pi<1 という確率 Pi で予測する⽅が良い 3. このような確率的な予測 Pi においては「なるべく Pi の分布が極端になるよ うに(0か1に近くなるように)予測確率を割り当てるべき」 おまけ Brier Score