Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
P値のトリセツ
Search
Nakashima Takaya
June 23, 2022
Research
18
12k
P値のトリセツ
Nakashima Takaya
June 23, 2022
Tweet
Share
More Decks by Nakashima Takaya
See All by Nakashima Takaya
機械学習における評価指標~AUC&C-index~
taka88
0
1.7k
What is LiNGAM?
taka88
3
1.2k
異質性の検証 〜MTE / Causal Tree/Forest
taka88
3
2.1k
眼瞼下垂について
taka88
0
290
RNNを用いた心音分類
taka88
0
650
人工知能と心房細動
taka88
0
130
人工知能を用いた心血管疾患の臨床研究のための実践的入門書
taka88
0
530
Other Decks in Research
See All in Research
The Fellowship of Trust in AI
tomzimmermann
0
130
Human-Informed Machine Learning Models and Interactions
hiromu1996
2
480
工学としてのSRE再訪 / Revisiting SRE as Engineering
yuukit
19
11k
さんかくのテスト.pdf
sankaku0724
0
350
日本語医療LLM評価ベンチマークの構築と性能分析
fta98
3
650
Physics of Language Models: Part 3.1, Knowledge Storage and Extraction
sosk
1
950
Weekly AI Agents News!
masatoto
25
24k
20240918 交通くまもとーく 未来の鉄道網編(太田恒平)
trafficbrain
0
230
Language is primarily a tool for communication rather than thought
ryou0634
4
740
Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数
eumesy
PRO
6
700
20241115都市交通決起集会 趣旨説明・熊本事例紹介
trafficbrain
0
260
論文読み会 SNLP2024 Instruction-tuned Language Models are Better Knowledge Learners. In: ACL 2024
s_mizuki_nlp
1
360
Featured
See All Featured
Scaling GitHub
holman
458
140k
A Philosophy of Restraint
colly
203
16k
Keith and Marios Guide to Fast Websites
keithpitt
409
22k
Building Adaptive Systems
keathley
38
2.3k
A better future with KSS
kneath
238
17k
What's new in Ruby 2.0
geeforr
343
31k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
720
Designing on Purpose - Digital PM Summit 2013
jponch
115
7k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
4
370
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
329
21k
Designing for Performance
lara
604
68k
Typedesign – Prime Four
hannesfritz
40
2.4k
Transcript
P値のトリセツ ⻑崎⼤学病院初期研修医1年⽬ 中島 誉也
Attention 今回の発表には少々過激な内容も含みます 取り扱い⽅については各⾃の判断でお願いします
3 P値<0.05 → 有意を撤廃せよ!! 世界の科学者達
4
5 URL:https://jamanetwork.com/journals/jama/fullarticle/2676503
6 URL:https://www.nature.com/articles/s41562-017-0189-z
7 URL:https://www.nature.com/articles/d41586-019-00857-9 800⼈!?
8 P値反対側の意⾒ • 研究の⽬的がP値を有意にすることにしか関⼼がない • サンプルサイズを無視してP値の計算を⾏なっている • 実際の効果の⼤きさへの吟味を軽視している • 有意になった変数しか報告せず,後続に⽣かせていない研究が多い
• P値 = 0.049とP値 = 0.051の差を⽐較することの意義 なぜこんなにもP値は嫌われているのか︖ P値 科学者A 科学者B 科学者C
9 P値のあるあるな誤解 • P値は帰無仮説が正しい確率である • 統計的に有意(P値が0.05未満)ならば 臨床的にも重要な関係がある • 検定結果が有意でない(P値が0.05以上) ならば
① 帰無仮説が正しく,採択すべきであることを意味する ② 効果は⾒られなかった,効果がないことが証明された
10 P値の定義は︖ • 特定の統計モデルのもとで,データの統計的要約 (例えば,2グループ間での標本平均の差)が観察された値と等しいか, より極端な値を取る確率 -The ASA Statement on
p-Values- • 帰無仮説が正しいとした時の確率分布のもとで, 観測したデータによる統計量の値,もしくはそれより極端な統計量をとる確率 • 帰無仮説が正しいという前提において, それ以上に偏った検定統計量が得られる確率 ざっくり⾔うと,P値はデータと帰無仮説が⽭盾する程度の指標
11 有意⽔準α P値が事前に設定した有意⽔準α(⼀般的にα = 0.05) を下回った時に,帰無仮説を棄却できる 有意⽔準︓帰無仮説が間違っていると判断する確率
12 差がないという仮定を誤って棄却する確率→有意⽔準︕︕ α = 0.05とすると,確率は5% (正解) A群とB群とで⼊院期間に差がないと仮定した場合に, 今⾒られているA群とB群の差が発⽣する確率は3.6%
統計的有意性とP値に関するASAの6声明 13 1 P値は「そのデータが,仮定した統計モデルとどれくらい適合しないか」 を⽰す指標である 2 P値は調べている仮説が正しい確率やデータが 偶然のみで得られた確率を測るものではない 3 科学的結論及びビジネス,
政策上の意思決定は 「P値がある特定の値を超えたかどうか」のみによるべきではない 4 適切な推論のためには,全てを報告する透明性が必要である 5 P値や統計的有意性は効果の⼤きさや結果の重要性を測るものではない 6 P値そのものだけではモデルや仮説に関するエビデンスのいい指標 とはならない
14 4. 適切な推論のためには, すべてを報告する透明性が必要である 論⽂内で必ず報告すべきもの • 研究のモチベーション,デザイン • 当初予定していた解析計画 •
対象者の選択,除外の理由 • 実施したすべての解析 ・ P値や関連する解析は選択して報告してはいけない → ∵ P-hackingのリスクがある
P hackingとは︖ 15 1.⾏った条件や測定した変数の⼀部しか報告しない 2.参加者を少しずつ⾜しながら分析を⾏い, 有意にしたい変数が有意差を⽰した時点で⽌める 3.さまざまな変数を⽤いて解析を⾏い, 有意になった組み合わせのみを報告する 4. 有意な結果が出なければ,Publishしない
→ 出版バイアス ダメ!!絶対!!
16 5. P値や統計的有意性は 効果の⼤きさや結果の重要性を測るものではない 例) Aという薬剤が肺癌による死亡を有意に低下させた. しかし,実際にAを使⽤した時の効果は従来の薬と⽐較して 死亡率を2%低下させるだけであった. 「統計的に有意であること」と「臨床的に有意であること」は違う︕ これは臨床的に意味があることなのか︖︖
17 5. P値や統計的有意性は 効果の⼤きさや結果の重要性を測るものではない • どんな⼩さな効果でも, サンプルサイズが⼤きければ必ずP値は有意になる • 同じ効果の⼤きさでも, サンプルサイズによって異なったP値となる
18 5. P値や統計的有意性は 効果の⼤きさや結果の重要性を測るものではない サンプルサイズnが⼤きいほど, 検定統計量は⼤きくなり P値は⼩さくなる → 有意になりやすくなる︕ (証明)
19 統計的有意差なし(P値 ≧ 0.05) その変数には差がない そのデータでは差があることを⽰せなかった
20 じゃあどうすればいいんだ...︖
21 検定から推定へ
P値の誤解をしない/されないためには︖ 22 1.効果量(平均値の差,オッズ,ハザード⽐)を必ず記載する 2.P値(検定結果)ではなく,95%信頼区間(推定結果)を記載する TIVAによる⿇酔導⼊を⾏った群を参照とした時, 吸⼊⿇酔薬による⿇酔導⼊を⾏った群では 有意なPONVリスクの上昇を認めた(p値 = 0.002) TIVAによる⿇酔導⼊を⾏った群を参照とした時,
吸⼊⿇酔薬による⿇酔導⼊を⾏った群では 有意なPONVリスクの上昇を認めた (リスク⽐ 3.36, 95%信頼区間 3.20 ~ 3.57)
23 95%信頼区間のあるあるな誤解 • 信頼区間にハザード⽐が1を含むかどうかだけに注⽬すればいい → 「P値<0.05」かどうかの判断と⼀緒 信頼区間の幅も⾒ることで,精度,サンプルサイズの評価もできる • 「0.92から1.13の間に真のハザード⽐がある確率は95%」である →
100回,同じ⼈数を抽出するランダムサンプリングを⾏なった時に, それぞれの信頼区間に真の値が⼊る回数が95回 例)「ハザード⽐1.02: 95%信頼区間 0.92~1.13」
24 真の値はただ⼀つのみ.ばらつくのは区間︕︕
25 ハザード⽐1.02 : 95%信頼区間 0.92~1.13 1. 効果量(点推定量)の⼤きさ(1.02) 2. 区間推定の精度(区間の幅) 3.
効果量が有意かどうか(1を含むかどうか) 評価すべきポイント
26 Take Home Message • P値だけでは効果の⼤きさは評価できない • P-hackingは絶対にしない︕︕︕ • 「統計的有意性」と「臨床的有意性」を混同しない
• サンプルサイズも意識したP値の評価 • 検定から推定へ(P値から95%信頼区間) • P値を正しく理解して正しく使おう