Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
P値のトリセツ
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Nakashima Takaya
June 23, 2022
Research
17k
18
Share
P値のトリセツ
Nakashima Takaya
June 23, 2022
More Decks by Nakashima Takaya
See All by Nakashima Takaya
Understanding CVP Waveforms: Interpretation and Clinical Implications in Anesthesiology
taka88
0
560
機械学習における評価指標~AUC&C-index~
taka88
0
3k
What is LiNGAM?
taka88
3
1.6k
異質性の検証 〜MTE / Causal Tree/Forest
taka88
3
2.5k
眼瞼下垂について
taka88
0
550
RNNを用いた心音分類
taka88
0
840
人工知能と心房細動
taka88
0
210
人工知能を用いた心血管疾患の臨床研究のための実践的入門書
taka88
0
610
Other Decks in Research
See All in Research
Ghost in the 7‑Zip: The Shadow of Residential Proxies Creeping into Your Life
nttcom
0
670
機械学習で作った ポケモン対戦bot で 遊ぼう!
fufufukakaka
0
240
AIを叩き台として、 「検証」から「共創」へと進化するリサーチ
mela_dayo
0
280
論文紹介 "ReSim: Reliable World Simulation for Autonomous Driving"
kogo
0
610
存立危機事態の再検討
jimboken
0
290
さくらインターネット研究所テックトーク2026春、研究開発Gr.25年度成果26年度方針
kikuzo
0
140
正規分布と最適化について
koide3
1
230
Fukui Shibiten 39 - AI Art
butchi
0
100
はじまりの クエスチョンブック —余暇と豊かさにあふれた社会とは?
culturaltransition
PRO
0
480
AGI4OPT:自然言語から数理最適化を導くエ ージェントスキル Translating Human Intent into Mathematical Optimization
mickey_kubo
0
130
ScoreMatchingRiesz for Automatic Debiased Machine Learning and Policy Path Estimation with an Application to Japanese Monetary Policy Evaluation
masakat0
0
290
言語モデルから言語について語る際に押さえておきたいこと
eumesy
PRO
5
2.3k
Featured
See All Featured
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
220
Fireside Chat
paigeccino
42
3.9k
Embracing the Ebb and Flow
colly
88
5.1k
Six Lessons from altMBA
skipperchong
29
4.3k
Navigating Weather and Climate Data
rabernat
0
210
How GitHub (no longer) Works
holman
316
150k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
170
Leading Effective Engineering Teams in the AI Era
addyosmani
9
2k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.5k
Chasing Engaging Ingredients in Design
codingconduct
0
210
Automating Front-end Workflow
addyosmani
1370
210k
Visualization
eitanlees
152
17k
Transcript
P値のトリセツ ⻑崎⼤学病院初期研修医1年⽬ 中島 誉也
Attention 今回の発表には少々過激な内容も含みます 取り扱い⽅については各⾃の判断でお願いします
3 P値<0.05 → 有意を撤廃せよ!! 世界の科学者達
4
5 URL:https://jamanetwork.com/journals/jama/fullarticle/2676503
6 URL:https://www.nature.com/articles/s41562-017-0189-z
7 URL:https://www.nature.com/articles/d41586-019-00857-9 800⼈!?
8 P値反対側の意⾒ • 研究の⽬的がP値を有意にすることにしか関⼼がない • サンプルサイズを無視してP値の計算を⾏なっている • 実際の効果の⼤きさへの吟味を軽視している • 有意になった変数しか報告せず,後続に⽣かせていない研究が多い
• P値 = 0.049とP値 = 0.051の差を⽐較することの意義 なぜこんなにもP値は嫌われているのか︖ P値 科学者A 科学者B 科学者C
9 P値のあるあるな誤解 • P値は帰無仮説が正しい確率である • 統計的に有意(P値が0.05未満)ならば 臨床的にも重要な関係がある • 検定結果が有意でない(P値が0.05以上) ならば
① 帰無仮説が正しく,採択すべきであることを意味する ② 効果は⾒られなかった,効果がないことが証明された
10 P値の定義は︖ • 特定の統計モデルのもとで,データの統計的要約 (例えば,2グループ間での標本平均の差)が観察された値と等しいか, より極端な値を取る確率 -The ASA Statement on
p-Values- • 帰無仮説が正しいとした時の確率分布のもとで, 観測したデータによる統計量の値,もしくはそれより極端な統計量をとる確率 • 帰無仮説が正しいという前提において, それ以上に偏った検定統計量が得られる確率 ざっくり⾔うと,P値はデータと帰無仮説が⽭盾する程度の指標
11 有意⽔準α P値が事前に設定した有意⽔準α(⼀般的にα = 0.05) を下回った時に,帰無仮説を棄却できる 有意⽔準︓帰無仮説が間違っていると判断する確率
12 差がないという仮定を誤って棄却する確率→有意⽔準︕︕ α = 0.05とすると,確率は5% (正解) A群とB群とで⼊院期間に差がないと仮定した場合に, 今⾒られているA群とB群の差が発⽣する確率は3.6%
統計的有意性とP値に関するASAの6声明 13 1 P値は「そのデータが,仮定した統計モデルとどれくらい適合しないか」 を⽰す指標である 2 P値は調べている仮説が正しい確率やデータが 偶然のみで得られた確率を測るものではない 3 科学的結論及びビジネス,
政策上の意思決定は 「P値がある特定の値を超えたかどうか」のみによるべきではない 4 適切な推論のためには,全てを報告する透明性が必要である 5 P値や統計的有意性は効果の⼤きさや結果の重要性を測るものではない 6 P値そのものだけではモデルや仮説に関するエビデンスのいい指標 とはならない
14 4. 適切な推論のためには, すべてを報告する透明性が必要である 論⽂内で必ず報告すべきもの • 研究のモチベーション,デザイン • 当初予定していた解析計画 •
対象者の選択,除外の理由 • 実施したすべての解析 ・ P値や関連する解析は選択して報告してはいけない → ∵ P-hackingのリスクがある
P hackingとは︖ 15 1.⾏った条件や測定した変数の⼀部しか報告しない 2.参加者を少しずつ⾜しながら分析を⾏い, 有意にしたい変数が有意差を⽰した時点で⽌める 3.さまざまな変数を⽤いて解析を⾏い, 有意になった組み合わせのみを報告する 4. 有意な結果が出なければ,Publishしない
→ 出版バイアス ダメ!!絶対!!
16 5. P値や統計的有意性は 効果の⼤きさや結果の重要性を測るものではない 例) Aという薬剤が肺癌による死亡を有意に低下させた. しかし,実際にAを使⽤した時の効果は従来の薬と⽐較して 死亡率を2%低下させるだけであった. 「統計的に有意であること」と「臨床的に有意であること」は違う︕ これは臨床的に意味があることなのか︖︖
17 5. P値や統計的有意性は 効果の⼤きさや結果の重要性を測るものではない • どんな⼩さな効果でも, サンプルサイズが⼤きければ必ずP値は有意になる • 同じ効果の⼤きさでも, サンプルサイズによって異なったP値となる
18 5. P値や統計的有意性は 効果の⼤きさや結果の重要性を測るものではない サンプルサイズnが⼤きいほど, 検定統計量は⼤きくなり P値は⼩さくなる → 有意になりやすくなる︕ (証明)
19 統計的有意差なし(P値 ≧ 0.05) その変数には差がない そのデータでは差があることを⽰せなかった
20 じゃあどうすればいいんだ...︖
21 検定から推定へ
P値の誤解をしない/されないためには︖ 22 1.効果量(平均値の差,オッズ,ハザード⽐)を必ず記載する 2.P値(検定結果)ではなく,95%信頼区間(推定結果)を記載する TIVAによる⿇酔導⼊を⾏った群を参照とした時, 吸⼊⿇酔薬による⿇酔導⼊を⾏った群では 有意なPONVリスクの上昇を認めた(p値 = 0.002) TIVAによる⿇酔導⼊を⾏った群を参照とした時,
吸⼊⿇酔薬による⿇酔導⼊を⾏った群では 有意なPONVリスクの上昇を認めた (リスク⽐ 3.36, 95%信頼区間 3.20 ~ 3.57)
23 95%信頼区間のあるあるな誤解 • 信頼区間にハザード⽐が1を含むかどうかだけに注⽬すればいい → 「P値<0.05」かどうかの判断と⼀緒 信頼区間の幅も⾒ることで,精度,サンプルサイズの評価もできる • 「0.92から1.13の間に真のハザード⽐がある確率は95%」である →
100回,同じ⼈数を抽出するランダムサンプリングを⾏なった時に, それぞれの信頼区間に真の値が⼊る回数が95回 例)「ハザード⽐1.02: 95%信頼区間 0.92~1.13」
24 真の値はただ⼀つのみ.ばらつくのは区間︕︕
25 ハザード⽐1.02 : 95%信頼区間 0.92~1.13 1. 効果量(点推定量)の⼤きさ(1.02) 2. 区間推定の精度(区間の幅) 3.
効果量が有意かどうか(1を含むかどうか) 評価すべきポイント
26 Take Home Message • P値だけでは効果の⼤きさは評価できない • P-hackingは絶対にしない︕︕︕ • 「統計的有意性」と「臨床的有意性」を混同しない
• サンプルサイズも意識したP値の評価 • 検定から推定へ(P値から95%信頼区間) • P値を正しく理解して正しく使おう