Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
P値のトリセツ
Search
Nakashima Takaya
June 23, 2022
Research
16
13k
P値のトリセツ
Nakashima Takaya
June 23, 2022
Tweet
Share
More Decks by Nakashima Takaya
See All by Nakashima Takaya
機械学習における評価指標~AUC&C-index~
taka88
0
2.2k
What is LiNGAM?
taka88
3
1.3k
異質性の検証 〜MTE / Causal Tree/Forest
taka88
3
2.3k
眼瞼下垂について
taka88
0
380
RNNを用いた心音分類
taka88
0
700
人工知能と心房細動
taka88
0
150
人工知能を用いた心血管疾患の臨床研究のための実践的入門書
taka88
0
550
Other Decks in Research
See All in Research
定性データ、どう活かす? 〜定性データのための分析基盤、はじめました〜 / How to utilize qualitative data? ~We have launched an analysis platform for qualitative data~
kaminashi
6
830
ASSADS:ASMR動画に合わせて撫でられる感覚を提示するシステムの開発と評価 / ec75-shimizu
yumulab
1
130
VAGeo: View-specific Attention for Cross-View Object Geo-Localization
satai
3
200
クラウドのテレメトリーシステム研究動向2025年
yuukit
3
830
Vision Language Modelと完全自動運転AIの最新動向
tsubasashi
2
370
Satellite Sunroof: High-res Digital Surface Models and Roof Segmentation for Global Solar Mapping
satai
3
280
実行環境に中立なWebAssemblyライブマイグレーション機構/techtalk-2025spring
chikuwait
0
140
DPUを用いたマルチタスクDNN表情認識システムのFPGA実装
takuto_andtt
0
150
EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing
satai
3
180
Weekly AI Agents News! 12月号 プロダクト/ニュースのアーカイブ
masatoto
0
370
NeurIPS 2024 参加報告 & 論文紹介 (SACPO, Ctrl-G)
reisato12345
0
420
[論文紹介] iTransformer: Inverted Transformers Are Effective for Time Series Forecasting
shiba4839
0
130
Featured
See All Featured
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
104
19k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
29
9.4k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
47
2.7k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
30k
Code Review Best Practice
trishagee
67
18k
For a Future-Friendly Web
brad_frost
176
9.7k
VelocityConf: Rendering Performance Case Studies
addyosmani
328
24k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
32
5.4k
GraphQLとの向き合い方2022年版
quramy
46
14k
What's in a price? How to price your products and services
michaelherold
245
12k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
160
15k
Making the Leap to Tech Lead
cromwellryan
133
9.2k
Transcript
P値のトリセツ ⻑崎⼤学病院初期研修医1年⽬ 中島 誉也
Attention 今回の発表には少々過激な内容も含みます 取り扱い⽅については各⾃の判断でお願いします
3 P値<0.05 → 有意を撤廃せよ!! 世界の科学者達
4
5 URL:https://jamanetwork.com/journals/jama/fullarticle/2676503
6 URL:https://www.nature.com/articles/s41562-017-0189-z
7 URL:https://www.nature.com/articles/d41586-019-00857-9 800⼈!?
8 P値反対側の意⾒ • 研究の⽬的がP値を有意にすることにしか関⼼がない • サンプルサイズを無視してP値の計算を⾏なっている • 実際の効果の⼤きさへの吟味を軽視している • 有意になった変数しか報告せず,後続に⽣かせていない研究が多い
• P値 = 0.049とP値 = 0.051の差を⽐較することの意義 なぜこんなにもP値は嫌われているのか︖ P値 科学者A 科学者B 科学者C
9 P値のあるあるな誤解 • P値は帰無仮説が正しい確率である • 統計的に有意(P値が0.05未満)ならば 臨床的にも重要な関係がある • 検定結果が有意でない(P値が0.05以上) ならば
① 帰無仮説が正しく,採択すべきであることを意味する ② 効果は⾒られなかった,効果がないことが証明された
10 P値の定義は︖ • 特定の統計モデルのもとで,データの統計的要約 (例えば,2グループ間での標本平均の差)が観察された値と等しいか, より極端な値を取る確率 -The ASA Statement on
p-Values- • 帰無仮説が正しいとした時の確率分布のもとで, 観測したデータによる統計量の値,もしくはそれより極端な統計量をとる確率 • 帰無仮説が正しいという前提において, それ以上に偏った検定統計量が得られる確率 ざっくり⾔うと,P値はデータと帰無仮説が⽭盾する程度の指標
11 有意⽔準α P値が事前に設定した有意⽔準α(⼀般的にα = 0.05) を下回った時に,帰無仮説を棄却できる 有意⽔準︓帰無仮説が間違っていると判断する確率
12 差がないという仮定を誤って棄却する確率→有意⽔準︕︕ α = 0.05とすると,確率は5% (正解) A群とB群とで⼊院期間に差がないと仮定した場合に, 今⾒られているA群とB群の差が発⽣する確率は3.6%
統計的有意性とP値に関するASAの6声明 13 1 P値は「そのデータが,仮定した統計モデルとどれくらい適合しないか」 を⽰す指標である 2 P値は調べている仮説が正しい確率やデータが 偶然のみで得られた確率を測るものではない 3 科学的結論及びビジネス,
政策上の意思決定は 「P値がある特定の値を超えたかどうか」のみによるべきではない 4 適切な推論のためには,全てを報告する透明性が必要である 5 P値や統計的有意性は効果の⼤きさや結果の重要性を測るものではない 6 P値そのものだけではモデルや仮説に関するエビデンスのいい指標 とはならない
14 4. 適切な推論のためには, すべてを報告する透明性が必要である 論⽂内で必ず報告すべきもの • 研究のモチベーション,デザイン • 当初予定していた解析計画 •
対象者の選択,除外の理由 • 実施したすべての解析 ・ P値や関連する解析は選択して報告してはいけない → ∵ P-hackingのリスクがある
P hackingとは︖ 15 1.⾏った条件や測定した変数の⼀部しか報告しない 2.参加者を少しずつ⾜しながら分析を⾏い, 有意にしたい変数が有意差を⽰した時点で⽌める 3.さまざまな変数を⽤いて解析を⾏い, 有意になった組み合わせのみを報告する 4. 有意な結果が出なければ,Publishしない
→ 出版バイアス ダメ!!絶対!!
16 5. P値や統計的有意性は 効果の⼤きさや結果の重要性を測るものではない 例) Aという薬剤が肺癌による死亡を有意に低下させた. しかし,実際にAを使⽤した時の効果は従来の薬と⽐較して 死亡率を2%低下させるだけであった. 「統計的に有意であること」と「臨床的に有意であること」は違う︕ これは臨床的に意味があることなのか︖︖
17 5. P値や統計的有意性は 効果の⼤きさや結果の重要性を測るものではない • どんな⼩さな効果でも, サンプルサイズが⼤きければ必ずP値は有意になる • 同じ効果の⼤きさでも, サンプルサイズによって異なったP値となる
18 5. P値や統計的有意性は 効果の⼤きさや結果の重要性を測るものではない サンプルサイズnが⼤きいほど, 検定統計量は⼤きくなり P値は⼩さくなる → 有意になりやすくなる︕ (証明)
19 統計的有意差なし(P値 ≧ 0.05) その変数には差がない そのデータでは差があることを⽰せなかった
20 じゃあどうすればいいんだ...︖
21 検定から推定へ
P値の誤解をしない/されないためには︖ 22 1.効果量(平均値の差,オッズ,ハザード⽐)を必ず記載する 2.P値(検定結果)ではなく,95%信頼区間(推定結果)を記載する TIVAによる⿇酔導⼊を⾏った群を参照とした時, 吸⼊⿇酔薬による⿇酔導⼊を⾏った群では 有意なPONVリスクの上昇を認めた(p値 = 0.002) TIVAによる⿇酔導⼊を⾏った群を参照とした時,
吸⼊⿇酔薬による⿇酔導⼊を⾏った群では 有意なPONVリスクの上昇を認めた (リスク⽐ 3.36, 95%信頼区間 3.20 ~ 3.57)
23 95%信頼区間のあるあるな誤解 • 信頼区間にハザード⽐が1を含むかどうかだけに注⽬すればいい → 「P値<0.05」かどうかの判断と⼀緒 信頼区間の幅も⾒ることで,精度,サンプルサイズの評価もできる • 「0.92から1.13の間に真のハザード⽐がある確率は95%」である →
100回,同じ⼈数を抽出するランダムサンプリングを⾏なった時に, それぞれの信頼区間に真の値が⼊る回数が95回 例)「ハザード⽐1.02: 95%信頼区間 0.92~1.13」
24 真の値はただ⼀つのみ.ばらつくのは区間︕︕
25 ハザード⽐1.02 : 95%信頼区間 0.92~1.13 1. 効果量(点推定量)の⼤きさ(1.02) 2. 区間推定の精度(区間の幅) 3.
効果量が有意かどうか(1を含むかどうか) 評価すべきポイント
26 Take Home Message • P値だけでは効果の⼤きさは評価できない • P-hackingは絶対にしない︕︕︕ • 「統計的有意性」と「臨床的有意性」を混同しない
• サンプルサイズも意識したP値の評価 • 検定から推定へ(P値から95%信頼区間) • P値を正しく理解して正しく使おう