P値のトリセツ

P値のトリセツ⻑崎⼤学病院初期研修医1年⽬中島誉也

Attention 今回の発表には少々過激な内容も含みます取り扱い⽅については各⾃の判断でお願いします

3 P値＜0.05 → 有意を撤廃せよ!! 世界の科学者達

5 URL:https://jamanetwork.com/journals/jama/fullarticle/2676503

6 URL:https://www.nature.com/articles/s41562-017-0189-z

7 URL:https://www.nature.com/articles/d41586-019-00857-9 800⼈!?

8 P値反対側の意⾒ • 研究の⽬的がP値を有意にすることにしか関⼼がない • サンプルサイズを無視してP値の計算を⾏なっている • 実際の効果の⼤きさへの吟味を軽視している • 有意になった変数しか報告せず，後続に⽣かせていない研究が多い
• P値 = 0.049とP値 = 0.051の差を⽐較することの意義なぜこんなにもP値は嫌われているのか︖ P値科学者A 科学者B 科学者C

9 P値のあるあるな誤解 • P値は帰無仮説が正しい確率である • 統計的に有意(P値が0.05未満)ならば臨床的にも重要な関係がある • 検定結果が有意でない(P値が0.05以上) ならば
① 帰無仮説が正しく，採択すべきであることを意味する ② 効果は⾒られなかった，効果がないことが証明された

10 P値の定義は︖ • 特定の統計モデルのもとで，データの統計的要約 (例えば，2グループ間での標本平均の差)が観察された値と等しいか，より極端な値を取る確率 -The ASA Statement on
p-Values- • 帰無仮説が正しいとした時の確率分布のもとで，観測したデータによる統計量の値，もしくはそれより極端な統計量をとる確率 • 帰無仮説が正しいという前提において，それ以上に偏った検定統計量が得られる確率ざっくり⾔うと，P値はデータと帰無仮説が⽭盾する程度の指標

11 有意⽔準α P値が事前に設定した有意⽔準α(⼀般的にα = 0.05) を下回った時に，帰無仮説を棄却できる有意⽔準︓帰無仮説が間違っていると判断する確率

12 差がないという仮定を誤って棄却する確率→有意⽔準︕︕ α = 0.05とすると，確率は5% (正解) A群とB群とで⼊院期間に差がないと仮定した場合に，今⾒られているA群とB群の差が発⽣する確率は3.6%

統計的有意性とP値に関するASAの6声明 13 1 P値は「そのデータが,仮定した統計モデルとどれくらい適合しないか」を⽰す指標である 2 P値は調べている仮説が正しい確率やデータが偶然のみで得られた確率を測るものではない 3 科学的結論及びビジネス,
政策上の意思決定は「P値がある特定の値を超えたかどうか」のみによるべきではない 4 適切な推論のためには，全てを報告する透明性が必要である 5 P値や統計的有意性は効果の⼤きさや結果の重要性を測るものではない 6 P値そのものだけではモデルや仮説に関するエビデンスのいい指標とはならない

14 4. 適切な推論のためには，すべてを報告する透明性が必要である論⽂内で必ず報告すべきもの • 研究のモチベーション，デザイン • 当初予定していた解析計画 •
対象者の選択，除外の理由 • 実施したすべての解析・ P値や関連する解析は選択して報告してはいけない → ∵ P-hackingのリスクがある

P hackingとは︖ 15 1．⾏った条件や測定した変数の⼀部しか報告しない 2．参加者を少しずつ⾜しながら分析を⾏い，有意にしたい変数が有意差を⽰した時点で⽌める 3．さまざまな変数を⽤いて解析を⾏い，有意になった組み合わせのみを報告する 4. 有意な結果が出なければ，Publishしない
→ 出版バイアスダメ!!絶対!!

16 5. P値や統計的有意性は効果の⼤きさや結果の重要性を測るものではない例) Aという薬剤が肺癌による死亡を有意に低下させた．しかし，実際にAを使⽤した時の効果は従来の薬と⽐較して死亡率を2%低下させるだけであった．「統計的に有意であること」と「臨床的に有意であること」は違う︕ これは臨床的に意味があることなのか︖︖

17 5. P値や統計的有意性は効果の⼤きさや結果の重要性を測るものではない • どんな⼩さな効果でも，サンプルサイズが⼤きければ必ずP値は有意になる • 同じ効果の⼤きさでも，サンプルサイズによって異なったP値となる

18 5. P値や統計的有意性は効果の⼤きさや結果の重要性を測るものではないサンプルサイズnが⼤きいほど，検定統計量は⼤きくなり P値は⼩さくなる → 有意になりやすくなる︕ （証明）

19 統計的有意差なし(P値 ≧ 0.05) その変数には差がないそのデータでは差があることを⽰せなかった

20 じゃあどうすればいいんだ．．．︖

21 検定から推定へ

P値の誤解をしない/されないためには︖ 22 1．効果量(平均値の差，オッズ，ハザード⽐)を必ず記載する 2．P値(検定結果)ではなく，95%信頼区間(推定結果)を記載する TIVAによる⿇酔導⼊を⾏った群を参照とした時，吸⼊⿇酔薬による⿇酔導⼊を⾏った群では有意なPONVリスクの上昇を認めた(p値 = 0.002) TIVAによる⿇酔導⼊を⾏った群を参照とした時，
吸⼊⿇酔薬による⿇酔導⼊を⾏った群では有意なPONVリスクの上昇を認めた (リスク⽐ 3.36, 95%信頼区間 3.20 ~ 3.57)

23 95%信頼区間のあるあるな誤解 • 信頼区間にハザード⽐が1を含むかどうかだけに注⽬すればいい → 「P値<0.05」かどうかの判断と⼀緒信頼区間の幅も⾒ることで，精度，サンプルサイズの評価もできる • 「0.92から1.13の間に真のハザード⽐がある確率は95%」である →
100回，同じ⼈数を抽出するランダムサンプリングを⾏なった時に，それぞれの信頼区間に真の値が⼊る回数が95回例）「ハザード⽐1.02: 95%信頼区間 0.92~1.13」

24 真の値はただ⼀つのみ．ばらつくのは区間︕︕

25 ハザード⽐1.02 : 95%信頼区間 0.92~1.13 1. 効果量(点推定量)の⼤きさ(1.02) 2. 区間推定の精度(区間の幅) 3.
効果量が有意かどうか(1を含むかどうか) 評価すべきポイント

26 Take Home Message • P値だけでは効果の⼤きさは評価できない • P-hackingは絶対にしない︕︕︕ • 「統計的有意性」と「臨床的有意性」を混同しない
• サンプルサイズも意識したP値の評価 • 検定から推定へ(P値から95%信頼区間) • P値を正しく理解して正しく使おう

P値のトリセツ

P値のトリセツ

Nakashima Takaya

More Decks by Nakashima Takaya

Other Decks in Research

Featured

Transcript