Upgrade to Pro — share decks privately, control downloads, hide ads and more …

サイコロで理解する統計的仮説検定の考え方

 サイコロで理解する統計的仮説検定の考え方

2024/04/20 第112回R勉強会@東京(#TokyoR)
初心者セッション発表資料
https://tokyor.connpass.com/event/312792/

「統計的仮説検定」がどのような考え方に基づいているかを、サイコロなどの例を交えながら解説します!

以下のような疑問が解消できればと考えています!
・ 帰無仮説?p値?有意水準?ナニソレ???
・ R で検定してみたけど、出力内容をどう読めばいいの???
・ 「有意差あり」って、意味の有る差があったってこと???(小泉構文)

tatamiya

April 20, 2024
Tweet

More Decks by tatamiya

Other Decks in Programming

Transcript

  1. 名前: たみや(a.k.a. 畳屋民也 / たみ〜たみゅたみゅ) Twitter X: @tatatatatamiya (@AkapippiBot) 仕事:

    FinTech企業 「 ーたさいえん ぃす 」的 さむしんぐ R 歴: そこそこ真面目 使い始め から 半年くらい? 趣味: カレー(特 スリランカカレー) 最近 悩み: 部屋探し 苦戦中(2LDK賃貸 争奪戦) 資格: 統計検定1級(応用 社会科学を選択) 🎲自己紹介🎲 無事決まりました!
  2. 今日お話しするこ 「統計的仮説検定」が よう 考え方 基 い いるかを、サイコロ 例を交え がら解説します! 以下

    よう 疑問が解消 きれ 考え います! • 帰無仮説?p値?有意水準?ナニソレ??? • R 検定し みたけ 、出力内容を う読め いい ??? • 「有意差あり」 、意味 有る差があ た こ ???(小泉構文)
  3. 統計的仮説検定を使うシチュエーション 例 例え Web マーケティング 、A/B テスト い ユーザーをランダム 分け

    異 るコンテンツを見せるこ 、施策効果 測定・検証を行う。 当店 お買い得商品を今すぐチェック! 数量限定 す お早め ! パターンA 今すぐチェックし み ください! 💰お得 商品が盛りだくさん す! 数量限定!急い !⏰ パターンB 50% 50% ランダム 割り振る
  4. A/B テスト 結果 ユーザー数: 1005 購入金額平均: 1001.677     分散: 10454.14 当店

    お買い得商品を今すぐチェック! 数量限定 す お早め ! パターンA 今すぐチェックし み ください! 💰お得 商品が盛りだくさん す! 数量限定!急い !⏰ パターンB ユーザー数: 995 購入金額平均: 1008.210     分散: 10994.97 B 方が購入 金額が高 い??
  5. そもそも統計的仮説検定 ...? 「仮説検定」 、統計的仮説 「有意性」 検定 ある。 仮説 下 われわれが期待するも

    、観測した結果 違いを、 これら 差が単 「偶然」 よ 起きたも か否か いう見地から、確率 基準 評価する。 — 東京大学教養学部統計学教室 編「基礎統計学I 統計学入門」(東京大学出版会) P.233 https://www.utp.or.jp/book/b300857.html
  6. すごろく ... 2 → 1 → 1 → 1 →

    4 → 5 → 4 → 1 → 6 → 2 6 → 2 → 3 → 6 → 2 → 6 → 2 → 6 → 4 → 6 おかしい! イカサマし る しょ! 偶然だよ。 Aさん Bくん 6 目が10回中 5回出た! 問: B君 サイコロ 本当 イカサマか?
  7. うすれ Bくん サイコロがイカサマ あるこ を突き止めら れるか? <Aさん アイディア> い たん

    Bくん サイコロがイカサマ くきちん 1/6 確率 6 目が出る 仮定し しまう。 こ 場合 、「10回中5回以上6 目が出る」こ が れだけ起こり得 いこ かを示そ う! りあえず、5%未満 ら「通常 あり得 いこ が起きた」 考えるこ しよう!
  8. 10回中6 目が k 回出る確率 6 目が出る回数 確率 0回 16.2% 1回

    32.3% 2回 29.1% 3回 15.5% 4回 5.43% 5回 1.30% 6回 0.217% 7回 0.0248% 8回 0.00186% 9回 0.0000827% 10回 0.00000165% (二項分布) → 6 目が5 回以上出る確率 、1.55 %
  9. 真実 い も (!?) め たしめ たし...? 10回中5回以上6 目が 出る

    ん 1.55%しかおこ ら い!Bくん サイコロ イカサマだ! バレたか、ごめん ! (※注:Aさん)
  10. Aさん や たこ を整理し みる 問い: Bくん サイコロ 、⅙ より大き

    確率 6 目が出るか? 観測結果: B君 サイコロ 、10回中5回 6 目が出た 結論:B君 サイコロ 、⅙ より大き 確率 6 目が出る 考えた方が自然 ある(上記 確率が5%より小さいため) 仮定 基 く帰結: ⅙ 確率 6 目が出る あれ 、「10回中5回 6 目が 出る」確率 1.55% ある 仮定: B君 サイコロ ⅙ 確率 6 目が出る する
  11. 問: パターンA,B購入金額 差 あるか? パターンA ユーザー数: 1005 購入金額平均 : 1001.677

        分散: 10454.14 パターンB ユーザー数: 995 購入金額平均: 1008.210     分散: 10994.97 観測結果 仮定: パターンA, B 購入金額 差が い する 「差が い」 いう仮定 も 、上記 観測 結果より大き 差が得られる確率 う る か? ← 6.53円 差 →
  12. 「差が い」 仮定した場合 差 分布 一定 数学的 仮定 も 、以下

    よう 形 分布 従う(後述) 本来「パターン A, B 差が い」場合 も、偶然 よ 平均購入金額 差 A - B 差が出 しまう。 → こ 時 偶然 よる差 、 よう 確率分布 従うだろうか?
  13. 観測された値以上 極端 値が出る確率 -6.53 6.53 パターンA B 、購入金 額 差がある

    言い切 れ い パターンA,B 差が い場 合 も、15.9% 確率 |x A - x B | > 6.53 る ➡「本来差が いが偶然 6.53円 差が出た」 いう 可能性が捨 きれ い! 「パターンA B 平均購入金額 差が6.53より大きく る」確率 、 下図 網掛け部分:
  14. 結論: パターンA B 、購入金額 差がある 言い切れ い A/Bテスト おける仮説検定 流れ

    問い: パターンA,B 購入金額 差 あるか? 観測結果: パターンB 方が平均購入金額が6.53円高か た 仮定 基 く帰結: A,B 差が い あれ 、6.53円より大き 差が出る確率 15.9% ある(※) 仮定: パターンA, B 購入金額 差が い する ※分布 関する仮定が満たされ いる場合
  15. (参考)数理的 突 込んだ話: Welch t 検定 仮定: パターンA,B を見た各ユーザー 購買金額

    x A , x B が、以下 よう 互い 独 立 ガウス分布 従 いる する: こ き、右記 統計量 t 分布 P(t) を 自由度 k* Student t 分布 t(k*) 近似 きる: ユーザー数 平均購入金額 標本分散 (詳細略)
  16. 例)Bくん サイコロ ⅙ (以下) 確率 6 目が出る   メッセージパターンA, B 購入金額

    差が い 問いを立 る 仮定 も 観測された事 象以上 極端 事象が起き る確率を計算する 例)Bくん サイコロ ⅙ より大きい確率 6 目が出 いるか?   メッセージパターンA, B 購入金額 差 あるか? 統計的仮説検定 流れ 問い 対し 否定的 仮定 を置く → p値 → 帰無仮説 例)5回以上6 目が出る確率 1.55%   A B 平均購買金額 6.53円以上 差が出る確率 15.9%
  17. 例)パターンA,B 平均購入金額 差が ある も い も言いきれ い p値をも う判断するか?

    仮定が正しい可能性が捨 きれ い 得られた確率が、あらかじめ 設定した閾値より小さいか? → 有意水準 仮定 間違 いた 考え る が妥当 例)Bくん サイコロ 1/6より大き 確率 6が出る 考える が妥当 小さい 等しい or 大きい (帰無仮説 棄却) (帰無仮説 保留) (有意差あり) (有意差 し)
  18. R 出力結果 戻る ... p値が0.159だから、有意 水準5% し 有意差 し !

    先輩 -6.53 6.53 A B 本来差が い し た場合、偶然 よる差が 6.53より大きく る確率が 15.9% こ す !
  19. p値以外 出力内容 何を意味し いる? 対立仮説(⇔帰無仮説) 今回 場合、「A B 購入 金額

    差が0 い(差 がある)」 95%信頼区間 後述。こ 区間 0が含まれ い けれ 、5% 有意水準 有意差あり 判断 きる。 検定手法 今回 場合、Welch 2標本母平均 差 検定 検定統計量&パラメータ t: t 統計量 df: 自由度 (degree of freedom)
  20. (※こ あたり 話 詳しく説明しよう する 結構複雑 割愛) ここ いう「95%信頼区間」 ?

    (有意水準5% 有意差 し 場合) (有意水準5% 有意差あり 場合) 観測値 観測値 りあえず「0をまたい いたら有意水準5% 有意差 し」 見做せる、 理解し おけ よい。
  21. 補足: 線形回帰モデル 場合 各説明変数 い 、 帰無仮説: 係数が0 する検定を行 いる。

    これ より、ある説明変数が予 測 寄与し いる み す が 妥当かを判断する。 p値 相当 有意水準 段階別 * マークが く 例:3変数 よる重回帰
  22. 有意差が出 か たから、パターン A,B 差 い、 こ か ... 以上、統計的仮説検定、完全

    理解した!!? 有意 差があ たから、 Bくん サイコロ 6が出る確率が1/6じゃ い こ ! 頑張 施策打 た ... や B や イ カサマし やが た! ちょ 待 た!
  23. → 本来差が い 「有意差あり」 いう結果が出 しまうこ がある 本当 たまたま んだ

    ... 誤解1: 「有意差が出た ら差がある」 … P値が1.55 % いうこ 、逆 いう イカサマをし い く も1.55 % 確率 「10回中5回以上 6 目が出る」 いう事象が起きるこ を意味する。 10回中5回以上6 目が 出る ん 1.55%しかおこ ら い!Bくん サイコロ イカサマだ! イカサマ んかし い い ... い。
  24. → 有意差が い場合 も、本来 差がある たまたま検出 き か ただけ いう

    場合もある。 10回中4回以上6 目が 出る 6.97%もあるから イカサマじゃ い 。 疑 ごめん ! 誤解2: 「有意差が けれ 差 い」 別 いいよ♪ ダイジョブダイジョブ。 本当 イカ サマ んだ け ネw
  25. 「統計だけ 白黒 きりさせる」 いう思考 捨 るべき。 ぜ ら、以下 よう こ

    があるため: • 「有意差あり」 も本当 差が いケースがある • 「有意差 し」 あ も、差が検出 き い いだけかもしれ い → こうした事情を念頭 置いたうえ 、あくま も判断材料 し 扱う が望ま しい。 仮説検定を行う際 注意事項 統計的仮説検定 真実 わから い!!
  26. 統計的仮説検定 活かし方: 有意差あり 場合 サイコロ叩き割 もいい よ? ただ、間違 たら罰金 1,000円払

    。 判断を誤 た際 よう 問題があるかを念頭 置いたうえ 、アクションを 決める P値: 0.0155 仮 違 た し も、1,000 円 ら叩き割ろう! ⚠注意⚠ 「帰無仮説が正しい(イカサマし い)確率が1.55%」 誤り
  27. 10回中4回以上6 目が 出る 6.97%だから、ボ クがイカサマし いる 限ら いよ ♪ 統計的仮説検定

    活かし方: 有意差 し 場合 ぐ ... もう少し別 証拠を集める か... ※「有意差が出るま サイコロを振り続ける」 NG 他 判断材料を集め 総合的 判断する P値: 0.0697
  28. 結局 ころ... ドメイン知識やビジネス的 意義 併せ 判断しましょう … ABテストだ よう 判断する

    いい? • 有意差あり 場合 ◦ ビジネス背景・ドメイン知識 照らし合わせ 不自然 いか、結果 解釈を試みる ◦ 誤 た判断をし いる可能性を念頭 置き 、次 施策 繋げる • 有意差 し 場合 ◦ ドメイン知識 照らし合わせ 解釈し、結果 妥当性を吟味する ◦ 必要 応じ 、適切 実験を再設計する
  29. ころ 、有意水準 う決めれ いい? 5%が使われるこ が多いが、明確 根拠 くあくま も慣例。 要件次第。

    ※論文・報告書 、有意差 有無だけ く、有意水準 加え 以下 よう 情報も 明記しましょう。 • 使 た検定手法 • サンプルサイズ • p値 いくらだ たか? … そ ほか、「効果量」 いう量 算出も推奨され いる(割愛)
  30. 再掲:そもそも統計的仮説検定 ...? 「仮説検定」 、統計的仮説 「有意性」 検定 ある。 仮説 下 われわれが期待するも

    、観測した結果 違いを、 これら 差が単 「偶然」 よ 起きたも か否か いう見地から、確率 基準 評価する。 — 東京大学教養学部統計学教室 編「基礎統計学I 統計学入門」(東京大学出版会) P.233 https://www.utp.or.jp/book/b300857.html → ただし、あくま も目安 しか い。 ドメイン知識 併せ 判断すべし! 例: 6 目が出る確率 ⅙(帰無仮説) 例: 6 目が出る確率が⅙ ら、10回中5回以上6 目が出る確率 1.55%(p値) p値 < 有意水準(有意差あり) → 偶然 し 不自然だから、サイコロ イカサマだろう。 p値 >= 有意水準(有意差 し) → 偶然起きた し もおかしく いから、サイコロがイカサマか わ から い。
  31. • ステップ1. 統計 考え方 基本的 手法 使い方を学ぶ • ステップ2. 検定手法

    背後 数理的 仮定を理解する ◦ データが仮定を満たし い いまま手法を適用する 、誤 た判断 繋がるこ があるため。 統計 学 方 何が前提・仮定 し 置かれるかを理解しよう!
  32. (再掲)数理的 突 込んだ話: Welch t 検定 仮定: パターンA,B を見た各ユーザー 購買金額

    x A , x B が、以下 よう 互い 独 立 ガウス分布 従 いる する: こ き、右記 統計量 t 分布 P(t) を 自由度 k* Student t 分布 t(k*) 近似 きる: ユーザー数 平均購入金額 標本分散 (詳細略)
  33. 概念的 理解や R よる実行方法 学習 慣れ きたら、数理統計 学習を通し 各手法 背後

    ある仮定(特 分布まわり)を理解しましょう。 Q. 手法 数理的 背景を理解する ? <お薦め書籍> 神永 正博、木下 勉 著 R 学ぶ確率統計学 一変量統計編 http://www.rokakuho.co.jp/data/boo ks/0123.html 多変量統計編 http://www.rokakuho.co.jp/data/boo ks/0124.html 内田老鶴圃 (2019) (そ ほか、統計検定準1級・1級 対策用 し よく挙げられる書籍 も)
  34. 上田 拓治 著 44 例題 学ぶ統計的検定 推定 解き方 オーム社 (2009)

    https://www.ohmsha.co.jp/book/97842740676 00/ Q. ういうケース 、 ん 手法を選べ いい ? 場合 よりけり。 今回 発表 解説しきれ い 、以 下 書籍をお薦めします: