Upgrade to Pro — share decks privately, control downloads, hide ads and more …

R.Q.(リサーチ・クエスチョン)構築という視点から  伝統的検定手法とベイジアン推定を比較する

419kfj
December 07, 2024

R.Q.(リサーチ・クエスチョン)構築という視点から  伝統的検定手法とベイジアン推定を比較する

本発表は、研究者が使用可能である統計的検定技法が、R.Q. (リサーチクエスション)を規定してしまう本末転倒の事態があることを指摘します。その原因に伝統的統計学の検定論(NHST:帰無仮説有意性検定)がありますが、この問題を解決する手掛かりに、ベイジアン推定を用いることができること、ただし、それは、必要条件でしかないこと、また、rstan のような MCMC を用いてベイジアン推定を行う際に、生成量を活用することで、帰無仮説の棄却による対立仮説の採択をもって研究仮説が証明されたとする短絡を回避することが可能になることを述べます。
こうしたことを、歴史的データ(Student の睡眠データ)を用いて、t- 検定と MCMC を用いたベイジアン推定を比較し例示しました。
この比較を踏まえると、立てられる R.Q の内容が調査仮説の検討の精緻さ
に関係していることが明らかとなり、ひいては、調査仮説の上位に位置する研究仮説の精緻さを支えるものであるということが明確になります。
こうした点を踏まえて、ベイズアプローチを使うポイントを考えていきたい。

419kfj

December 07, 2024
Tweet

More Decks by 419kfj

Other Decks in Science

Transcript

  1. 自己紹介(1) •1955年 東京生まれ •ガラス加工の町工場の息子 •家族 • かみさん • 娘が二人。 •

    二人とも自立。 • 一人は、5年前に母親に。孫が2人。じーさん、となる。
  2. 自己紹介(2) • 学部は、上智大学 理工学部電機電子工学科。卒研は「血液の光学的特性」 • 最初の就職(1978)は工業計器メーカー。 • 転職して、コンピュータ系へ(1980)。 • IBMメインフレーム端末の日本語化など。

    • 1990から、東京都立大学(一時期、首都大学東京)の社会科学研究科に入学。 • 1992 社会学修士「G.Hミードにおけるシンボルとコニュニケーション」 • 終了後、会社にもどり、営業企画部門に異動。 • 2002 作新学院大学に転職:担当、社会学、社会調査。 • 2020/3 定年退職(専任教員18年間、その後1年間は客員教授で非常勤講師) • 2020年度2021年度、実践女子大学「社会心理学調査実習」担当。 • 2021年度からは、東京女子大学「社会統計学I、II」 • 現在、津田塾大学 数学・計算機科学研究所 特任研究員、国立情報通信研究 機構(NICT) 招へい専門員。
  3. 研究テーマ:「対応分析」 • 2004年ごろ?Rと出会う。 Ver1.9x? • 社会調査実習の指導で使う。 • 「対応分析」との出会い Correspondence Analysis

    の翻訳本の「解説編」でR で検算、を書く。『対応分 析入門』 • 2020年11月翻訳『対応分析 の理論と実践』
  4. 研究テーマ(その2) • 科研費「データの幾何学的構造に注目したカテゴリカル・デー タの研究」★これが本命 • KAKENでの説明 https://nrid.nii.ac.jp/nrid/1000040348090/ • 「対応分析」ってなんですか、というコラム •

    作新学院大学の図書館ニュースレター:https://bit.ly/2XyorN2 • 近似された運動強度として心拍測定を元にLT(乳酸閾値 lactate threshold)直前のペース走をモニタする方法の研究 • 趣味のランナーです。もう歳なので、無理せずノンビリ、でも軽快 に!をモットーに走ってます。
  5. 構成 • 問題の所在 • 頻度主義による信頼区間解釈の 不自然さ • 頻度主義の検定論 • 解決できなことは問として立ち

    現れない • 伝統的検定手法としてのt-検 定とベイジアン推定 • t-検定による分析 • Sleepデータのベイジアン推定 • t-検定と同じことをする • 生成量による柔軟な判定 • R.Qの「拡張」 • 実演(rstanでMCMC) • ベイスを使えば問題解決、で はない。 • 精緻な研究仮説へ • 付録 • ベイズの定理とMCMCの間
  6. 概要 本発表は、研究者が使用可能である統計的検定技法が、R.Q. (リサーチクエス ション)を規定してしまう本末転倒の事態があることを指摘します。 その原因に伝統的統計学の検定論(NHST:帰無仮説有意性検定)がありますが、 この問題を解決する手掛かりに、ベイジアン推定を用いることができること、た だし、それは、必要条件でしかないこと、また、rstan のような MCMC を用いてベ

    イジアン推定を行う際に、生成量を活用することで、帰無仮説の棄却による対立 仮説の採択をもって研究仮説が証明されたとする短絡を回避することが可能にな ることを述べます。 こうしたことを、歴史的データ(Student の睡眠データ)を用いて、t- 検定と MCMC を用いたベイジアン推定を比較し例示しました。 この比較を踏まえると、立てられる R.Q の内容が調査仮説の検討の精緻さ に関係していることが明らかとなり、ひいては、調査仮説の上位に位置する研究 仮説の精緻さを支えるものであるということが明確になります。 こうした点を踏まえて、ベイズアプローチを使うポイントを考えていきたい。
  7. 超簡単な統計学史 科学の文法 KPearson 近代統計学の父 R.A.Fisher Neyman=E.Pea rson ベイズ統計学 2016ASA会長声明 p値ハッキング

    現代統計学* データサイエンスの現場?では 常識。 オーソドックス統計学* 『実験計画法』で 「逆統計」 (ベイズ統計学)批判 ベイス統計は、戦時下活用 されて成果をあげていた。 コンピュター環境が必要.. ずっと日の目をみないできた。 Efron 計算機統計学
  8. NHST:Null Hypothesis Significance Testing • 帰無仮説有意性検定 • オーソドックス統計学で統計的検定と呼ばれるのはこれ。 • 立証したい仮説(AとBは差がある:対立仮説と呼ぶ)に対して、そ

    れと反対の仮説(AとBには差がない)を帰無仮説として、データか ら検定統計量(いわゆるp値)を求める。 • 現実が帰無仮説状態だとして、手に入ったデータの状態が起こる確 率(p値)を確認する。 • それが、0.05(いわゆる5%水準)よりも小さければ、手にしている データが発生する確率は(5%より)「小さい」として、そんなこと はたまたま発生したのではなくて、帰無仮説の状態には、ない、と 考え(帰無仮説を棄却)て、対立仮説を採択する。
  9. この有意性検定は、定式化されている • データから検定統計量をもとめる • t-検定 • カイ二乗検定 • …検定 •

    その検定統計量から、p値をもとめる • 教科書的には、数表を使う。この検定統計量なら、p値は、xxよりも 小さい、とか、大きいという判定をする。 • しかし、ExcelでもRでもずばり、計算できる。(教科書にはやり方が のってない…)
  10. NHSTを支える決め技! https://419kfj.shinyapps.io/CLT2/ • 大数の法則 • 標本数nが大きくなれば、標本統計量は、母統計量に近くなる。 • 母分散をシグマとすると、 σ2 n

    • 中心極限定理 • 標本をたくさん取るとする。(ここ、強調しないと後で躓く) • その標本ごとに、標本統計量(平均値など)を考える。 • その標本統計量は分布する。 • その分布は、母分散がなんてあっても「正規分布」で近似できる。 • サイコロ実験で理解する中心極限定理。https://419kfj.shinyapps.io/CLT2/ • この仕組みをつかって、信頼区間を考え、統計的検定を考える(組 み立てる)
  11. t-検定の実際 • t-検定の生みの親、Student(ゴセット氏のペンネーム)論文、 The Probable Error of a Mean, 1908

    のデータを使って、計算例を 考える。 • その事例 • 2種類の睡眠促進剤がある(ここではA剤、B剤とする)。これを10人 の被験者に投与して、その効果を測定した。 • この結果に対して、t-検定を行う。(B剤の方が効果が大きいか) • データセットは、Rにhistoricalデータ(sleep)として付属してい るので、それを使う。
  12. RmarkdownとRstan_sleep.rstan scr<-“Rstan_sleep.stan” # ここで、Rstan_sleep.rstanというrstanファイルを指定(次ページ) data <-list(N1 = 10, N2 =

    10, x1 = sleep.df$A, x2 = sleep.df$B ) Par <-c("mu1","mu2","sigma1","sigma2","delta","delta_over","delta_over1") war <- 1000 ite <- 11000 see <- 1234 dig <- 3 cha <- 3 fit<- stan(file = scr, data = data, iter=ite, seed=see, warmup=war,pars=par,chains=cha)
  13. // The input data is a vector 'y' of length

    'N'. data { int<lower=0> N1; int<lower=0> N2; real x1[N1]; real x2[N2]; } // The parameters accepted by the model. Our model // accepts two parameters 'mu' and 'sigma'. parameters { real mu1; real mu2; real<lower=0> sigma1; real<lower=0> sigma2; } transformed parameters { real<lower=0> sigma1sq; real<lower=0> sigma2sq; sigma1sq = pow(sigma1,2); sigma2sq = pow(sigma2,2); } // The model to be estimated. We model the output // 'y' to be normally distributed with mean 'mu' // and standard deviation 'sigma'. model { x1 ~ normal(mu1,sigma1); x2 ~ normal(mu2,sigma2); } generated quantities{ real delta; real delta_over; real delta_over1; delta = mu2 - mu1; delta_over = step(delta); delta_over1 = delta > 1 ? 1 : 0; } ← 生成量の定義
  14. delta_over • delta_over は、B-Aが>0であれば1をたてているので、そ の平均値は、全体のサンプリングの中で、B-A>0の割合になっ ている。 • delta_overの値は、0.94。 • つまり、B-A>0

    がTRUEは、全体の94%を占めている、ということが わかる。 • delta の推定平均値は、1.60になっていて、t-検定の検定統計量の1.58 とほぼ同じ値である。 • ここまでであれば t-検定と同じ。
  15. 修正するrstanファイル generated quantities{ real delta; // 平均値B-平均値Aの変数 real delta_over; //

    B-Aが正である場合に、1、else0 real delta_over1;// B-Aが1以上の場合に、1、else0 delta = mu2 - mu1; delta_over = step(delta); delta_over1 = delta > 1 ? 1 : 0; delta_over15 = delta > 1.5 ? 1 : 0; delta_over2 = delta > 2 ? 1 : 0; delta_over3 = delta > 3 ? 1 : 0; }
  16. こうした「手法」が手元にあるのであれば、 • ResearchQuestionとして • R.Q.1 睡眠延長時間が 95%の確率で A < B

    である。 • R.Q.2 睡眠延長時間が、A < Bで1時間以上の差がある確率はいくつか。 • R.Q.3 睡眠延長時間が、BはAの1.5倍となる確率はいくつか。 • などなど。 • を用意していいわけである。 • 睡眠導入剤の評価方法は、まったくの門外漢であるので、なん とも言えないが、「ちょっとでも効果あり」つまりB-A > 0の 判定で効果ありというのではなく、(例えば)1時間の差があ る、というような主張をすべきだと思われます。
  17. しかし、ベイズを使えば、OKなのか • ベイズ推定を使えば、決めこまかいR.Q.に対応した生成量を計算す ることができる。 • では、ベイズを使えば「問題」解決なのだろうか。 • ベイズは正しい?????? • t検定を使う場合でも同じなのだけど、そもそもなにをしているのか、を明

    確にしているか。 • 「検定」といって、なにをしているのか。 • 伝統的検定論がすばらしく定式化されているために、その部分を明 治しなくても、話が「通る」環境ができてしまっている。お作法と しての検定! • ベイズ推定をお作法にするのか…。 • お作法につるには、ちょっと面倒。
  18. ベイズ推定の特徴を整理する • 従来の統計分析 • データが手に入ってから分析スイッチがオンになる。 • ベイズ統計学 • データを手に入れる前に、存在する情報を「事前分布」として手にい れたデータに加味して分析スイッチがオンになる。

    • この事前分布の扱いが論争の一つの焦点 • 私的ベイズ • 個人、組織(企業など)で処理するならなにつかってもOKでしょう。 • 公的ベイズ • その事前分布に対する評価で対立があった場合、どうするのか。
  19. ベイズの定理からMCMCへ • ベイズの定理 • これは頻度主義者(Fisherでも)認める数学的な定理。 • 事前分布の扱いをめぐっては、私的/公的、いろいろあり。 • ベイズの定理を使って、ベイズ更新(事前分布を設定し、そこに手 にいれたデータを投入し事後分布を計算する)を行うパターン

    • ベイズ推定を解析的に可能になる例 • 取得したデータ(ここから尤度関数を計算)に対応する共役事前分布を決定 できる場合 • データ:二項分布の場合…ベータ分布 • データ:正規分布の場合....正規分布 • 分布が複雑で、こうした共役分布をきめられないとき… • MCMCの出番。モンテカルロ積分。マルコフ連鎖モンテカルロ積分。
  20. 検討すべきポイント • 三中2018は、以下の3点を整理 • ベイジアンMCMCの利用は急速に拡大しているが、以下の3点は以 前から指摘されている。 1. 事前分布をどのように設定するのか、その妥当性あるいは結果への影響は どのようにして評価されるのか。 2.

    MCMCが収束したかどうかはいつどのようにして判定すればいいのか 3. ベイズ主義をめぐる”哲学的”な問題点はなに一つ解決していない。 • ベイジアンMCMCに限ったことではありませんが、大多数の統計 ユーザは、手近にある役にたつ統計手法に手を伸ばしているにすぎ ません。(略)役にたつ統計ツールの背後に潜む理論的問題、ある いは、哲学的問題に時には目を向けることも必要だと私は(引:三 中先生)こころから言いたいです。
  21. 参考文献 • 柳川堯. 『P値: その正しい理解と適用』.統計スポットライトシリーズ 3. : 近代科学社, 2018年. •

    朝野熙彦. 『ビジネスマンがはじめて学ぶベイズ統計学: ExcelからRへステップアップ』, 2017年 • 朝野煕彦, 土田尚弘, 河原達也と藤居誠. 『ビジネスマンが一歩先をめざすベイズ統計学: Excelから Rstanへステップアップ』. 東京: 朝倉書店, 2018年. • 三中信宏. 『統計思考の世界:曼陀羅で読み解くデータ解析の基礎』. 技術評論社, 2018年. • 豊田秀樹, 編. 『基礎からのベイス統計学:ハミルトニアン モンテカルロ法による実践的入門』 朝 倉書店, 2015年. • 豊田 秀樹. 『はじめての統計データ分析: ベイズ的<ポストp値時代>の統計学』 朝倉書店, 2016年. • 藤田和也. 『見えないものを見る--それがベイス:ツールによる実践ベイズ統計』. 27年. • シャロン・バーチュ・マグレインと富永星. 『異端の統計学ベイズ』草思社, 2013年. • 松浦健太郎 『StanとRでベイズ統計モデリング』. 共立出版, 2016年. • Wasserstein, Ronald L., Nicole A. Lazar. 「The ASA Statement on p -Values: Context, Process, and Purpose」. The American Statistician 70, no. 2 (2016年4月2日): 129–33. https://doi.org/10.1080/00031305.2016.1154108. • 日本語訳:日本計量生物学会 https://www.biometrics.gr.jp/news/all/ASA.pdf • Student, The Probable Error of a Mean, 1908, Biometrika Vol. 6, No. 1 (Mar., 1908), pp. 1-25 (25 pages) Published By: Oxford University Press https://www.jstor.org/stable/2331554 • Sleep Data https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/sleep.html