Upgrade to Pro — share decks privately, control downloads, hide ads and more …

実験データ解析再入門:論文を「フェイクニュース」にしないために

 実験データ解析再入門:論文を「フェイクニュース」にしないために

脳科学若手の会ワークショップ(2022.3.13)

神谷之康(京都大学・ATR)

概要
概念や仕組みをよく理解しないまま実験データの解析で使っている統計手法はありませんか。神経科学では大規模で多様なデータ取得が可能となり、統計解析の重要性が増しています。昔なら比較的無害だった統計の誤用が致命的な偽陽性を生み、論文を「フェイクニュース」にしてしまうことがあります。このワークショップでは、実験データ解析で最近よく使われるが授業ではあまり学ばない、効果量、サンプルサイズ設計、多重比較補正、交差検証、混合モデル、ベイズ推論、因果推論などの考え方のキモを、演習を交えて解説します。その後、参加者が作成する実験の事前登録(プレレジ)のサンプルについてディスカッションし、オープンで再現可能な研究実践法を身につけることを目指します。

Yuki Kamitani

March 13, 2022
Tweet

More Decks by Yuki Kamitani

Other Decks in Science

Transcript

  1. はじめに 研究環境はきびいしい。研究の重要性を社会に理解してもらい、環境改善をの必要性を訴え ていくことは大事。しかし、社会の信頼を得られるような研究を実践してきたか? とくに 神経科学は、「心を理解する」、「精神疾患の解明・治療」など、誰もその重要性は否定で きないお題目を掲げ、研究費的には優遇されてきた。その期待に応えてきたか? 派手にプレスリリースされる研究は、中身は怪しいものが多い。研究者が組織や研究環境を 維持するために「自己宣伝」することを一般の人も認識している。一部の大学、ファンディ ング機関のプレスリリースは「フェイクニュース」の代名詞化している。「まだ新しい学問 だから」「in its

    infancy」とか言って自己欺瞞を続けてきた結果、成熟した学問になれず、自 己宣伝や(QRPsにも?)に依存するようになってないか。 心理学では、1000回以上引用されている有名な研究を含め、過去の大部分の実験結果に再現 性がないがないことが明らかとなり、現在改革が進んでいる。神経科学も、追試がしにくく て問題が可視化されていないだけかもしれない。再現性の危機を受けて方法論の見直しが進 んでいる分野を参考に、研究実践をアップデートしよう。 3
  2. 神経科学では計測のハイスループット化が進み、現象をじっくり観察する機会が減ってい る。データ解析への依存度が高いと、不適切なデータ解析から誤った主張が導かれるリスク が高まる。実際、実験データをでたらめなデータ(生成したノイズや、ラベルや対応関係を シャッフルしたデータ)に置き換えても同じような「有意な結果」がでてしまうような解析 を行っている研究が多数「トップジャーナル」に掲載されている。 実験系神経科学のラボでは、PIが昔の感覚でデータ解析の指導をしているか、ポスドク・学 生に丸投げしていることが多い。若手研究者が、体系的に理解しないまま、過去の研究のコ ピペやパッケージ化されたツールで対応し、信頼性の低い「研究成果」を挙げ、次世代を指 導するポジションにつく、という悪循環が起こりかねない。 本ワークショップでは、最近の論文でよく使われるが授業ではあまり学ばない統計概念や手

    法のキモを解説する。実験データと統計モデルの関係に自覚的になるための視点を提供した い。また、実験計画の事前登録(プレレジ)のサンプルを作成してディスカッションするこ とで、信頼性の高い研究実践にむけての一歩を踏み出すことを期待している。 4
  3. 対象分野・課題 実験データ解析、とくに、神経科学における、行動計測、神経活動計測、イメージング、遺 伝子発現など、比較的ばらつきの大きいデータの統計推論(検定・推定)を想定。 神経科学の研究では、多様な実験手法を用い、比較的小規模な実験を多数行ってエビデンス を積み重ねて、一般的な主張を補強していくことが多い。統計の数理的ハードスキルだけで はだけでは不十分。研究対象と統計モデルの関係を把握しながら、実験・解析のセットを論 理的にまとめ上げるソフトスキルが要求される。よく「ストーリー」や「ナラティブ」とも 言われるが、お話をでっち上げることとは違う。 「データサイエンスブーム」の中身は、主に、機械学習と因果推論。生物系実験データ解析 は盲点で、教養レベルの統計を授業で学んだ後は独習するか、過去の研究の模倣やパッケー

    ジ化されたツールに依存することが多いのでは。 「実験(介入)」できることは研究上大きなアドバンテージ。他の変数との関係を断ち切 り、データ解析とその解釈を容易にする。しかし、そのことが逆に、雑なデータ解析につな がっているのかも。機械学習を用いた解析も普及しているが(というか、私は本来こっちの 人)、機械学習の予測結果を行動データと同じように解析(統計推論)する場合もある。 本ワークショップは、近年の心理学の改革事例や社会科学的方法を参考にしつつ、実験デー タ解析における統計推論の現実的な落とし所を探っていきたい。 5
  4. こんなことをしてませんか? 1. 事後的なデータ解析で有意差が出る条件を見つけた後、新たなデータで検証することな く、その検定結果を論文に記述 2. 事前に(データを取る前、見る前)決めた統計的仮説以外の検定結果を論文に記述。 結 果を見て差があるところを片っ端から検定 3. 事前にサンプルサイズを決めずに実験・検定。有意差が出るまでNを足す

    4. 機械学習解析でテストデータを含めて前処理やパラメータの調整 5. モデル選択に使ったのと同じデータで検定 6. p値が小さければ効果が大きい、と主張 7. 1標本で回帰や相関解析をしただけで、「XXはOOを予測する」と主張 8. 回帰モデルに、使える変数を何でも入れて「コントロール」する 9. 相関関係しか示していないのに、因果的主張をする(XXはOOを増加させる、など) 10. 「脳計測では相関しかわからない。因果を知るため脳刺激をする」という紋切り型の記 述 このような研究慣行が、再現性・信頼性のない研究を生んでいるかもしません。なぜ問題か をこのワークショップで議論します 6
  5. 【参考】 Makin, T. R. & Orban de Xivry, J.-J. Ten

    common statistical mistakes to watch out for when writing or reviewing a manuscript. eLife 8, e48175 (2019). https://doi.org/10.7554/eLife.48175 論文によくある間違った統計のリスト。各間違いについて、「問題」「どのように見つ けるか」「解決法」「参考文献」が整理されている)。勉強会の教材としておすすめ。 本ワークショップの内容とも重なる 1. Absence of an adequate control condition/group 2. Interpreting comparisons between two effects without directly comparing them 3. Inflating the units of analysis 4. Spurious correlations 5. Use of small samples 6. Circular analysis 7. Flexibility of analysis: p-hacking 8. Failing to correct for multiple comparisons 9. Over-interpreting non-significant results 10. Correlation and causation Statistics for Biologist. Nature Portfolio https://www.nature.com/collections/qghhqm 生物学者が注意すべき重要な統計的問題を取り上げ、研究の厳密性を高めるための実践 的なアドバイスを提供 7
  6. トピック 再現性の危機 Ioannidisのメタサイエンスモデル P値とは Questionable Research Practices (QRPs) 事前登録(Pre-registration, プレレジ)

    効果量(Effect size) 検出力分析(Power analysis)とサンプルサイズ設計 混合モデル 多重比較 機械学習とクロスバリデーション 二度漬け(Double dipping) ベイズ推論 因果推論 8
  7. 古くから繰り返し議論されてきたが2010年代になって心理学を中心に問題が表面化し、改革 が進められてきた。書籍や解説論文も多数発表されている。 書籍 Chambers, C. The Seven Deadly Sins of

    Psychology: A Manifesto for Reforming the Culture of Scientific Practice. (Princeton University Press, 2019). 【邦訳】クリス・チェインバーズ. 心理学の7つの大罪――真の科学であるために私 たちがすべきこと. (みすず書房, 2019). Ritchie, S. Science Fictions: How Fraud, Bias, Negligence, and Hype Undermine the Search for Truth. (Metropolitan Books, 2020) なかむらかずや. 書評|壊れた科学に泣かないで|"Science Fictions" by Stuart Ritchie. カタパルトスープレックス (1603323000). https://www.catapultsuplex.com/entry/science-fictions 10
  8. 日本語解説論文・プレゼンテーション 池田功毅 & 平石 界. 心理学における再現可能性危機:問題の構造と解決策. Japanese Psychological Review (2016).

    https://www.jstage.jst.go.jp/article/sjpr/59/1/59_3/_pdf/-char/ja 平石界 & 中村大輝. 再現性危機の10年を経た心理学の現状. 科学哲学 (印刷中) 元木康介, 米満文哉, & 有賀敦紀. 消費者行動研究における再現性問題と研究実践. 消費者 行動研究 (2021). https://www.jstage.jst.go.jp/article/acs/27/1_2/27_202103.002/_article/-char/ja/ Yuki Yamada. 再現性問題は若手研究者の突破口. (2020). https://www.slideshare.net/momentumyy/ss-238482877 11
  9. 再現性とは 同じデータ(標本) 異なるデータ(標本) 同じ分析法 Reproducibility (再生性) Replicability(再現性) 異なる分析法 Robustness(頑健性) [Generalizability(一般化可能性)]

    論文に記述されている実験デザインで新たにデータを取得し(直接追試; 概念的追 試)、同じ方法で分析したとき、(ある程度)同じ結果になるか 分野によるが、心理学では上のような用語の整理が定着。「一般化可能性」はややレイ アが異なる(後述) 個人的には、Reproducibility と Replicability が語感的に逆のような気もする 「再現性の危機」で問題となるのは主にReplicabilityだが、他も関連・重要 13
  10. Reproducibility (再生性) 同じデータを同じ分析法で解析したとき同じ結果が得られるか 論文のデータやコードが公開されているか 公開されたコード・データで同じ結果を再生できるか 青木俊太郎. オープンサイエンスのすすめ. 日本認知心理学会セミナー (2019). https://speakerdeck.com/s_aoki/open-science-at-kamitani-lab-2019

    Robustness(頑健性) 同じデータを異なる分析法(前処理の方法、統計モデルのパラメータなど、恣意的に決 められる要素を変更)で解析したとき、(ほぼ)同じ結果が得られるか 自由度の高い分析法を用いているのに、報告の際、都合のいい結果をチェリーピッキン グしていないか(→ Questionable Research Practices: QRPs) 可能な分析法を網羅的に試す。頑健性テスト(robustness test)、マルチバース分析 (multiverse analysis)、仕様カーブ分析(Specification Curve Analysis)など 14
  11. Generalizability(一般化可能性) Yarkoni, T. The generalizability crisis. Behavioral and Brain Sciences

    (2020). https://doi.org/10.1017/S0140525X20001685 未測定の変数に起因。被験者の属性(種、国籍・文化など)や実験条件(刺激の種類、 など)を超えて、知見が一般化可能か 他の3つは同一の実験・母集団を前提にするので、やや異なるレイアの概念 経済学の「外的妥当性」とも関連 Yarkoni(神経科学ではNeurosynthの作者として有名)は、研究者の自己欺瞞に失望し て、この論文を出した後アカデミアを去った 15
  12. 心理学における再現性の検証 (Science, 2015) Open Science Collaboration. Estimating the reproducibility of

    psychological science. Science (2015). https://doi.org/10.1126/science.aac4716 心理学の主要ジャーナル3誌 (Psychological Science, Journal of Personality and Social Psychology, Journal of Experimental Psychology: Learning, Memory, and Cognition)に2008 年に掲載された97報の研究を追試 36%でのみで、オリジナルと同じ方向で統 計的に有意(極めて緩い再現性の基準) 効果量は、オリジナルの約半分 16
  13. 再現性の諸問題 同じような行動実験でも、経済学の行動実験の再現率は61%、実験哲学(哲学者による行 動・心理実験)は78% Camerer, C. F. et al. Evaluating the

    replicability of social science experiments in Nature and Science between 2010 and 2015. Nat Hum Behav 2, 637–644 (2018). https://doi.org/10.1038/s41562-018-0399-z Cova, F. et al. Estimating the Reproducibility of Experimental Philosophy. Rev Phil. Psych. (2021). https://doi.org/10.1007/s13164-018-0400-9 1000回以上引用されている著名な論文の再現性がない(社会的プライミング、ステレオ タイプ脅威、パワーポーズ、自我消耗、顔面フィードバック仮説、「目」の効果、など など)。条件によっては効果があるが、効果量はとても小さい 再現性のない研究ほど引用される。ジャーナルの「ランク」が高いほど信頼性が低い Serra-Garcia, M. & Gneezy, U. Nonreplicable publications are cited more than replicable ones. Science Advances (2021). https://doi.org/10.1126/sciadv.abd1705 Brembs, B. Prestigious Science Journals Struggle to Reach Even Average Reliability. Frontiers in Human Neuroscience (2018). https://doi.org/10.3389/fnhum.2018.00037 17
  14. 神経科学研究の再現性 過去の研究の再現性を検証する目立った動きはない(が、業界内の噂はよく聞く) とくに動物実験では、実験系を厳密に再現することが難しく、白黒つけにくい では「モデル動物」・プロトコル標準化でよいのか? 異質性・多様性も重要 Voelkl, B. et al. Reproducibility of

    animal research in light of biological variation. Nat Rev Neurosci (2020). https://doi.org/10.1038/s41583-020-0313-3 ニューロンやサンプルの恣意的な選択(→チェリーピッキング、二度漬け) 「サルは2頭でいいんですか」(→サンプルサイズ正当化) 効果量・検出力の分析から、ポジテイブな結果の半数以上は偽陽性と推測される(認知 神経科学) Szucs, D. & Ioannidis, J. P. A. Empirical assessment of published effect sizes and power in the recent cognitive neuroscience and psychology literature. PLOS Biology (2017). https://doi.org/10.1371/journal.pbio.2000797 18
  15. VBM研究(脳構造と行動の相関)の低い再現性 Boekel, W. et al. A purely confirmatory replication study

    of structural brain- behavior correlations. Cortex (2015).https://doi.org/10.1016/j.cortex.2014.11.019 Kharabian Masouleh, S. et al. Empirical examination of the replicability of associations between brain structure and psychological variables. eLife (2019).  https://doi.org/10.7554/eLife.43464 安静時脳活動・機能結合(resting state brain activity, functional connectivity)「バイ オマーカー」の低い再現性 Noble, S. et al. Influences on the Test–Retest Reliability of Functional Connectivity MRI and its Relationship with Behavioral Utility. Cerebral Cortex (2017).  https://doi.org/10.1093/cercor/bhx230 He, Y. et al. Nonreplication of functional connectivity differences in autism spectrum disorder across multiple sites and denoising strategies. Human Brain Mapping (2020). https://doi.org/10.1002/hbm.24879 19
  16. 神経科学研究の一般化可能性 標準的な行動課題(恐怖条件づけ、遅延見本合わせ課題、などなど)で得られた知見 は、自然な条件下の行動に汎化できるか(生態学的妥当性、構成概念妥当性) 「コントロールされた実験」の再現しやすさとのトレードオフ Nastase, S. A., Goldstein, A. &

    Hasson, U. Keep it real: rethinking the primacy of experimental control in cognitive neuroscience. NeuroImage (2020). https://doi.org/10.1016/j.neuroimage.2020.117254 Sonkusare, S., Breakspear, M. & Guo, C. Naturalistic Stimuli in Neuroscience: Critically Acclaimed. Trends in Cognitive Sciences 0, (2019). https://doi.org/10.1016/j.tics.2019.05.004 in vitroからin vivoへ、線虫、ハエ、マウスからヒトへ汎化できるか 20
  17. Why Most Published Research Findings Are False Ioannidis, J. P.

    A. Why Most Published Research Findings Are False. PLoS Med (2005). https://doi.org/10.1371/journal.pmed.0020124 再現性が広く議論される以前に、統計検定のロジック、サンプルサイズの小ささ、実験 デザインの自由度、インセンティブ・競争、などがもたらす研究の再現性の低さについ て、シンプルなモデルを用いて議論した論考 統計検定(P値)は、finding(ここでは「統計的に有意な」研究成果)の正しさを保証する ものではない むしろ、多くの分野では、主張されているfindingは、単にバイアスを表現したものであ る(Null field, 虚無分野) 25
  18. モデルの設定 (Ioannidis, 2005) 研究成果 (research findings): 統計的に有意な関係(relationships; 効果的な介入、有益 な予測因子、危険因子、関連性)。※実際には有意でない結果も重要だが : 事前オッズ。分野内の真の関係(仮説)と偽の関係(仮説)の数の比 : 関係が真である確率

    : 第一種過誤(偽陽性)率。実際には関係がないのに関係が「ある」(統計的に有 意)と主張してしまう確率。統計検定の有意水準 : 第二種過誤(偽陰性)率。実際には関係があるのに「ない」と主張してしまう確率 : 検出力(Power)。実際に関係があるときに「ある」(統計的に有意)と主張 する確率 : 分野で調査している関係の数 : Positive predictive value(陽性的中率)。主張された研究成果(統計的に有意 な関係)が真の関係である確率 R R/(R + 1) α β 1 − β c PPV 26
  19. (Ioannidis, 2005) PPV = ​ = (1 − β)R +

    α (1 − β)R ​ R + α − βR (1 − β)R 新型コロナのPCR検査でおなじみのロジック 「統計的に有意」~「検査で陽性」 「統計的に有意なとき真の関係である確率」~「検査で陽性のときに実際に感染している 確率」→ (陽性適中率) 「事前オッズが小さければ、統計的に有意な結果でも真である確率は低い」~「有病率が 低ければ、検査で陽性でも感染の確率は小さい」 「有意水準 で検定した結果は95%正しい」 検定だけでは結果の正しさは保証されない(仮に統計モデルの仮定が正しいとしても) PPV α = 0.05 27
  20. 例 PPV = ​ (1 − β)R + α (1

    − β)R (事前の真と偽の比が1:1) (事前の真と偽の比が1:10) (検出力を0.8→0.5 にしたら) 事前オッズ( )と検出力( )が小さいと、有意でも真である確率は0.5以下になりう る(神経科学研究の検出力の中央値は0.2程度という説も ) サンプルサイズが小さい(検出力が低い)のに有意になった とき、「低い検出力でも見 つけられる強い結果だ」と勘違いする人がいるが間違い。サンプルサイズが小さいと有 意な結果が真である割合は低い インパクトが高い研究(意外性の高い、前例がない、等)ほど が小さいので有意な結 果も信用できない。より固いエビデンスが必要。「素人発想、玄人実行」(金出武雄先 生)の後半がとくに重要 α = 0.05, 1 − β = 0.8, R = 1 PPV = ​ = 0.8+0.05 0.8 0.9411765 α = 0.05, 1 − β = 0.8, R = 0.1 PPV = ​ = 0.8×0.1+0.05 0.8×0.1 0.6153846 α = 0.05, 1 − β = 0.5, R = 0.1 PPV = ​ = 0.5×0.1+0.05 0.5×0.1 0.5 R 1 − β R 28
  21. 追試 回実験(検査)してすべて有意(陽性)だとすると PPV = ​ (1 − β) R +

    α k k (1 − β) R k のとき( 、 、 ) のとき のとき 独立な実験で追試できれば、その関係(仮説)が真である確率(PPV)はぐっと上がる 異なる実験手法で同じリサーチクエスチョンに対するconverging evidenceを得ることに も当てはまる。Triangulation(三角測量) Munafò, M. R. & Davey Smith, G. Robust research needs many lines of evidence. Nature 553, 399–401 (2018). https://doi.org/10.1038/d41586-018-01023-3 k k = 1 α = 0.05 1 − β = 0.5 R = 0.1 PPV = ​ = 0.5×0.1+0.05 0.5×0.1 0.5 k = 2 PPV = ​ = 0.5 ×0.1+0.05 2 2 0.5 ×0.1 2 0.9090909 k = 3 PPV = ​ = 0.5 ×0.1+0.05 3 3 0.5 ×0.1 3 0.990099 29
  22. 有意だが偽である可能性が高い研究 (Ioannidis, 2005) 1. サンプルサイズが小さい(検出力が小さい、 ) 2. 効果量が小さい(検出力が小さい、 ) 3.

    検証された関係の数が多く、事前に選択されていない。「確証的」ではなく「仮説生成 的」である(事前オッズが小さい、 ) 4. デザイン、アウトカム、分析方法の柔軟性が高い(バイアスが大きい、 )。 5. 金銭的その他の利益によるバイアスが大きい(バイアスが大きい、 )。 6. 分野がホットである(独立した研究が多い、 ) 1 − β 1 − β R u u n 34
  23. どうすれば改善できるか・何を学ぶべきか 1. 独立データを用いた検証・三角測量 追試、メタアナリシス、オープンデータ・オープンサイエンス 機械学習による予測・汎化 交差検証 二度漬けの危険 2. 検出力( )を上げる

    P値だけでなく効果量を意識 検出力分析等によるサンプルサイズ設計(根拠付け) 3. バイアス( )を下げる 分野・研究室の研究慣行の見直し(疑わしい研究慣行(Questionable research practices、QRPs) 事前登録による研究者自由度の抑制 多重比較補正 混合モデルによるデータ構造の適切な表現 因果推論による交絡・バイアスへの対処、実験デザイン 4. 事前オッズ( )の検討 分野のシステマティック・レビュー、メタアナリシス、Introductionの重要性 探索的研究と確証的研究の区別 ベイズ推論によるモデルの不確実性の表現、頻度論(P値)との関係・対比 1 − β u R 37
  24. 統計的有意性とP値に関するASA (American Statistical Association) の声明 Wasserstein, R. L. & Lazar,

    N. A. The ASA Statement on p-Values: Context, Process, and Purpose. The American Statistician 70, 129–133 (2016).  https://doi.org/10.1080/00031305.2016.1154108 【日本計量生物学会による日本語訳】統計的有意性と P値に関するASA声明 https://www.biometrics.gr.jp/news/all/ASA.pdf The ASA’s statement on p-values [日本語まとめ]  https://www.jaysong.net/asa_p_value_japanese/ Kyoto-U OCW. 京都大学大学院医学研究科 聴講コース 臨床研究者のための生物統計学 「仮説検定とP値の誤解」佐藤俊哉 医学研究科教授. (2018). https://www.youtube.com/watch?v=vz9cZnB1d1c 「公表された多くの科学的結論の土台となっているのは「統計的有意性」という概念であ り、通常P値と呼ばれる指標で評価される。P値は有用な統計指標ではあるが、誤用と誤解が まかり通っている。」 39
  25. 4. 「適正な推測のためには、すべてを報告する透明性が必要である」 複数のデータ解析を実施して、そ のうち特定の P 値のみ(たいていは有意水準 を下回っ た)を報告することは、報告された P 値を根本的に解釈不能とする

    →QRPs、多重比較 5. 「P値や統計的有意性は、効果の大きさや 結果の重要性を意味しない」 どんなに小さい効果でも、サンプルサイズが大きかったり測定精度が十分高ければ小さ いP値(有意)となりうる →効果量、サンプルサイズ設計 6. 「P値は、それだけでは統計モデルや仮説に関するエビデンスの、よい指標とはならない」 P値ひとつだけでは帰無仮説を否定する弱いエビデンスでしかない P値以外のアプローチ:信頼区間、信用区間、尤度比、ベイズファクター、決定理論、 False Discovery Rateなど。これらは追加の仮定に依存するが、効果の大きさとその不確 実さ、仮説の正しさについてより直接的に述べることができるかもしれない →信頼区間、ベイズ推論、多重比較 42
  26. 実験研究者が忘れてそうな基本的なポイント で、 は確率変数(e.g., サイコロの目)、 は の実現値(1~ 6の実際の目の数 字)。文脈によって や と略記すことも

    検定や推定では や のような確率を考える( より ?) : 帰無仮説 : 母集団の統計モデルのパラメータ(たとえば、正規分布の母平均) : 統計モデルから生成されるデータの要約(検定統計量) や は についての確率。仮説やパラメータの確率ではない が確定したときの は、 の尤度 P値などを扱う一般的な統計(頻度論、classical statistics)では、仮説やパラメータは 確率変数として扱わない。未知であっても一つに値が決まっている( ベイズ統計) P(X = x) X x X P(X) P(x) P(X∣H ​ ) 0 P(X∣θ) ∣ ; H ​ 0 θ X P(X∣H ​ ) 0 P(X∣θ) X X = x ​ obs P(X∣θ) θ 43
  27. 信頼区間の復習 となる範囲 : 信頼係数。よく使うのが 、95%信頼区間 : 統計モデルからのランダムサンプル。確率変数 : から計算される統計量。確率変数 :

    統計モデルのパラメータ。正規分布の母平均など。確率変数でない 上にの定義には、観測値(実際の実験で得られたデータ)は出てこない 「観測値が得られたとき、 がこの区間に含まれる確率が0.95」という意味ではない は(未知だが)一つの値に決まっている。確率変数 がさまざまな値を取るとき、 も確率に変動する。その範囲に が含まれる確率が0.95 しかし実験論文では、観測値 を確率変数 の実現値として入れたときの範囲 を信頼区間と呼ぶことが多い この意味での95%信頼区間は、「観測値 について、パラメータ を変えながら有意水 準 で検定したとき、仮説を棄却できないパラメータ の範囲」 母平均などパラメータの推定誤差を表す範囲で、 が大きければ狭くなる 信頼区間だけでは効果量は決まらない 効果量は、個々の観測値の分散・標準偏差と関係する値で、 に依存しない( が小 さいと各標本の効果量はばらつくが) P(L(X) < θ < U(X)) = 1 − α [L(X), U(X)] 1 − α α = 0.05 X = (X ​ , ...X ​ ) 1 n L(X), U(X) X θ θ θ X [L(X), U(X)] θ x ​ obs X [L(x ​ ), U(x ​ )] obs obs x ​ obs θ α = 0.05 θ n n n 44
  28. 神経科学のデータ解析で、検定・推定するとき考えること よく使うt検定や信頼区間の推定でも、データについて非現実的な仮定がある 例えば、ある行動課題の反応時間について条件Aと条件Bで平均の差をt検定する場合 や、条件Aと条件Bの平均の95%信頼区間を求める場合 統計的な仮定: 自分が適当に作った課題・条件の反応時間だけど、母集団の 分布があって、そのパラメータ(母平均 など)は一つに決まっている。 実験で得られた観測値は、そこからランダムに抽出されたデータの1セットと見 なせる ←本当? あくまで「モデル」だから同一である必要はないが、何らかの粒度・観点で妥当と

    とみなしていること(コミットしていること)に自覚的であるべき 定番の検定・推定で使う確率モデルは、神経科学の対象とメカニズム的・プロセス的に はほとんど対応していない: ポアソンスパイク? シナプス小胞の量子的放出? 対象の確率的な振る舞いというより、研究者による制御の限界や無知、不確実性 神経活動のノイズとは何か、は神経科学の永遠のテーマ。「安静時脳活動」は昔は 「ノイズ」だった μ ​ , μ ​ A B 45
  29. 認知や行動(state, not trait)について、個体を超えたグループの「母平均」に意味はあ る? 脳活動や行動は一義的には個体に属するもの グループの知見を個体に汎化するには「エルゴード性」が必要。だが…↓ Fisher, A. J. et

    al. Lack of group-to-individual generalizability is a threat to human subjects research. Proceedings of the National Academy of Sciences 115, E6106– E6115 (2018). http://doi.org/10.1073/pnas.1711978115 実際は、個々人のデータには出てこないが、20人平均して初めて出てくるパターン をもとに「ヒトの脳と心」を論じる論文が大半 個体ごとにextensive にデータを取るアプローチをもっと重視すべき(→Small is beautiful) 本当に分布の「母平均」について知りたいのか パラメトリックな分布は必須ではない:ブートストラップ、パーミュテーション、 ノンパラメトリック検定 etc. そもそも観測データを、分布からの抽出と考える必要はあるのか(→主観ベイズ) そもそも検定の必要があるのか。観測値のばらつきを記述的に可視化すればいいことも: bean plot, beeswarm plot, etc. 46
  30. QRPsとは あからさまな研究不正(ねつ造、改ざん、盗用、等)ではないが、研究者の価値観に違反す る研究行動で、研究成果の信頼性に害を及ぼす研究実践 QRPsという言葉は、John, Loewenstein, Prelec(2012)で広まった John, L. K., Loewenstein,

    G. & Prelec, D. Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling. Psychol Sci 23, 524–532 (2012). https://doi.org/10.1177/0956797611430953 調査の結果、回答者の半数以上のQRPs行っており、そのような行為が問題だとは認 識していなかった 代表的なQRPsであるPハッキングと任意停止(optional stopping)が、オランダで初め て、研究の誠実性に関する行動規範に違反と認定される Lakens, D. The 20% Statistician: P-hacking and optional stopping have been judged violations of scientific integrity. The 20% Statistician (2020). https://daniellakens.blogspot.com/2020/09/p-hacking-and-optional-stopping- have.html ネカト(捏造、改ざん、盗作)と同等の研究不正とされる日も近いか 49
  31. QRPsの代表例 p-hacking 人為的な方法で、標準的な統計的有意性の基準(通常α=0.05)を満たす結果を得る可能 性を高める行為。例えば、複数の分析を行い、p<.05のものだけを報告する、p<.05まで データを選択的に削除する、それらのパラメータが統計的に有意であるかどうかに基づ いて分析で使用する変数を選択する、など HARKing 'Hypothesizing After the

    Results are Known'(HARKing)。研究の結果に基づいて得ら れた仮説をあたかも事前の仮説であったかのように報告する行為。例えば、サブグルー プ分析を行い、あるサブグループに効果があることを発見し、その結果に合致する「仮 説」を序文に記載する、など FORRT. A community-sourced glossary of open scholarship terms. Nat Hum Behav 1–7 (2022). https://doi.org/doi:10.1038/s41562-021-01269-4 Preprint: http://doi.org/doi:10.31222/osf.io/kdqcw 名付けることの重要性。このような行為を問題視してきた人は古くから多くいたはずだが、 p-hackingやHARKingというキャッチーな名前によって一気に問題が可視化された その他、cherry pickingやfishing expedition など。これらはmutually exclusiveではなく、互 いに関連する。結局何が問題かというと‥ 50
  32. Researcher degree of freedom (研究者自由度) 論文には報告されないデータ収集と分析の自由度があり、偽陽性率を最大5%(p<.05)とす る名目にもかかわらず、実質的に、どのような仮説にも合致する「統計的に有意」な結果を 発表できてしまう Simmons, J.

    P., Nelson, L. D. & Simonsohn, U. False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. Psychol Sci 22, 1359–1366 (2011). https://doi.org/10.1177/0956797611417632 特にニューロイメージング研究では、解析段階の自由度が高い 最近の241件のfMRI研究において、方法論の報告と方法論の選択をレビュー。研究の数と ほぼ同数のユニークな分析パイプラインが存在 Carp, J. The secret lives of experiments: Methods reporting in the fMRI literature. NeuroImage 63, 289–300 (2012). https://doi.org/10.1016/j.neuroimage.2012.07.004 51
  33. 研究者自由度が偽陽性率にどのような影響を与えるか Simmons et al., (2011), Table 1 a)従属変数の選択、b)サンプルサイズの選択、c)コントロール変数(共変量)の使 用、d)実験条件のサブセットの報告、という4つの一般的な自由度とその組み合わせの 影響を評価

    ランダムなデータ(効果は存在しない)を生成し、少なくとも1つが有意水準以下となる 割合を表示 すべて組み合わせると、p<0.05の有意水準(名目5%の偽陽性率)で、60%を超える偽陽性 が生じる 52
  34. どうすればよかったか 事前に仮説やデータ収集・分析プロトコルを一意に決めておき、その結果を主要な結果 として報告。その上で、分析プロトコルを少し変えたときの結果を示して効果の頑健性 を議論(ロバストネス解析)するのはよい 複数の従属変数やモデル(独立変数、コントロール変数の選択)の結果を調べて、どれ か一つでも有意になれば仮説がサポートされるような研究の場合は、多重比較補正でP値 の補正。ただし、これも事前に計画しておくべき 仮説やプロトコルを事前に決めておらず、分析法を変えながら仮説を思いついたのな ら、新たに実験をデザイン・実施し、そのデータで検定を行うのが基本。事前に決めた 仮説であったかのように同じデータを使って報告するのはをHARKing

    一般に、多数の組み合わせから選択された仮説・モデルを、選択に使ったのと同じデー タで検定するとバイアスが生じる(有意になりやすい;→二度漬け) 。この選択バイアス (post-selection bias)を(別データを使わずに)除去する方法は、「選択的推論 (selective inference)」 として研究が進展中(が普及はまだ(?)) Lee, J. D. et al. Exact post-selection inference, with application to the lasso. The Annals of Statistics 44, 907–927 (2016). https://doi.org/10.1214/15-AOS1371 竹内一郎. データ駆動型科学のための選択的推論(Selective Inference)(2019). https://www.ieice.org/~sita/forum/article/2019/201903231310.pdf 53
  35. Optional stopping (N増し)の効果 Simmons et al., (2011), Fig 1 で有意になるまでN増ししたときの偽陽性率を計算

    横軸:一回に追加する観測数 nの初期値:10か20 有意性が得られるか、n=50で停止 n=10から始め1足すごとに検定すると、22.1%の偽陽性率(名目5%) p < 0.05 54
  36. ただし、 のときだけN増しすれば偽陽性はさほど高くならない。N増し は再現性の低さの主要因ではないかも(?) Murayama, K. et al. Research Practices That

    Can Prevent an Inflation of False- Positive Rates. Pers Soc Psychol Rev 18, 107–118 (2014). https://doi.org/10.1177/1088868313496330 ここでは、n=50で停止しているが、ずっと続ければいつかほぼ確実に有意になる(偽陽 性率100%!) 母平均の差や相関がピッタリ0ということは普通ありえない どんな小さな差や関係(効果量)でもNを増やせば確実に有意になる:相関係数0.1 でも、N=400でp<.05 どのような大きさの効果量(差、関係)に意味があるかを考慮し、事前にNを決めて おくべき(→効果量、検出力分析、サンプルサイズ設計) 逐次解析(sequential analysis)やベイズファクターなど、事前にNを決めない方法もあ るが、これらの方法は、サンプルサイズ以外の点でより緻密な事前設定や仮定の選択が 必要。研究者自由度を縛らない限り問題は解決しない 0.05 < p < 0.10 55
  37. 偽陽性論文の出版を防ぐシンプルな方法(Simmons et al., 2011) (注意:すべてが現在一般的に受け入れられているわけでない) 著者への要求事項 1. 著者は、データ収集開始前にデータ収集の終了規則を決定しなければならない。そのル ールを論文で報告すること 2.

    著者は1セルあたり最低20件の観測データを収集しなければならない。データ収集のコス トを正当化する説得力のある理由を提示すること 3. 著者は、研究で収集したすべての変数をリストアップしなければならない 4. 著者はすべての実験条件を報告しなければならない。操作に失敗した場合も含む 5. 観測結果を除外した場合は、その観測結果を含めた場合の統計的な結果も示す 6. 共変量が含まれる解析の場合、著者はその共変量を含まない場合の統計的結果も報告し なければならない 56
  38. 論文だけからはQRPsの判断は難しいが、大学院や研究会での中間発表と論文の齟齬(ある いは、データを取り直していないこと)から分かることは多い 卒論・修論や学会発表で、「今後の展望:Nを増やす、‥」というのをよくみかけるが、 やめたほうがいい(統計検定を用いる仮説検証的研究の場合) i. 「有意差が出なかったのでNを増やします」という意味であれば、不正の宣言になる ので論外 ii. 結果が一般性をもつかを確認したいということなら、「独立のデータ(サンプル) で再現性を確認する」とすればよい

    iii. 何らかの事情で、予め決めていたサンプルサイズ(N)に届かなかったということで あれば、その旨を明記する。経過報告にしかならないので、統計検定にもとづく結 論は出さない iv. 「サンプルサイズも定めず、なんとなく実験を始めたばかりで、まだ少ししかデー タがありません」ということであれば、その発表内容はまだ「予備実験」なので、 「今後、実験デザインを決定して本実験を開始します」でいいでいい 59
  39. プレレジ、レジレポとは 長谷川龍樹 et al. 実証的研究の事前登録の現状と実践. 心理学研究 92, 188–196 (2021). https://doi.org/10.4992/jjpsy.92.20217

    事前登録(Pre-registration, プレレジ) 研究の仮説、実験法、分析法などを、データを取得する前に第三者機関に登録 タイムスタンプとともに記録され、一度登録したら修正できない 第三者の審査を必要とするものではなく、研究者が情報登録したことで完了 2000年代以降、アメリカ国立医学図書館がすべての医学研究に対してデータ取得や 解析方法のプレレジを要求 事前審査付き事前登録(Registered report、レジレポ) データを収集前に背景、仮説、方法などのプロトコルを雑誌に投稿。査読を受ける 査読を通過したプロトコルは原則的採録(in-principle acceptance: IPA)となり、その 後に研究を実施 実施後、結果や考察を加えて再び雑誌に投稿。研究結果は採録判定の判断材料とは されず、計画通りに研究が実施されたことなどを確認し、問題がなければ採録 62
  40. なぜ事前登録が重要か Pre-registration for Neuroscience. https://libguides.princeton.edu/c.php? g=862735&p=8568022 1. 研究者が、なぜ・どのように研究課題を追求するのかを計画し、考えなければならなく なる 2.

    仮説が本当に先験的なものであったのか、記憶に頼っていたのかを判断する材料になる 3. 研究者に分析計画をより詳細に考えさせ、研究のデザインに影響を与える可能性のある 問題を表面化させることができる 4. データに依存した意思決定(p-hackingを含む)を防ぎ、分岐路の庭(the garden of forking paths)を避けることで信頼性を確立することができる 5. 測定値の選択的な報告の防止に役立つ 64
  41. 探索的研究と確証的研究の区別 Wagenmakers, E.-J. et al. An Agenda for Purely Confirmatory

    Research. Perspect Psychol Sci 7, 632–638 (2012). https://doi.org/10.1177/1745691612463078 Bad Science: Exploratory Findings, Confirmatory Conclusions “Torture the data until they confess”(データが自白するまで拷問する) こういう指導を受けてきた研究者は多いのでは。それ自体悪くないが、「自白 した結果」は独立のデータで検証しなければならない https://twitter.com/OdedRechavi/status/1500202512711835655? s=20&t=2IDcW12SwffANdx7Yl8TyA 探索的研究として予備実験を行いながら方法の改善や仮説の選択を行うことで、事前オ ッズ (Ioannidis, 2005)を上げることができる R 65
  42. 探索と確証をどのように論文に盛り込むか 探索的研究だけでも論文は書ける Cortexでは"Exploratory Reports"という区分がある(私も一つ共著がある) しかし、報告のスタイルは確立していない 仮説を見つけただけでは強い主張はできない。可能な限り確証を目指すべき IMRAD形式 (Introduction, Methods, Results

    and Discussion)は確証的研究向き 理論や事前の仮説、あるいは、探索で見つけた仮説で実験・解析をデザインし、仮 説通りの結果か否かに関わらず報告するのが基本(プレレジ研究に準ずる形) 探索研究部分を盛り込むのは難しい 冗長な記述は望ましくないが、仮説の確からしさの推定や方法の正当化に重要 IMRAD形式 のMethodsを最後に置くフォーマット(IRDAM形式)も多い Resultsで一連の複数の実験の結果を記述するのに適している(とくにウェット系) 前の実験結果を元に次の仮説が生成される場合など、実験の依存関係を記述できる しかし実際には、各実験をデザインする段階でどの仮説・知識があったのかは曖昧 になりがち。後づけのナラティブで説得力が出てしまう。HARKingの自由度 "Study (Experiment) 1, Study (Experiment) 2..." と区切り、それぞれに仮説・方法・結果 を記述するスタイルを見直すべき 古い論文によくあるが、近年あまり人気がない? 各実験での事前知識を明確にできる 66
  43. 事前登録の現状 事前登録した研究を含む論文の割合が急増:Psych Sci:54.8%、JEP:G 31.6% Simmons, J., Nelson, L. & Simonsohn,

    U. Pre-registration: Why and How. Journal of Consumer Psychology 31, 151–162 (2021). https://doi.org/10.1002/jcpy.1208 レジレポを受け付けるジャーナルも増えている: Nature Communications, Nature Human Behavior, eNeuro, Plos Biology, etc. Registered Reports offer recognition for rigour. Nat Commun 11, 3443 (2020). https://doi.org/10.1038/s41467-020-17294-2 Registered Reports, OSF('Participating Journals'タブでジャーナルのリスト) https://www.cos.io/initiatives/registered-reports#journals 臨床研究ではプレレジが必須 NIHの臨床試験の定義に人間対象の基礎研究を含めようとする動きがある(日本も) Basic scientists still feel pinch of new NIH clinical trial policy. Science (2018) https://www.science.org/content/article/basic-scientists-still-feel-pinch- new-nih-clinical-trial-policy みんな遵守しているはずのヘルシンキ宣言でプレレジが要求されている: 「35.人間を対象とするすべての研究は、最初の被験者を募集する前に一般的に アクセス可能なデータベースに登録されなければならない」 https://www.med.or.jp/doctor/international/wma/helsinki.html 67
  44. 事前登録システム Open Science Framework (OSF) https://osf.io/registries/discover 臨床研究に限らず広い分野をカバー キーワードで検索して他のプレレジ書類を見ることもできる チュートリアル AsPredicted

    https://aspredicted.org/ 登録者が公開しない限りプロトコルは見れない・検索できない ClinicalTrials.gov 米国の臨床研究データベース UMIN臨床試験登録システム https://www.umin.ac.jp/ctr/index-j.htm 69
  45. 事前登録の記入法 チュートリアル論文 長谷川龍樹 et al. 実証的研究の事前登録の現状と実践. 心理学研究 92, 188–196 (2021).

    https://doi.org/10.4992/jjpsy.92.20217 Simmons, J., Nelson, L. & Simonsohn, U. Pre-registration: Why and How. Journal of Consumer Psychology 31, 151–162 (2021). https://doi.org/10.1002/jcpy.1208 UMIN臨床試験登録システムの用語説明 https://www.umin.ac.jp/ctr/UMIN-CTR_Yougo.htm 70
  46. OSF Registriesの記入項目(太字は必須項目) Study Information Hypotheses Design Plan Study type, Blinding,

    Study design, Randomization Sampling Plan Existing Data, Explanation of existing data, Data collection procedures, Sample size, Sample size rationale, Stopping rule Variables Manipulated variables, Measured variables, Indices Analysis Plan Statistical models, Transformations, Inference criteria, Data exclusion, Missing data, Exploratory analysis 71
  47. 効果量とは 効果の大きさ、差や関係の程度。平均の差や回帰係数も効果量を表していると言えるが、こ こでは、ばらつきを考慮して標準化した標準化効果量を考える 族: 群ごとの平均値( )の差を群内の標準偏差( )で標準化した値。 Hedges's などさまざまなバリエーションがある Cohen

    s d = ′ ​ σ m ​ − m ​ A B 族: 変数間の関係の強さを示す効果量 ピアソンの積率相関係数( )はそのままで効果量 ANOVAでは、全体の偏差平方和( )の中で要因の偏差平方和( )が 占める割合(分散説明率)を表す や、分母から他の要因を除いた など用いられ る。Cohen’s は、 η = 2 ​ SS ​ total SS ​ effect η ​ = p 2 ​ SS ​ + SS ​ effect error SS ​ effect d m ​ , m ​ A B σ g r r SS ​ total SS ​ effect η2 η ​ p 2 f2 η /(1 − 2 η ) 2 73
  48. その他の効果量については、下の文献などを参照 Cohen, J. A power primer. Pschological Bulletin (1992). https://www2.psych.ubc.ca/~schaller/528Readings/Cohen1992.pdf

    Sullivan, G. M. & Feinn, R. Using Effect Size—or Why the P Value Is Not Enough. Journal of Graduate Medical Education 4, 279 (2012). https://doi.org/10.4300/JGME-D-12-00156.1 Lakens, D. Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs. Frontiers in Psychology 4, 863 (2013). http://doi.org/10.3389/fpsyg.2013.00863 水本 篤 & 竹内 理. 研究論文における効果量の報告のために―基礎的概念と注意点―. 英語教育研究 31, 57–66 (2008). https://mizumot.com/files/EffectSize_KELES31.pdf 大久保街亜 & 岡田謙介. 伝えるための心理統計: 効果量・信頼区間・検定力. (2012). 74
  49. 効果量がなぜ有用か (Lakens, 2013) 1. 統計的有意性だけでなく、結果の実際的意義(発見が日常生活にもたらす実際の結果は 何か)を伝えることができる 2. 標準化された効果量を複数の研究間で比較することにより、メタ分析的な結論を導き出 すことができる 3.

    先行研究の効果量は、新しい研究を計画する際の検出力分析やサンプルサイズ設計に利 用すること Lakens, D. Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs. Frontiers in Psychology 4, 863 (2013). http://doi.org/10.3389/fpsyg.2013.00863 75
  50. は本当に大きい? 大学の新入生と博士学位取得者のIQの差や 13歳と18 歳の女子の身長差 (Cohen, 1988) → AUC つまり、2AFC(two alternative

    forced choice)で観測値から2群のどちらかを判別 するとき、正答率が71%(チャンスレベル 50%)←予測や制御としては弱い Salgado, J. F. Transforming the Area under the Normal Curve (AUC) into Cohen’s d, Pearson’s r pb , Odds- Ratio, and Natural Log Odds-Ratio. The European Journal of Psychology Applied to Legal Context (2018). https://doi.org/10.5093/ejpalc2018a5 Effect size 効果量っていってもね... - 裏 RjpWiki. https://blog.goo.ne.jp/r-de- r/e/5eb3ba116008d857e045e64e87b6 0850 「研究者効果量」:論文には十分と研究者 が考える効果量と一般的感覚の乖離 d = 0.8 d = 0.8 = 0.71 77
  51. 精神疾患に対する心理・薬物療法の効果量: 平均的にはCohen's d =0.5に満たない Leichsenring, F. et al. The efficacy

    of psychotherapies and pharmacotherapies for mental disorders in adults: an umbrella review and meta-analytic evaluation of recent meta-analyses. World Psychiatry (2022). https://doi.org/10.1002/wps.20941 78
  52. マウスのForced Swim Test (FST, naïve vs. model of depression or

    stress, etc.)の効果量 (Cohen’s)は1.5–2.5 とかなり大きい。各群N=7–10マウスで十分?(→サンプルサイズ設 計) Smalheiser, N. R., Graetz, E. E., Yu, Z. & Wang, J. Effect size, sample size and power of forced swim test assays in mice: Guidelines for investigators to optimize reproducibility. PLOS ONE 16, e0243668 (2021). https://doi.org/10.1371/journal.pone.0243668 79
  53. 効果量に関する注意点 APA Publication Manual では、効果量とその信頼区間の表示が推奨されている(神経科学 では現状ここまではやらないが) Lakens (2013)からの例:“Participants reported higher

    evaluations for Movie 1 (M = 8.7, SD = 0.82) than Movie 2 (M = 7.7, SD = 0.95), F(1, 9) = 22.50, p = 0.001, = 0.71, 90% CI [0.31, 0.82], = 0.26.” 基本は観測データの要約であり、推定の意味合いは薄い 有意差が出なかったが効果量が大きかった、では強い主張はできない メタアナリシスの効果量はあまり当てにならない 再現実験で得られる効果量はメタアナリシスの3分の1程度 Kvarven, A., Strømland, E. & Johannesson, M. Comparing meta-analyses and preregistered multiple-laboratory replication projects. Nat Hum Behav 4, 423–434 (2020). https://doi.org/10.1038/s41562-019-0787-z 標準化効果量だけでなく生の効果量も重要 反応時間、正答率など 脳活動値など、日常の生活世界にないものは効果量がイメージしにくい。そのせい でP値だけの議論をしてしまいがちなのかも η ​ p 2 η ​ G 2 81
  54. 検出力分析(Power analysis) 統計モデルが与えられたとき、有意水準( )と検出力( )、サンプルサイズ( )、 効果量(Cohen's など)の関係から、信頼性の高い研究をデザインしたり、研究の信頼性を 確認したりする方法。4つのうち3つが決まれば、残り一つが決まる 上図で左が

    、右が のモデル標本の統計量(ここでは、t統計量)の分布。2群のデ ータの分布ではない。実現値が横軸のcritical value( に対応するt値など)を 超えるかで有意性を判断 ソフト G*Power(定番) https://www.psychologie.hhu.de/arbeitsgruppen/allgemeine-psychologie-und- arbeitspsychologie/gpower Sample Size Planner (複雑なモデルにも対応。使ったことないです) https://martonbalazskovacs.shinyapps.io/SampleSizePlanner/ 複雑なモデルなら、自分でシミュレーションで計算すればよい α 1 − β N d H ​ 0 H ​ 1 α = 0.05 84
  55. シミュレーションによる必要サンプルサイズの計算 Lakens (2021) 下のRコードは、n=20のときの検出力を計算。検出力を0.8(以上)にしたいときは、nを変 えながら下のコードを走らせ、0.8以上になるnを求めればよい p <- numeric(10000) for (i

    in 1:10000) { x <- rnorm(n = 20, mean = 0.5, sd = 1)  # H1 でデータ生成  p[i] <- t.test(x)$p.value # H0 で検定 } sum(p < 0.05) / 10000 サンプルサイズ を設定し、 の仮定(効果量の仮定)の下、ランダムに 個データを生 成し、 (効果量ゼロ)で検定。これを繰り返し、検定で有意となる割合を求める。こ れが検出力に相当 n=34だと、0.804前後 ノンパラメトリック検定の場合 シミュレーションするにも何らかの分布を仮定する必要がある パラメトリック検定のサンプルサイズ+15%というヒューリスティクスも https://www.graphpad.com/guides/prism/latest/statistics/stat_sample_size_for_non parametric_.htm n H ​ 1 n H ​ 0 86
  56. 検出力 帰無仮説が偽であるときに正しく棄却する確率 第二種の過誤(Type II error, 偽陰性)を犯さない確率 Type II error rateを

    とすると、検出力は 検出力が低い研究は、真の効果を検出する可能性が低くなる 検出力 サンプルサイズ, 効果量, 有意水準 サンプルサイズが小さいときand/or効果量が小さいとき、検出力は低い β 1 − β =f( α) 87
  57. 検出力が低いと有意な結果が真である可能性も低い 検出力が低い(サンプルサイズが小さい)のに有意な結果が出たら「有意差を検出しにくい はずなのに有意ってことはすごく強い結果に違いない」と思う人がいるが、間違い 検出力 が低いとPPV(有意な結果が真である割合)は小さくなる ( : 事前オッズ) とすると  

    「勝者の呪い(Winner's curse)」:小規模研究は、偶然のばらつきで高い効果量が出て 有意になってしまう QRPsや出版バイアスによる効果量のインフレも 効果量のインフレはメタ分析や後続研究にも悪影響 Button, K. S. et al. Power failure: why small sample size undermines the reliability of neuroscience. Nat Rev Neurosci 14, 365–376 (2013). https://doi.org/10.1038/nrn3475 (1 − β) PPV = ([1 − β] × R)/([1 − β] × R + α) R α = 0.05, R = 0.1, 1 − β = 0.2 PPV = ​ = 0.2×0.1+0.05 0.2×0.1 0.29 88
  58. 神経科学研究の検出力 Button et al. (2013) 2011年に出版された48のメタアナリシス、730の個別研究が含まれる 検出力の中央値は21%(一般に80%が目安) 有意性過剰の疑い。有意な研究の数(349)は、サンプルサイズと効果量から予想さ れる数(254)よりもずっと多い 各研究の要約効果量が真の効果量に近いと仮定しているが実際にはインフレしてい

    るはずで、この検出力の推定はoptimisticで実際はもっと低いはず ニューロイメージング研究 構造的MRI研究のほとんどは、非常に小規模。群間(例えば、健康vs.精神疾患)の 差異を検出するための検出力は最小限 有意性過剰。BOLD fMRIも同様の問題 脳容積異常研究の検出力の中央値は8% 89
  59. 動物モデル研究 小規模な研究は大規模な研究よりも「ポジティブ」な結果が報告される傾向 研究の質は効果量と反比例 水迷路走行の性差: 要約効果量 d=0.49, n=22 → 検出力18%、 放射状迷路課題成績:

    要約効果量 d=0.69, n=24 → 検出力31%、 これらのサンプルサイズでは、大きな効果量(d≧1.20)がないと、検出力80% で検出できない。論文記載の比較的小さい効果量の検出には著しく検出力不足 神経科学分野の平均的な検出力は、8%から31%以下。有意な結果が実際に真の効果を反 映している可能性(PPV↓)は低い(大部分の神経科学研究はウソ?) Button et al. (2013) 90
  60. 倫理的な含意 Button et al. (2013) メタアナリシスから推定される真の効果量を検出力80%で検出するには、水迷路実験で は134匹(効果量d=0.49と仮定)、放射状迷路実験では68匹(効果量d=0.69と仮定) のサンプルサイズが必要 小さなサンプルサイズに依存し続けることの非効率性・非倫理性 動物の数をできるだけ少なくすることと、信頼できる知見を得ることのバランス

    検出力80%の研究でも、20%で真の効果を検出できず、動物が犠牲になる 実際の検出力が平均20~30%であるとすれば、もっと多くの犠牲 大規模臨床試験で行われる逐次分析も検討すべき ただし、 有意性検定の仮定が成り立つように、中間分析および中止のためのプロト コルを事前に計画しなければならない。実際は中止の決定過程が十分に開示されて いないことが多く、研究者自由度が増す懸念もある ベイズの枠組みでは、ベイズファクターを監視し、証拠が決定的となったとき、ま たは資源が枯渇した ときに試験を停止する 91
  61. 提言 Button et al. (2013) 事前の検出力分析を行う 既存の文献を参考に、求めている効果の大きさを推定し、それに基づいて研究をデザイ ンする。時間的、経済的な制約により、研究結果がパワー不足になる場合は、そのこと を明確にし、結果の解釈においてその制限(または限界)を認識する 方法と結果の透明性のある開示

    意図した分析の結果がnullで他の方法でデータを探索することになった場合はその旨を明 記する。一方、探索的な分析は、注意事項や限界を認識した場合にのみ有用かつ有効 研究プロトコルと解析計画を事前登録する 事前登録は、分析が確認的か探索的かを明確にし、十分な検出力を持つ研究を奨励し、 透明性のないデータマイニングや選択的報告の機会を減らすことができます。このため の様々なメカニズムが存在する 研究資料やデータを利用できるようにする 研究資料を公開することで、研究成果の再現や拡張を目的とした研究の質を向上させる ことができる。生データを公開することで、データ集計やメタ解析の機会を増やし、解 析や結果の外部チェックが可能になる 研究力を高め、研究成果を再現するための共同作業 データを組み合わせることで、一人の研究者の労力やリソースを最小限に抑えながら、 サンプルサイズの合計を増やすことができる(検出力も大きくなる)。ヒト遺伝疫学な どの分野における大規模な共同研究コンソーシアムは知見の信頼性を一変させた 92
  62. サンプルサイズサイズ正当化/根拠づけ(Sample size justification) サンプルサイズを決める方法・基準は、検出力分析だけではない。サンプルサイズの選択を 何らかの形で根拠づけできればよい Nature Neuroscience はかなり以前からreporting checklistでsample size

    justificationを 求めている Raising standards. Nat Neurosci 16, 517–517 (2013). https://doi.org/10.1038/nn.3391 "nature neuroscience reporting checklist"で検索するとたくさん例が出てくる(な ぜか被引用数つきでw) しかし実際には、"Sample sizes where chosen in accordance with previous publications and are similar to those generally employed in the field."といった定型文 が多く、形骸化している Lakensが最近、Sample size justificationの方法について包括的な議論をした論文を発表 Lakens, D. Sample Size Justification. (2021). https://doi.org/doi:10.31234/osf.io/9d3yf 【Youtube動画】 Daniel Lakens. Sample Size Justification by Daniel Lakens. (2019). https://www.youtube.com/watch?v=XhfkodpyIsw 93
  63. Sample size justificationの6つの方法 Lakens (2021) 1. 母集団全体を測定する 研究者が母集団全体を特定でき、母集団は有限であり、母集団内の(ほぼ)すべての実 体を測定することが可能であるとき 2.

    リソース制約 リソースが限られていることが、サンプルサイズを選択する主な理由であるとき 3. 精度 望ましいレベルの精度を持つ推定値を得るために十分なデータを収集するとき 4. 事前検出力分析 ある効果量をもつ効果が望ましい検出力で検出されるようにしたいとき 5. ヒューリスティック 文献に記載されている、または口頭で伝えられたヒューリスティック、一般的なルール または規範に基づいてサンプルサイズを決定するとき 6. 正当化しない 特定のサンプルサイズを選択する理由がない、または明確に特定された推論目標を持っ ておらず、これを正直に伝えたいとき 94
  64. 効果量をどう考えるか Lakens (2021) 1. 最小関心効果量(Smallest effect size of interest) 理論的または実用的に興味深いと考えられる最小の効果量はどのくらいか?理論的また

    は実用的に興味深いと考えられる最小の効果量はどのくらいか? (→Equivalence test) 2. 統計的に検出可能な最小限の効果 テストとサンプルサイズが決まっているとき、統計的に有意となりうる臨界効果量はど の程度か? 3. 期待される効果量 理論的予測や先行研究に基づいて予想される効果量はどれか? 4. 信頼区間の幅 効果量に対する信頼区間の幅の予想に基づいて、どの効果量を除外するか? 5. 感度パワー分析(sensitivity power analysis) 仮説検定を行う際、考えられる効果量の範囲において、実験デザインはどの効果を検出 するのに十分な検出力を有するか? 6. 研究領域における効果量の分布 特定の研究領域における効果量の経験的範囲はどの程度か、また、どの効果が先験的に 観察されにくいか? 95
  65. 最小関心効果量(Smallest effect size of interest, SESOI) 実質的に意味のある最小の効果量。基礎研究では明示的なルールで決めることは難しいが、 検出力分析等で必要になるので事前に目安をもっておくべき 大きいNだと、ごく小さい効果でも統計的有意になりうるが、SESOIと比較してどうか 2択の行動課題で正答率55%(チャンスレベル50%)は、試行数によっては統計的有

    意になりうる。だが、その正答率はどのような能力を意味するか SESOIを用いた検出力分析でサンプルサイズを決めることで、統計的に有意ならばSESOI に近い効果量は存在することになる 帰無仮説が棄却できないことをもって「差がない」と積極的に主張することはできな い。差がないことを積極的に主張したいとき、SESOIに満たない効果であること示して、 同等性を主張する equivalence test がある Lakens, D. Equivalence Tests: A Practical Primer for t Tests, Correlations, and Meta-Analyses. Social Psychological and Personality Science 8, 355–362 (2017). https://doi.org/10.1177/1948550617697177 臨床疫学における非劣性試験と関連 96
  66. 事前検出力分析でサンプルサイズを決めるときにやるべきこと Lakens (2021) 1. 予定されているすべての一次分析をリストアップする タイプ I およびタイプ II のエラー率を管理する必要がある仮説検定について、すべての一

    次分析を確定する 2. 各分析のアルファレベルを確定する Type Iエラー率をリストアップし正当化する。必要な場合は多重比較の補正を行う 3. 望ましい検出力は何か? 解析の望ましい検出力(または第2種過誤率)を列挙し、正当化する。 4. それぞれの検出力分析について、効果量の指標、効果量、およびこの効果量に対する検 出力の正当性を明記する 効果量の指標(例:Cohenのd)、効果量、効果量の正当性を報告し、それが関心のある 最小の効果量、メタ分析による効果量の推定、単一の先行研究の推定、または他のソー スに基づいているのかどうかを報告すること 5. 帰無仮説が真である可能性を考慮する 有意な効果がないことを調べるために計画された試験の検出力分析を行う(例えば、同 等性検定の検出力など) 6. 検出力分析が再現可能であることを確認する 検出力分析を実行するために使用したコードを含めるか、または実行した検出力分析の 詳細を含むレポートを出力する 98
  67. αとβ : 偽陽性率。「無いのに有る」あわてんぼうのエラー : 偽陰性率。「有るのに無い」うっかり者のエラー に深い意味がないことはよく指摘される(20回に1回のエラーは許す?) 検出力( )は0.8以上が望ましいとされる(Cohen)。 の偽陰性は許容 :

    偽陰性は偽陽性の4倍あってもOKという価値観。偽陽性の結果を出して嘘つ き呼ばわりされたくないという科学者のエートス? Compromize power analysis を調整する検出力分析 (G*Power; Lakens, 2021) リソースの制約下、エラーのコスト・リスクを考慮したサンプルサイズの決定 データ取得後、エラーがもたらすコストを考慮した意思決定基準の決定 臨床医学におけるリスクと便益 基礎研究のエラーのコスト? 偽陽性の論文を出して信頼できない研究者と認識されるコスト vs. 偽陰性で発見を逃し(論文が出なくて)、就職や昇進で不利益を受けるコスト α β α = 0.05 1 − β β =0.2 β = 4 × α β/α 99
  68. 査読でpost-hoc power analysisをやれと言われたら Lakens (2021) 事後検出力(post-hoc power)は、データから推定された効果量が真の効果量であると仮 定したときの検出力 P値が決まれば一意に決まるので、報告されたP値以上の情報はない 報告されたP値がちょうど0.05だったら、事後検出力は0.5。p<0.05なら、事後検出

    力は0.5以上 査読者の気持ち P値で有意でも実質的な意味のある効果量でないのでは? 検出力の低い研究でたまたま有意になった結果を報告しているのでは? 有意差がないと言ってるけど単に検出力が低かっただけでは? 事後検出力を単に出すべきではない。その代わり、現状のサンプルサイズで、効果量と 検出力の関係を調べる感度分析を行い、最小関心効果量とデータから推定される効果量 を議論すべき → Sensitivity power analysis 100
  69. Small is beautiful 「素人質問で恐縮ですが、サルは2頭でいいんですか」 これを「N=2」と言いがちだが、実際にはニューロン数や試行数など、統計検定で扱 うサンプルサイズはN=2ではないはず 視覚の心理物理や脳エンコード・デコードモデルの研究でも被験者数は少ないことが多 い 被験者をreplicationの単位とし、一人の被験者での統計解析の結果が他の被験者で再現 されるか、という観点で頑健性を評価するアプローチもあり

    Smith, P. L. & Little, D. R. Small is beautiful: In defense of the small-N design. Psychon Bull Rev 25, 2083–2101 (2018). https://doi.org/10.3758/s13423-018-1451- 8 このような研究では、被験者が少ない代わりに、個々の被験者でextensiveな計測を行 う。被験者数と刺激・課題の多様性とのトレードオフを考える必要がある。被験者間の ばらつきが小さい研究(知覚、運動など)では後者を重視してもよいだろう Naselaris, T., Allen, E. & Kay, K. Extensive sampling for complete models of individual brains. Current Opinion in Behavioral Sciences 40, 45–51 (2021). https://doi.org/10.1016/j.cobeha.2020.12.008 101
  70. 神経科学、とくに、ウェット系では、t検定、ANOVA、ノンパラ検定など個別に差の検定 をすることが多く、 線形モデルはあまり普及していない印象 ハイスループットな解析や、混合モデル、因果推論への拡張など、有用性は高い。 論文の記述を理解するリテラシーとして必須 オススメ教材 StatQuest with Josh Starmer.

    Using Linear Models for t-tests and ANOVA, Clearly Explained!!! (2017). at https://www.youtube.com/watch? v=NF5_btOaCig StatQuest with Josh Starmer. Design Matrices For Linear Models, Clearly Explained!!! (2019). at https://www.youtube.com/watch?v=CqLGvwi-5Pc Barr, D. J. Overview | Learning Statistical Models Through Simulation in R. at https://psyteachr.github.io/stat-models-v1 fMRIの教科書も線形モデルの記述は充実している Ashby, F. G. General linear model (Chapter 3) in Statistical Analysis of fMRl Data (2011). 最近マウスの二光子解析などでも、fMRIのような線形モデルが使われる Engelhard, B. et al. Specialized coding of sensory, motor and cognitive variables in VTA dopamine neurons. Nature (2019). https://doi.org/10.1038/s41586-019- 1261-9 104
  71. データの依存性(非独立性) Yu, Z. et al. Beyond t test and ANOVA:

    applications of mixed-effects models for more rigorous statistical analysis in neuroscience research. Neuron (2021). https://doi.org/10.1016/j.neuron.2021.10.030 神経科学の研究では、研究データは多くの場合、異なる複数の実験単位(クラスタ; e.g., 個体やニューロン)から取得される。同じクラスタからの観測値が互いに相関する 傾向がある しかし、t検定やANOVAなどの手法は個々のデータの独立性を仮定し、クラスタによる相 関・依存関係を考慮していない データの依存性を考慮しないと、偽陽性・再現不能につながる 依存性を考慮しない解析の例 “t(28656) = 314 with over a total of n=28657 neurons pooled across six mice,” “n = 377 neurons from four mice, two-sided Wilcoxon signed rank test,” “610 A cells, 987 B cells and 2584 C cells from 10 mice, one-way ANOVA and Kruskal–Wallis test,” “two-sided paired t test, n=1597 neurons from 11 animals, d.f. = 1596,” p < 10−10 105
  72. 有効サンプルサイズ 5匹のマウスから5000個のニューロンを測定したとする。何個の独立なニューロンに相当する か(有効サンプルサイズ, ) Lazic, S. E. et al. What

    exactly is ‘N’ in cell culture and animal experiments? PLOS Biology 16, e2005282 (2018). https://doi.org/10.1371/journal.pbio.2005282 級内相関係数(Intra-class correlation, ICC) 同じグループからの測定値がどの程度相関しているか。各動物をクラスと考えると、ク ラス間分散の全分散に対する比率:  ( : クラス間分散、 :クラス内分散) クラスタリングの度合い ( :平均グループサイズ;ニューロン数/マウス) 個のニューロンが、1個の独立なニューロンに相当 有効サンプルサイズ だと 。5000個のニューロンは実質的には10個分しかない! 5000個のニューロンのデータを独立とみなして検定すると、自由度を過大視するので、有意 になりやすい(偽陽性が出やすい) n ​ eff ICC = σ ​ /(σ ​ + b 2 b 2 σ ) 2 σ ​ b 2 σ2 D ​ = eff 1 + (M − 1)ICC M D ​ eff n ​ = eff n/D ​ eff ICC = 0.5 n ​ = eff 9.99 106
  73. 線形混合効果モデル(LME) 固定効果:線形モデルにおける係数のような、固定されているが未知の母集団パラメータ ランダム効果:個々の観測値の異質性/変動性を考慮に入れるためにモデルに含まれるク ラスタ・グループレベルでの効果。通常は、それ自体に関心はない 固定効果とランダム効果の両方を考慮するために線形回帰モデルを拡張したものが線形混合 効果モデル(LME)。データがクラスタ化されていたり、反復測定がある場合に特に有用 Y = Xβ +

    Zu + ε Y:観測値(従属変数)のn×1ベクトル(n: サンプルサイズ) X:独立変数(予測子)を表すデザイン行列(n×p, p: パラメータ数)。t検定やANOVAで は、実験条件などを0-1でコード化したダミー変数が各行に並ぶ β:独立変数のパラメータの係数(p×1)。固定効果。各実験条件の平均などに対応 Z:グループ変数のデザイン行列(n×q)。グループを表すダミー変数が各行に並ぶ u:グループのランダム効果を表すベクトル(q×1)。平均0、(部分的に)未知の共分散 行列を持つ分布からのランダム変数 ε:誤差 107
  74. 例)3人の被験者について、2の実験条件で、眼球運動潜時を計測したとする ​ = Y ​ ​ ​ ​ ⎝ ⎛

    120 222 301 188 250 188 133 344 541 ⎠ ⎞ ​ ​ + X ​ ​ ​ ​ ​ ⎝ ⎛ 1 1 0 0 1 0 0 1 0 0 0 1 0 0 1 0 0 1 ⎠ ⎞ β ​ ​ ( β ​ 1 β ​ 2 ) ​ ​ + Z ​ ​ ​ ​ ​ ​ ⎝ ⎛ 1 1 1 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 1 1 1 ⎠ ⎞ u ​ ​ ​ ​ ⎝ ⎛ u ​ 1 u ​ 2 u ​ 3 ⎠ ⎞ ε : 眼球運動潜時(ms)、 : 実験条件を表すダミー変数、 :実験条件の固定効果(ここでは 分かりやすくするため、条件1, 2をそれぞれ列で表しているが一般的なやり方ではない; 「ダミコーディング」で検索)、 : 被験者を表すダミー変数 : 被験者のランダム効果、行 は各試行 u ∼ N 0, σ ​ I ( b 2 ) ε ∼ N 0, σ I ( 2 ) データから最尤推定などを用いて、 , , を求める。興味があるのは実験条件の効果。 がゼロかを検定したり信頼区間を求めたりする。被験者個人には関心がないので、分布から えらばれたランダムな被験者の効果が乗ると考え、分散だけモデルに入れる Y X β Z u β σ2 σ ​ b 2 β 108
  75. 観測値の分散共分散行列 は、固定効果以外のランダムな項で決まり V = ​ ​ ​ ​ ​ ,

    where V ​ = ⎝ ⎛ V ​ 1 V ​ 2 V ​ 3 ⎠ ⎞ i σ + σ ​ ​ ​ ​ ​ ( 2 b 2) ⎝ ⎛ 1 ​ σ +σ ​ 2 b 2 σ ​ b 2 ​ σ +σ ​ 2 b 2 σ ​ b 2 ​ σ +σ ​ 2 b 2 σ ​ b 2 1 ​ σ +σ ​ 2 b 2 σ ​ b 2 ​ σ +σ ​ 2 b 2 σ ​ b 2 ​ σ +σ ​ 2 b 2 σ ​ b 2 1 ⎠ ⎞ と表せる。級内相関 だったのを思い出そう。線形混合効果モデルから 生成される標本( 次元ベクトル)は、グループ内では相関=ICC、グループ外とはゼロの相 関をもつ分布からサンプリングされた値と見なせる 橋本洸哉さんのブログ記事を参考にしました(オススメ) 橋本洸哉のサイト - ランダム効果とcorrelation structure. https://sites.google.com/view/ecology-koyahashimoto/home/rde-sheng-wu-shi- yan-jie-xi/ランダム効果とcorrelation-structure V(n × n) ICC = σ ​ /(σ + b 2 2 σ ​ ) b 2 n 109
  76. チュートリアル Rのパッケージnlmeやlemを用いたチュートリアル(カルシウムイメージングデータなど) Yu et al. (2021)のSupplemental information https://ars.els-cdn.com/content/image/1-s2.0-S089662732100845X-mmc1.pdf https://ars.els-cdn.com/content/image/1-s2.0-S089662732100845X-mmc2.pdf 上記チュートリアルのデータ:

    UCI Center for Neural Circuit Mapping. https://cncm.som.uci.edu/lmem-intro/ 拡張 上の例では、クラスタ(個体) 内に実験条件が複数設定されていたが(被験者内デザイ ン)、マウスをKnockout群とwild-type群を分ける場合など、各条件に複数のクラスタ (個体)が割り振られている場合(被験者間デザイン)もある。クロスしている場合も 被験者内デザインでは、傾き(slope)にもランダム効果を入れることができる 一般化線形混合モデル(GLMM)、階層ベイズモデル ランダム効果の入れ方やパッケージ、近似法の選択など、研究者自由度はある 110
  77. 混合モデルは必要? 混合モデルを使うと、階層的構造をもつデータであっても、基本的な計測単位(試行など) をデータ点として実験データ全体をモデル化し、検定・推定を行うことができる。単純にプ ールしたときに生じる偽陽性を避けることがきる。しかし 階層性、分布など細かい仮定が必要 パラメータの推定は容易ではない(モデルの収束や特異なフィットの問題)。とくにク ラスタ数が少ない場合 ベイズ的手法も使えるが、仮定が自明でないならロバストネス解析が求められる 検出力分析も容易でない 実験動物や被験者をクラスタと考えるとき、母集団からのランダム抽出が想定されてい

    るが、神経科学実験で実験動物や被験者を母集団(?)からランダム抽出することは稀 多数作成した遺伝子改変マウスからランダムに少数選ぶのは非倫理的。ランダムに 人を選んで実験するのも非倫理的。課題の前提となる認知能力やモチベーションな どの条件を満たす人に自発的に協力してもらうことが必要 なので、混合モデルで推定される母集団のパラメータの意味はよくわからない ランダム抽出していないのにランダム効果を考慮する混合モデルを使うことで、外 的妥当性・一般化可能性の問題を隠蔽してしまっている 113
  78. 要約統計量(Summary statistics)アプローチ i. 入れ子データから各クラスタの平均(要約統計量)を計算 ii. クラスタを分析の単位として用いて要約統計量に統計検定を適用 クラスタ平均は互いに独立なので、データ従属性の問題に悩まされない 要約統計量選択の幅が広い(平均→中央値など) ニューロイメージングでは要約統計アプローチが使われてきた(FSL, SPM)

    被験者内で線形モデルを使ってパラメータ推定(第一レベル)。そのパラメータを 使ってグループで検定(第二レベル) クラスタサイズが等しいとき階層モデルと要約統計量アプローチは、P値・検出力の観点 からは等価 McNabb, C. B. & Murayama, K. Unnecessary reliance on multilevel modelling to analyse nested data in neuroscience: When a traditional summary-statistics approach suffices. Current Research in Neurobiology 2, 100024 (2021). https://doi.org/10.1016/j.crneur.2021.100024 Murayama, K., Usami, S. & Sakaki, M. Summary-statistics-based power analysis: A new and practical method to determine sample size for mixed-effects modeling. Psychological Methods (2022). https://doi.org/10.1037/met0000330 114
  79. 1/Nをどう定義するか:データ解析の悩みどころ クラスタごとに平均を取ってから検定すると(要約統計量アプローチ)、Nが小さくなっ て検出力で「損をした」気になるが、それは一般的には杞憂(McNabb et al., 2021) グループレベルのパラメータ(固定効果)の検定や推定だけに興味があるのなら要 約統計量アプローチで十分 でも、個体を超えた脳活動や行動のパラメータって何?集団から個体に汎化する? 脳活動と認知・行動は、各個体の単一試行レベルで対応するものであるので、むやみに

    平均(要約)を取るべきではない 単一試行レベルの情報量・効果量が本質的 計測ノイズが多い場合は、加算平均で「真の」単一試行を推定? クラスタ(個体)数が少なければ混合モデルも要約統計量アプローチも不適切 (被験者内デザインの場合)個々のクラスタ(被験者)で分析して、他のクラスタ でその結果を再現できるか:”subject as replication unit”アプローチ 論文スペースの制約でメインの図はプールした結果を表示することも(被験者ごと の結果はSupplへ) 新しいインデックスや解析手法(ベイズ、機械学習等)を使ってもいいが、論文内で Justificationやロバストネス解析が必要 115
  80. 神経科学における多重比較の問題 神経科学では、細胞・遺伝子・脳部位・脳画像の画素ごとに帰無仮説検定を行うことがあ る。とくにニューロイメージングでは数十万回の仮説検定からそれらを要約した結論を導く ことが一般的。 脳画像の10万画素それぞれについて有意水準5%で帰無仮説検定をすれば(mass univariate analysisとも呼ばれる)、脳画像がただのノイズであったとしても、100000 x 0.05= 5000個

    の画素が「有意」になる。当然、これをポジティブな結果として論文に報告することは当然 できない これを補正することが多重比較の問題 【復習】帰無仮説検定のエラー 第一種過誤: が正しいが、誤ってそれを否定(棄却)する(偽陽性、False positive) - 有意水準 によって制御 第二種過誤: は偽であるが、それを否定できない(偽陰性、False negative) - 偽の帰無仮説を正しく棄却する確率が検定の検出力( ) H ​ 0 α H ​ 0 1 − β 117
  81. 多重比較は神経科学では馴染みの問題。すぐれた解説記事・チュートリアルがある Ashby, F. G. Multiple comparisons problem (Chapter 6) in

    Statistical Analysis of fMRl Data (2011). James, G. et al. Chapter 13. Multiple Testing in An introduction to statistical learning with applications in R 2nd edition. (2021). https://www.statlearning.com/ https://hastie.su.domains/ISLR2/ISLRv2_website.pdf (free pdf) (最近出たISLR第2版にMultiple Testingのチャプターが追加!) Thresholding Group Analyses. DartBrains https://dartbrains.org/content/Thresholding_Group_Analyses.html 川口 淳. 脳MRI データの統計解析. 計量生物学 33, 145–174 (2012). https://www.jstage.jst.go.jp/article/jjb/33/2/33_145/_article/-char/ja/ Bonferroni法、Holm法、False Discovery Rate | 大阪大学腎臓内科. https://www.med.osaka-u.ac.jp/pub/kid/clinicaljournalclub1.html 118
  82. 2つのアプローチ Family-wise error rate(FWER) 多数の検定のうち少なくとも1つの偽陽性が出る確率をコントロール FWER = P(V ≥ 1)

    False Discovery Rate(FDR) 棄却された(有意だった)検定のうち偽陽性の割合(の期待値)をコントロール FDR = E(V /R)   Ioannidis (2005)と類似の設定だが、ここでは、 , 以外を確率変数として考える。 個の 検定を自分で行い、すべてのP値を確認できる。仮説の検定の有意水準を調整して、FWERや FDRをコントロール。 ​ ​ ​ ​ ​ Reject H ​ 0 Do Not Reject H ​ 0 Total H ​ is True 0 V U m ​ 0 H ​ is False 0 S W m − m ​ 0 Total R m − R m (James et al., 2021) m m ​ 0 m PPV = 1 − FDR 119
  83. FWERを制御するBonferroni法 (James et al., 2021) FWER = Pr(∪ ​ A

    ​ ) ≤ j=1 m j ​ Pr(A ​ ) j=1 ∑ m j ここで、 は仮説 を誤って棄却する(有意とする)イベント。個々の検定のp値が のときだけ棄却するとすると FWER ≤ ​ Pr A ​ ≤ j=1 ∑ m ( j ) ​ ​ = j=1 ∑ m m α m × ​ = m α α と、FWERが 以下に抑えられる。つまり、個々の検定の有意水準を に補正することで FWERを制御できる A ​ j j p < α/m α α/m 120
  84. FDRを制御するBenjamin- Hochberg(BH)法 (James et al., 2021; Benjamin & Hockberg, 1995)

    1. FDRのレベル を設定( など) 2. のP値 を計算 3. P値が小さい順に並べる 4. を決める 5. となる をすべて棄却 これにより、 。 個の仮説が独立な ら これでなぜ となるかはAshby (2011) p143に比較的わかりやすい解説 右の図で、FWER(Bonferroni、緑)の基準で はどれも有意でない。一方FDR(BH法、 赤)だと青点で有意。一般に、FDRの方が 有意になりやすい q q = 0.05 H ​ , … , H ​ 01 0m p ​ , … , p ​ 01 0m p ​ ≤ (1) p ​ ≤ (2) … ≤ p ​ (m) L = max j : p ​ < qj/m { (j) } p ​ ≤ j p ​ (L) H ​ 0j FDR ≤ q m FDR ≤ (m ​ /m)q 0 FDR ≤ q 121
  85. 多重比較補正の実際 ニューロイメージングで10万ボクセルもあると、Bonferonni補正した有意水準は 0.05/100000となって、ほとんどのボクセルで有意にならない 偽陽性の抑制より検出力を重視する場合はFDRにもとづき有意水準を補正 実際には個々のボクセルは独立ではないので独立でないので、相関するクラスタを 考慮してFWERにもとづく有意水準の補正を行い検定する Gaussian Random Field Theory

    (RFT)という理論から得られる閾値を用い、クラスタも 考慮してFWERを制御することが、脳マッピングでは一般的だった 明らかに不自然な仮定にもとづいている クラスタ内のどれかのボクセルが有意であることはわかるがどのボクセルかを実際 に突き止めることはできない クラスタ範囲の設定によっては偽陽性が出やすい: 「これらの結果は、約4万件のfMRI研究の妥当性に疑問を投げかけ、脳画像診断の結 果の解釈に大きな影響を与える可能性がある」(後に記述が弱められた) Eklund, A et al. Cluster failure: Why fMRI inferences for spatial extent have inflated false-positive rates. PNAS 113, 7900–7905 (2016). https://doi.org/10.1073/pnas.1602413113 122
  86. Permutationで、依存性を考慮したFWERコントロール 実験条件のラベルをランダムに並べかえ、各ランダム標本からの統計量の最大値の 分布をNull分布とする 仮説数(ボクセル数)が多いと時間がかかる 多重検定による脳マッピングは、探索的研究のステップとみなすべき 仮定が多い mass univariate analysis の多重比較補正は、正解がよくわからない

    探索的研究結果を報告するのは問題ないが、確証的研究結果であるかのように強い 主張をすべきでない 1標本で仮説を見つけた後、独立標本(holdout したデータなど)で検定したり、 事前に少数の仮説を用意したりすることで、確証に近づける 機能結合(functional connectivity)研究では、脳部位やボクセル間の相関を調べるの で、組み合わせにより仮説数が爆発する 多重比較補正をあきらめて、有意水準が恣意的に決められがち 探索的実験(データ)と確証手実験(データ)に分けて対処すべき 少数の仮説の多重比較でFDR補正している研究は怪しい。Bonferonniだとどれも有意に ならないからFDRにしたのでは。最初からFDR補正と決めていたのならよいが 123
  87. 統計学 vs. 機械学習 統計学は標本から母集団を推定し、機械学習は一般化可能な予測パターンを発見する Bzdok, D., Altman, N. & Krzywinski,

    M. Points of Significance: Statistics versus machine learning. Nature Methods 15, 233–234 (2018). https://doi.org/10.1038/nmeth.4642 推論(Inference):データ生成過程のモデルを作成し、仮説を検証したりする。通常1 標本(1データセット)で完結 予測(Prediction):観測されていない結果や将来の挙動を推測する(out-of-sample prediction)。独立データで評価 統計学:推論に重点 データ数(被験験者数)が入力変数の数よりも多い「ロングデータ」 データの生成メカニズムを考慮したモデル(←??) 実験計画が重要 機械学習:予測に重点 入力変数の数がデータ数(被験者数)を上回る「ワイドデータ」 データ生成系に対する仮定が少なく、汎用学習アルゴリズムで予測 慎重な実験計画がない場合、複雑な非線形相互作用が存在する場合でもOK 明示的なモデルがないために、生物学的知識と関連づけることが困難 127
  88. 伝統的な回帰手法と純粋な予測アルゴリズムの対比 Efron, B. Prediction, Estimation, and Attribution. Journal of the

    American Statistical Association 115, 636–655 (2020). https://doi.org/10.1080/01621459.2020.1762613 Traditional regressions methods Pure prediction algorithms 1 Surface plus noise models (continuous, smooth) Direct prediction (possibly discrete, jagged) 2 Scientific truth (long-term ) Empirical prediction accuracy (possibly short-term) 3 Parametric modeling (causality ) Nonparametric (black box) 4 Parsimonious modeling (researchers choose covariates) Anti-parsimony (algorithm chooses predictors) 5 p×n: with p≪n (homogeneous data) p ≫ n, both possibly enormous (mixed data) 6 Theory of optimal inference (mle, Neyman–Pearson) Training/test paradigm (Common Task Framework) 128
  89. Choosing Prediction Over Explanation Yarkoni, T. & Westfall, J. Choosing

    Prediction Over Explanation in Psychology: Lessons From Machine Learning. Perspectives on Psychological Science 12, 1100–1122 (2017). https://doi.org/10.1177/1745691617693393 心理学が行動の原因を説明することにほぼ焦点を合わせているため、心理学的メカニズ ムの複雑な理論を提供するものの、将来の行動を予測する能力がほとんどない 「適合度」や回帰係数の大きさや方向は、予測を保証しない 未観測データ(モデル適合に使われなかった「サンプル外」データ)に対するモデ ルの予測で評価 バイアス-バリアンス・トレードオフ、オーバーフィッティング、交差検証(cross valuidation)、正則化(regularization)などの機械学習の考え方を導入 機械学習分野の原理と技術が、心理学をより予測的な科学にするのに役立つ 短期的に予測に注力することは、結果的に長期的に行動の原因を説明する能力を向上さ せることができる 130
  90. バイアス・バリアンス分解 (Yarkoni & Westfall, 2017) 真の関数が で、 が学習データでフィットしたモデルとすると、モデル予 測の平均二乗誤差(MSE; 学習データと

    の変動に対する期待値)は、バイアスとバリアンス (分散)に分解される E (y − ​ (x)) = [ f ^ 2] (Bias[ ​ (x)]) + f ^ 2 Var[ ​ (x)] + f ^ Var[ε] Bias[ ​ (x)] = f ^ E[ ​ (x)] − f ^ f(x) Var[ ​ (x)] = f ^ E ​ (x) − [f ^ 2] E[ ​ (x)] f ^ 2 y = f(x) + ε ​ (x) f ^ y 131
  91. 分類(classification)問題 VC次元(Vapnik–Chervonenkis dimension) 2次元平面の線は3つの点をどのようなクラスにも分離できる(VC次元は3) 次元特徴量の線形判別器のVC次元は 。データ数 なら任意に分類可 https://en.wikipedia.org/wiki/Vapnik–Chervonenkis_dimension データの特徴量(入力変数)の次元を増やせば(パラメータ数・柔軟性↑)、学習データに あるどんなパターンでも分類できるようにフィットできる(「精度100%」がトリビアルに実

    現)。しかし、独立のテストデータで分類できるとは限らない(オーバーフィッティング)  ↓ データを見ながら共変量を加えていけば、有意差が出る条件は見つけられるが、再現性があ るとは限らない。手元のデータのノイズにフィットしただけかも 再現性の問題は、1標本(学習データ)だけを使ったフィットと推論(→二度漬け)によるオ ーバーフィッティングの問題とみることもできる 一部の論文はノイズへのフィットを報告しているだけ(ノイズで作った団子の品評会) p p + 1 n ≤ p + 1 134
  92. クロスバリデーション データをモデルのフィット用(訓練データ)と評価用(テストデータ)に分けて、解析結果 が母集団や独立なデータに汎化するかを確認する方法 訓練データとテストデータでそれぞれ1セット用意するのもクロスバリデーションと呼ぶ ことがあるが、1セットのデータを分割して使用する手続きを指すことが多い(印象) k-fold クロスバリデーション:データをk個のサブセットに分割して、1サブセット をテストデータ、残りのk-1セットを訓練データとして用い、予測値や推定値を得 る。k個のサブセットそれぞれがテストデータとなるように繰り返す leave-one-out

    クロスバリデーション:データを一つずつ取り出してテストデータと し、残りを訓練データとしてモデルを訓練・テストする。これをすべてのデータで テストされるよう繰り返す クロスバリデーションで用いるデータとは別にテストデータを用意する場合もある (Holdout set)。その時は学習データの中でクロスバリデーションを回す。モデル(選 択)選択やハイパーパラメータのチューニングが主な目的。最終的に選ばれたモデル を、別に用意したテストデータで予測成績を評価 異なる実験条件への汎化をシビアにテストしたいときは、1データセットを分割して行 うクロスバリデーションではなく、訓練用とテスト用で独立のデータを用意すべき(Out of sample validation) 135
  93. 予測モデルの仮定 一般的な統計的推論の場合では、多くの仮定が満たされている必要がある 線形回帰の場合、線形性や誤差の分散・分布、観測の独立性など 予測モデルではこれらの標準的な仮定は不要 バイアスと分散のトレードオフに注目し、分散を減少させながらバイアスを積極的 に活かす戦略 予測変数と応答変数の間に線形関係を仮定する必要はない。線形と非線形を問わ ず、いくつかの回帰モデルの予測性能を比較して、1つを選択することができる 選択されたモデルは、必ずしも真のモデル(存在する場合)と同じではない。現在 のデータセットを使用して評価された、最良の予測を提供するモデル

    正しいモデル vs. 良いモデル しかし、観測が独立であるという仮定は残る。一つのクラスタに属する相関する観 測値が、訓練セットとテストセットをまたがないようにするなどの対応が必要 (e.g., leave-one-run-out クロスバリデーション) de Rooij, M. & Weeda, W. Cross-Validation: A Method Every Psychologist Should Know. Advances in Methods and Practices in Psychological Science 3, 248–263 (2020). https://doi.org/10.1177/2515245919898466 (一般化)線形モデルのモデル選択のためのRパッケージを紹介 136
  94. 予測モデルによるデータ解析の実情 2005年に私が機械学習による脳データ解析を世に出したのが一つのきっかけとなって、予測 モデルを使った研究が広く普及した。当初は、方法論的な健全性を求める研究者が参入し て、野心的かつ方法論的に手堅い研究が大部分を占めていた。しかし、しばらく経つと、P値 を信奉する伝統的なニューロイメージング研究者たちが参入してきて、予測精度がチャンス レベルよりわずかに高く「有意」になる結果を出しては論文にするようになり、再び偽陽性 の海に覆われてしまった 予測モデルは、予測精度や誤差で評価するのが基本。本来P値とは相容れないアプローチ しかし予測モデルの出力を被験者の反応のようにみなして、仮説検定を行うことが重視 されてしまった

    予測アプローチであっても、研究者自由度によりノイズデータをギリギリ有意にするハ ックは容易にできる ただし、脳部位間や条件間での予測精度の違いを議論したいことはあり、そのときは検 定を使わざるを得ない 予測と推論のネスト AIの実験でも必要かも(SOTAは過去の手法に比べて「有意に」優れている?) 可能な限りクロスバリデーションで終わるのではなく、日、場所、人、刺激などが異な る独立データでテストし、汎化性能、外的妥当性を議論すべき 137
  95. 二度漬けの恐怖 二度漬け・Double dipping: モデル・変数の選択やモデルのフィットに用いられたのと同じ データを使ってモデルを評価することで、歪んだ記述統計や無効な統計的推測など、バイア スが生じること データ操作による論理的帰結にも関わらず、データそのものが持つ情報と勘違いする ランダムデータに置き換えても同じような結果が出る 二度漬による偽陽性は、当然、再現性が高い。追試して解決する問題でない 機械学習では特に要注意

    訓練データをそのまま使ってモデルをテストすれば、当然「予測精度」は高くなる 意外と気づかないのは、データ全部を使って特徴選択(遺伝子やボクセルの選択) した後、データを訓練セットとテストセットに分けることで生じる「情報漏えい」 前処理も含めてテストデータは訓練データと独立に扱う必要がある 大羽成征. 遺伝子発現データに基づく予測と推定:言いたいことと言えること. 統 計数理 405–423 (2006). https://www.ism.ac.jp/editsec/toukei/pdf/54-2- 405.pdf Oba, S. 言いたいことと言えること talk at ATR 神谷研セミナー(2008). https://www.slideshare.net/ShigeyukiOba/talk-at-atr-200812 時系列データでは、時間的に隣接するデータを訓練・テストセットに分けると、時 系列の相関により情報漏えいが起こって、spuriousに高い予測精度がでる 139
  96. 重回帰分析のモデル選択も要注意 AICやBICなどでモデル選択した後、同じデータで選択されたモデルの検定を行うと バイアスが生じる。別データを使わず対処する方法も研究されている 竹内一郎. データ駆動型科学のための選択的推論(2019). https://www.ieice.org/~sita/forum/article/2019/201903231310.pdf Voodoo correlation: 統計的に有意だった変数(ボクセル)を選択し、同じデータを使っ て課題との相関係数を計算すると、データのS/Nから考えてありえない高い相関になる

    Vul, E. et al. Puzzlingly High Correlations in fMRI Studies of Emotion, Personality, and Social Cognition. Perspect Psychol Sci 4, 274–290 (2009). http://dx.doi.org/10.1111/j.1745-6924.2009.01125.x https://escholarship.org/content/qt92v2k0hm/qt92v2k0hm.pdf "Double dipping"「二度漬け」は下の論文で有名になった Kriegeskorte, N. et al. Circular analysis in systems neuroscience: the dangers of double dipping. Nature Neuroscience 12, 535–540 (2009). https://doi.org/10.1038/nn.2303 串カツの「二度漬け禁止」のように海外でもチップをソースに漬ける時に使う Seinfeld: Double Dipped https://www.youtube.com/watch?v=KLOyChP2AWA 二度漬けは偽陽性への最速のショートカット 140
  97. 神経科学とベイズ 神経科学は、昔からベイズ統計と昔から関わりが深かった 1. 認知・行動・意思決定のモデリング 不確実な感覚入力や環境の下でのエージェントの確率推論や意思決定のモデル化 Ideal observerのような規範モデルも Ma, W. J.,

    Kording, K. P. & Goldreich, D. Bayesian models of perception and action. (2021). https://www.cns.nyu.edu/malab/bayesianbook.html 2. ベイズ脳 外界の原因から感覚入力が生じるプロセスを脳がモデル化(生成モデル)し、それを用 いて感覚入力から原因をベイズ的に推論しているとする仮説 予測コーディング、Fristonの自由エネルギー原理 変分推論等を参考にした、脳のプロセス・機構モデル 3. 機械学習 変分推論やガウシアンプロセス、グラフィカルモデルなど、機械学習のベイズ的手 法の開発に神経科学やニューラルネットワークのバックグラウンドをもつ研究者が 貢献:Bishop, Ghahramani, MacKay, Jordan, etc. Bishop, C. M. Pattern Recognition and Machine Learning. (2006).  https://www.microsoft.com/en-us/research/uploads/prod/2006/01/Bishop- Pattern-Recognition-and-Machine-Learning-2006.pdf (free pdf) 145
  98. ベイズ統計モデリング 検定・推定を含む、ベイズを使った一般的なデータ解析。線形モデル・混合モデルを拡張し た階層ベイズモデルは、心理学や生態学で普及している印象。神経科学のデータ解析ではあ まり見かけない 定番の教科書 Gelman, A., Carlin, J. B.,

    Stern, H. S., Dunson, D. B., Vehtari, A. & Rubin, D. B. Bayesian Data Analysis Third edition (2021). https://users.aalto.fi/~ave/BDA3.pdf (free pdf) 日本語の良書も多い 松浦健太郎 & 石田基広. StanとRでベイズ統計モデリング Wonderful R 2. (共立出版, 2017). 馬場真哉. RRとStanではじめる ベイズ統計モデリングによるデータ分析入門. (講談 社, 2019). ベイズでは、モデルの不確実性を確率的に表現するので、 のような 確率(分布)を扱える(知ってた? でも、頻度論ではできなかったんです) P(θ∣data), P(H ​ ∣data) 1 146
  99. ベイズ信頼区間(信用区間) 頻度論の95%信頼区間は となる範囲 確率的にばらつくのはモデル標本から計算される の方。 は一つの値 観測値を入れたときの範囲 は説明がややこしい(前述) ベイスだと、 という

    の確率分布を考えることができ、両端の確率0.05に相当 する部分を取り除いた の範囲が95%ベイズ信頼区間(信用区間;credible interval) はデータが与えられたときの の事後分布 ベイズルール: の事前分布 と尤度 の積に比例 の計算が難しくなりがち 実用上、事後分布を数値的に計算することが多い。Stanなどを使ってマルコフ 連鎖モンテカルロ法(MCMC)で乱数サンプルを生成し分布を求める P(L(X) < θ < U(X)) = 0.95 [L(X), U(X)] L(X), U(X) θ [L(data), U(data)] P(θ∣data) θ θ P(θ∣data) θ P(θ∣data) = P(θ)P(data∣θ)/P(data) θ P(θ) P(data∣θ) P(data) 147
  100. ベイジアンから見た頻度論的統計推論の問題点 Wagenmakers, E.-J. et al. Bayesian inference for psychology. Part

    I: Theoretical advantages and practical ramifications. Psychon Bull Rev 25, 35–57 (2018). https://doi.org/10.3758/s13423-017-1343-3 1. 事前知識を取り込むことが難しい 2. パラメータの範囲を確率的に定量化できない 3. 実際のデータより、モデルの標本分布に依存する 頻度論="pre-data"    ベイズ="post-data" P値が観測されないサンプルの確率に依存 95%は完璧に機能するが残りの5%は「1キロ」という値を返す体重計があって 「70kg」という結果が出たとする。頻度論的には、体重計はすべてのケースの95% 正確なので信頼度は95%。しかし、体重計が故障していないことがデータから分か るので100%の確信を持てる(Berger & Wolpert, 1988) 4. Coherentでない 複数の異なる情報を矛盾なく組み合わせることが困難 ベイズでは、コヒーレンスが確率論の法則によって保証される 5. 複雑なモデル(非線形、階層性など)に拡張することが困難 148
  101. ベイズファクター 各仮説のモデル :パラメータ をもつデータの確率分布 ( の尤度)と の事前分布 の組。 は などの点分布

    周辺尤度:尤度( のデータ適合度) を が取りうる範囲で事前分布で重みづけて平均 P(data∣H ​ ) = i P(data∣θ, H ​ )P(θ∣H ​ )dθ ∫ i i ベイズファクター(BF)= 周辺尤度の比 BF ​ = 10 ​ P( data ∣ H ​ ) 0 P( data ∣ H ​ ) 1 仮説の事後モデル確率の比 = 仮説の事前モデル確率の比 x ベイズファクター ​ = Posterior odds ​ ​ P H ​ ∣ data ( 0 ) P H ​ ∣ data ( 1 ) ​ × Prior odds ​ ​ P H ​ ( 0) P H ​ ( 1) ​ Bayes factor BF ​ 10 ​ ​ P data ∣ H ​ ( 0) P data ∣ H ​ ( 1) JASP (https://jasp-stats.org/)で演習 Wagenmakers, E.-J. et al. Bayesian inference for psychology. Part II: Example applications with JASP. Psychon Bull Rev 25, 58–76 (2018). https://doi.org/10.3758/s13423-017-1323-7 H ​ i θ P(data∣θ, H ​ ) i θ θ P(θ∣H ​ ) i P(θ∣H ​ ) 0 θ = 0 θ θ 150
  102. ベイズファクターの特徴 岡田謙介. ベイズファクターによる心理学的仮説・モデルの評価. 心理学評論 61, 101–115 (2018). https://doi.org/10.24602/sjpr.61.1_101 1. 自然で基本的な量である 2. 帰無仮説を支持できる

    頻度論ではp値が大きいことは帰無仮説を積極的に支持する証拠でない 3. 逐次的更新ができる 頻度論ではサンプルサイズを固定(逐次検定があるが) ベイズファクターが定めた閾値に達するまでデータを順次追加していき、達した時 点でデータ収集をやめることができる P値(頻度論)は、観測される可能性があった(が観測されなかった)データに依存す るのに対してベイズでは実際に観測されたデータだけで条件付けた推論を行えばよ いことに由来 4. 同程度の予測力ならば単純なモデルを選ぶ 周辺尤度は、複雑なモデルよりも単純なモデルにおいて大きくなる性質を持つ 5. 望ましい理論的性質を持つ 比較するモデルの中に真のモデルが含まれていれば、十分大きなサンプルサイズの もとで、その真のモデルが選択される確率が十分に1に近くなるという性質(モデル 選択の一致性)など 151
  103. ベイズファクターの留意点 岡田謙介 (2018) 1. 相対比較である そもそもどちらのモデルもデー タ生成メカニズムの表現としてはまったく不適とい うことはありうる 2. 事前分布の設定に敏感

    デフォルト・無情報事前分布はOK? twitterでの議論 https://twitter.com/ibaibabaibai/status/1475645295774289920? s=20&t=6TRstBAQibLsZ719S2yE7w justification、ロバストネス解析 3. 計算が必ずしも容易でない ブリッジサンプリング 152
  104. 神経科学でベイズを使うべきか 認知・行動・脳のプロセスモデルや規範モデル、機械学習には必須のツール 多くの変数を確率的表現で関連づけ、データの生成モデルを具体的に記述すること ができる。統計推論とも組み合わせることが可能 頻度論的な信頼区間やP値の代わりに使うべきか。私はユーザでないので不案内だが… 母集団からのサンプル抽出という想定が難しいケースでは、罪悪感はなくなる 事後分布や信頼区間について、認識上の不確実性という自然な解釈ができる 階層モデルの推定には有用(特異モデル) 多くのケースで頻度論と結果はさほど変わらない Lakens,

    D. The Practical Alternative to the p Value Is the Correctly Used p Value. Perspect Psychol Sci 16, 639–648 (2021).  https://doi.org/10.1177/1745691620958012 事前分布をどうjustifyするか 十分justifyできなければ、ロバストネス解析? モデルのjustificationやロバストネス解析に、限られた論文のスペースをどれだ け割けるかも、実験研究者には現実的に問題 実験研究者の分析法は、証拠の強さについてのコミュニケーションツールでもある ので、分野の研究者(査読者)と共有できるかも考慮せざるを得ない 153
  105. ベイズは再現性問題の解決に役立つか パラメータや仮説の事前確率を慎重に検討することで、事前オッズ (Ioannidis, 2005)を考慮した分析や結果の解釈が促進されるかもしれない(? 実例は知らない) P値のような二分法的考え方を排除できるか ベイズ信頼区間(信用区間)がゼロをまたぐかで二分法的判断 Jeffreys(1961)やKass & Raftery(1995)によるベイズファクターの基準

    ベイズであっても事前計画は必要 サンプルサイズについては柔軟でOKとされるが、ハックの余地はなくはない 現状ベイズを使う人は方法論に詳しい人に限られるので、ベイズを使った論文に手 堅い研究が多い印象。ベイズ使用と研究健全性の疑似相関? JASPのようなパッケージが普及すると、P値と同様の問題が広まるかも パッケージユーザのワイルドさはをあなどってはならない 伊庭さん@統計数理研究所 「論理的整合性のみを追求したら、純粋なベイズ統計学か、逆に仮説の否定のみを考え る検定一本やりの頻度論的統計学のどちらかに収束していくのではないかという気がし ますが、実用面でも知的な探求という意味でも、その間で踏みとどまることに意義があ ると思っています」  https://twitter.com/ibaibabaibai/status/1392116060044857347 R 154
  106. 統計的因果推論 データから因果効果を統計的に推定する方法を研究。実験データだけではなく観察データか らの因果推論も扱う。経済学や疫学を中心に近年発展した分野で昨年のノーベル経済学賞の 対象 おすすめ書籍 最近出た日本語の教科書 高橋将宜. 統計的因果推論の理論と実装. (2022). https://www.kyoritsu-

    pub.co.jp/bookdetail/9784320112452 この分野のパイオニアの一人、パールの一般向け書籍 Pearl, J. & Mackenzie, D. The Book of Why: The New Science of Cause and Effect. (2018). 生物学や心理学への導入は遅れている 統計的因果について雑に議論されがちなので、学ぶことは多い(自戒) Rohrer, J. M. Thinking Clearly About Correlations and Causation: Graphical Causal Models for Observational Data. Advances in Methods and Practices in Psychological Science 1, 27–42 (2018). https://doi.org/10.1177/2515245917745629 157
  107. 「実験」とは 「実験」は生物学者にとっては「実験室でやること」全般(?) 「フィールドワーク」や「in silico」などと対比 研究デザインの文脈において「実験」は、 要因をコントロールして介入・操作によって 対象となる現象の原因を明らかにしようとすること 注目する要因を他の要因と独立に操作し、自然条件下の相関関係を断ち切ることで 因果推論をしやすくする 観察研究と対比

    実験室でも観察研究はできるし、野外でも実験はできる 「実験」と「準実験」 実験(Experiment) 対象となる現象に影響を与える可能性のある重要な要素をすべてコントロール 実験条件をランダム割り付け、対照群 ランダム化比較試験(RCT, randomized controlled trial)がゴールドスタンダード 準実験(Quasi-experiment) 要因のコントロールが不十分 ランダム割り付けがされない、不十分 神経科学の実験の多くは実際には準実験? 158
  108. 神経科学における因果と実験 神経科学(生物学)では、「因果」でメカニズムやプロセスを想定しがち(因果のそう いう側面も重要)で、統計的因果推論について話が噛み合わないことがある 統計的因果推論では、介入と効果(結果)の間はブラックボックスでよい 脳のメカニズム・プロセス的因果は、統計的因果推論の枠組みでは扱いづらい Granger causalityやDynamic causal modelingなどあるが、causalの意味が独 特で位置づけがむつかしい

    「脳活動計測は相関的手法で、脳刺激は因果的手法」という決まり文句は混乱している 例えば、他の要因をコントロールしながら刺激や実験条件を操作して脳活動計測し たのなら、刺激や実験条件から脳活動への因果を調べたことになる 言いたいのは、「脳活動が原因となって行動や認知が生じるかを調べたいなら脳刺 激を使うべき」ということか Weber, M. J. & Thompson-Schill, S. L. Functional neuroimaging can support causal claims about brain function. J Cogn Neurosci (2010).  https://doi.org/10.1162/jocn.2010.21461 159
  109. 回帰分析 自体には と の間の因果関係は含意されていないが、 を独 立変数/操作変数、 を従属変数/結果変数というときには、研究者による介入・操作が想 定されている 回帰関数自体は「 で条件付けた

    の条件付き期待値」 ニューロイメージングの"GLM/SPM"は、形式的には、統計的因果推論になっている ただし、例えば「右手を動かす」という実験条件(X)が脳活動(Y)を変化し たからといって「右手を動かすことが原因で脳活動が変化した」と結論するの はヘン 脳活動→手の運動の因果関係のはず。※感覚フィードバックによる脳活動 はあるが 統計的因果推論としては「各試行に『右手を動かす』と『左手を動かす』 の条件をランダムに割り付ける介入が原因となって、脳活動の差が生じ た」←神経科学者は本来そんなことに興味ない "GLM/SPM"は社会科学的な統計分析の考え方を脳データ解析に当てはめたもの で、脳のプロセスやメカニズムを調べることには向いていない Decoding/encodingなどの予測モデルでも回帰を使うが、そこでは因果は想定され ていない。予測できるか・情報を読み出せるか、に重点がある。観察データでもOK Y = Xβ + ε X Y X Y X Y 160
  110. 神経科学の実験は、遺伝子の操作やオプトジェネティクスなど、社会科学では難しい 「究極の介入」ができる。しかし、他の要因(共変量)が十分コントロールされている かは怪しい。実際には準実験? コントロールされた実験を絶対視することの弊害も指摘されている 生態学的妥当性、自発脳活動の重要性、など Diener, E., Northcott, R., Zyphur,

    M. J. & West, S. G. Beyond Experiments. Perspect Psychol Sci 17456916211037670 (2022). https://doi.org/10.1177/17456916211037670 観察研究でも統計的推論は使う(母平均の信頼区間、検定) 解剖、たとえば、細胞やシナプスのカウントなど (ランダム)サンプリングが重要(外的妥当性) 一方、介入実験では実験条件のランダム割り付けが重要(内的妥当性) 161
  111. おわりに 1. データ取得法・分析法は事前に決めよう 予備実験・解析は柔軟でよいが、統計的推論のための実験・データ解析では自らの 自由度を縛る "No committment, no inference" (大塚

    淳、Ken McAlinn) 2. 独立データで汎化・再現性を調べよう 1データセットで確証的研究は無理 せめて交差検証はしよう 3. 統計手法/モデルに思考を乗っ取られないようにしよう "All models are wrong, but some are useful" (George Box) 研究対象についてあなたの方がよく知っているはず 違和感をもとに、より良い手法を探索しよう 162
  112. 付録 事前課題:プレレジサンプルの作成 実験の事前登録(pre-registration; プレレジ)に関する下の解説論文を参考にして、 Open Science Framework (OSF)のインターフェースを用いてプレレジのサンプルを作成してくだ さい: 長谷川

    龍樹, 多田 奏恵, 米満 文哉, 池田 鮎美, 山田 祐樹, 高橋 康介, & 近藤 洋史. 実証的研 究の事前登録の現状と実践. 心理学研究 92, 188–196 (2021). https://www.jstage.jst.go.jp/article/jjpsy/92/3/92_92.20217/_article/-char/ja/ 実験は、自分の研究に関するものでも仮想的なものでも構いません。先行研究の追試でもよ いです。ワークショップでディスカッションしながら改良していきますので、完全なもので ある必要はありません。プレビュー画面をpdf形式で保存してください。実際に登録する必要 はありません。 164
  113. 参考資料 StatQuest with Josh Starmer. Power Analysis, Clearly Explained!!! (2020).

      https://www.youtube.com/watch?v=VX_M3tIyiYk_ 【G-Powerの使い方】無料のサンプルサイズ計算ソフトの操作方法を画像付きで分かり やすく解説|ナツの研究室 (2021). https://natsu-laboratory.com/gpower-sample-size/ Daniel Lakens. Sample Size Justification by Daniel Lakens. (2019). https://www.youtube.com/watch?v=XhfkodpyIsw\ 演習で使用するソフトウェア 以下のソフトウェアをインストールして使えるようにしておいてください。 GPower https://www.psychologie.hhu.de/arbeitsgruppen/allgemeine-psychologie- und-arbeitspsychologie/gpower JASP https://jasp-stats.org/ 必須ではありませんが、R (RStudio) が使えることが望ましいです。 165