Upgrade to Pro — share decks privately, control downloads, hide ads and more …

統計学と機械学習の違いと接点とは?

ueniki
May 26, 2022

 統計学と機械学習の違いと接点とは?

connpassで開催した勉強会『統計学と機械学習の違いと接点とは?〜統計・機械学習・統計的機械学習とは何か?〜』の内容スライドです。
アーカイブ動画はこちらです。)

--------------------------------
データサイエンスを学ばれている皆さんは、「統計学と機械学習の違いは何か?」と一度は疑問に思われたことがあるのではないでしょうか。
統計学と機械学習は、本来は非常に近しい学問であり、近年、共に大きな注目を集めているにも関わらず、ズバリ「統計学と機械学習の違いは何か?」に納得の行く答えを与えてくれる文献は多くはありません。
SNS上でたまに議論を目にすることもありますが、本当にそうだろうか?と思うような眉唾な議論も少なくありません。

そもそも統計学とは何でしょうか? 機械学習とは何でしょうか?
実は、こんな根本的な質問に答えるのも簡単ではないのです。

発表者(上野)が様々な文献をあたり、「そもそも統計学と機械学習とはなにか?」 「統計学と機械学習の違いは何か?」をまとめ、自分なりに分かりやすく解説します。

統計学と機械学習に入門したばかりの人も、これらの疑問を解決した上で統計学と機械学習を学べば、さらに理解も深まるでしょう。
ある程度統計学と機械学習を理解した人であっても、一度立ち止まって深く考えてみることで、新たな視点を手に入れることができるのではないでしょうか。
--------------------------------
参考文献
統計学入門
結局、統計モデリングとは何なのか

統計的機械学習入門
ベイズ推論による機械学習入門
しくみがわかるベイズ統計と機械学習

発展的統計的機械学習
ガウス過程と機械学習
ベイズ深層学習

ベイズモデリング
StanとRでベイズ統計モデリング
基礎からのベイズ統計学

# ベイズ主義 # ベイズ統計 # 統計入門 # 機械学習

ueniki

May 26, 2022
Tweet

More Decks by ueniki

Other Decks in Technology

Transcript

  1. 参考・オススメ文献 • 統計的機械学習入門 ◦ ベイズ推論による機械学習入門 ◦ しくみがわかるベイズ統計と機械学習 ◦ 統計的学習理論 ◦

    統計的機械学習 ―生成モデルに基づくパターン認識 ◦ 統計的機械学習ことはじめ : データ分析のセンスを磨くケーススタディと数値例 • 発展的統計的機械学習 ◦ ガウス過程と機械学習 ◦ ノンパラメトリックベイズ 点過程と統計的機械学習の数理 ◦ ベイズ深層学習 • ベイズモデリング ◦ データ解析のための統計モデリング入門 ――一般化線形モデル・階層ベイズモデル・ MCMC ◦ StanとRでベイズ統計モデリング ◦ 階層ベイズモデルとその周辺 ―時系列・画像・認知への応用
  2. 「統計的機械学習」という融合分野 • 有名な『パターン認識と機械学習(ベイズ理論による統計的予測)』(通称、PRML) は、副題がベイズ理論による統計的予測であり、統計的機械学習の本 ◦ 近年、統計的機械学習が注目されている • 統計的機械学習とは、『統計的手法を用いて機械学習をする = 統計モデリングの

    アプローチを機械学習タスクに適応させる手法』 ◦ 統計学でもあり、機械学習でもある のが統計的機械学習 ◦ 統計学は、「〇〇統計学」(ex. 生物統計学、心理統計学)「統計〇〇学」(ex. 統計力学)「ex. 統 計的〇〇」(統計的機械学習、統計的因果推論)というような融合ワード?の多い学問
  3. 統計学とは何か? • データに潜む規則や構造を抽出する(モデリングする)ことによって、現象の理解や 未知の現象に対する予測を行う 規則や構造を抽出 =モデル化する ②未知の現象に対する予測を行う 統計モデリング ① 現象を理解する

    • 確率分布を用いてデータに潜む規則や構造を抽出する(= 統計モデリング する)ことに よって、現象の理解や未知の現象に対する予測を行う ◦ 統計学の特徴は「統計モデリング」をして、現象の理解や未知の現象に対する予測を行うという こと
  4. 「真の」統計モデル 正規分布 モデル化 ③ 標本から母集団のモデルのパラメータ(ここでは平 均と分散)を推定 推定された統計モデル 正規分布 データを抽出 母集団

    標本 ① 標本分布の形が正規分布のような 形をしていると評価する ② 母集団の分布も正規分布なのでは ないかと仮定 = モデリングする 頻度主義 μ σ2 μ* σ*2
  5. 「真の」統計モデル 正規分布 モデル化 推定された統計モデル 正規分布 データを抽出 母集団 標本 完 全

    に 一 致 は し な い ① 標本分布の形が正規分布のような 形をしていると評価する ② 母集団の分布も正規分布なのでは ないかと仮定 = モデリングする ③ 標本から母集団のモデルのパラメータ(ここでは平 均と分散)を推定 頻度主義 μ* σ*2 μ σ2
  6. なぜ推測統計が必要とされるのか? • 統計学は、科学的実験手法に確率論的解釈を与えることで、19世紀後半〜20世 紀以降の科学の発展を支えてきた「縁の下の力持ち的学問」 ◦ 現代統計学の金字塔となったR.A.Fisherの本の名は『研究者のための統計的方法』 ◦ 例えば、実験心理学では、心理学に実験とその結果の統計学的な分析を導入することで、そ れまでの哲学的な心理学とは異なる実証的な心理学という境地を拓いた (実験心理学の父

    ヴィルヘルム・ヴント は、「新しい学問分野として心理学」を成立したとされ る) • 観察・実験・調査を用いた経験主義的な科学に確率という道具を用いて納得感を 付与している = 科学を科学的たらしめている ◦ 例えば、検定は、Aの母集団とBの母集団のパラメータが違うかどうかを手元のサンプルから 推定する分析手法のこと
  7. 記述統計 頻度主義推測統計 ベイズ主義推測統計 推 測 し な い 推 測

    す る 統計学の分類 推測統計 これまで話して 来たところ
  8. 記述統計 頻度主義推測統計 ベイズ主義推測統計 推 測 し な い 推 測

    す る 統計学の分類 推測統計 これからメインで 話すところ これまで話して 来たところ
  9. 頻度主義の限界とベイズ主義の台頭 • 20世紀の統計学の主流は頻度主義だったが、現代では統計学の著名学術誌の過半数はベ イズ主義の立場を取っているとも言われている(『基礎からのベイズ統計学』) • 頻度主義統計の最も便利なツールである「統計学的仮説検定」の「 p値」「有意性」が批判にさ らされており、ベイズ主義が台頭してきた ◦ 統計の誤解と濫用や「p値至上主義」を憂慮しp値の6原則を発表したASAの声明に対する統計学徒の素人意見

    
 ◦ 「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明に対する 某データサイエンティストのブログの声明に対する素人()の声明 
 ◦ 統計学的な有意性検定の意味のなさ • 一方で、どちらが正しい主義かという問いに意味はなく、好きな主義と好きな方法を使うこと ができる(『統計学入門 「主義」を心配するみなさまに』) 参考:統計初心者がベイズ統計学に入門するまでの勉強法
  10. 事前分布・尤度関数・事後分布 ベイズの定理は、「背景パラメータθから結果Dが得られる確率p(D|θ)から、結果Dが得 られたときのパラメータθの確率p(θ|D)を逆計算する手続き」と言える 背景と結果が 入れ替わっている 尤度関数 事前分布 事後分布 例として、二項分布によるバスケットのフリースロー(パラメータ=入る確率 θ)を考える

    Dとして、Aさんが10回フリースローをして7回入ったという事象が観測できているとする。 • 事前分布:データを観測する前のパラメータの主観確率 例ーAさんのフリースローの入る確率を事前にどの程度と仮定するかという θの確率分布 • 尤度関数:あるパラメータのもとで観測したデータが発生する確率 例ー入る確率をθとしたときにDが起こる(10回中7回入る)確率は、 10 C 7 θ7(1−θ)3 ← θの関数 • 事後分布:データを観測した後のパラメータの確率分布。本来の時間の流れは θを元にDが発生すると いう流れであり、時間の流れに逆らった計算を行うので逆確率とも言う。 例ーD(10回中7回入った)を観測した後に更新される θの確率分布
  11. 事前分布とベイズ統計学への批判 • 事前分布を主観的に決める必要があり、一歩間違えるとデータ分析における科学的客観性を本質 的・根本的に脅かす ◦ R.A.Fisherの『研究者のための統計的方法』の中では「逆確率の理論(=ベイズ理論)はある誤謬の上に立脚 するものであって、完全に葬り去らなければならないのである」と全否定されている • 一方で、Fisherは、「観測上の根拠が前もって存在するような場合 を除くと、逆確率の方法では、既

    知の標本が取り出された母集団に関する推論を、確率的に表現することはできない」とも述べてお り、観測上の根拠が存在する場合にはベイズの定理の使用を認めている ◦ 観測上の根拠が前もって存在するような場合(検診では有病率が事前に知られている場合、迷惑メールフィル ターでは、迷惑メールに該当の言葉が含まれている確率など)には使える • できる限り主観を排するため、定義域の大きい一様分布や分散が非常に大きい正規分布など のできる限り事後分布に影響を与えない無情報事前分布を用いることが多い 参考:豊田秀樹. 『基礎からのベイズ統計学』
  12. 「真の」統計モデル 正規分布 モデル化 データを抽出 母集団 標本 ① 標本分布の形が正規分布のような 形をしていると評価する ②

    母集団の分布も正規分布なのでは ないかと仮定 = モデリングし、 事前分布p(θ)を設定する μ σ2 μ事前分布 σ事前分布 ベイズ主義
  13. 「真の」統計モデル 正規分布 モデル化 データを抽出 母集団 標本 ③ 標本から尤度関数p(D|θ)を計算して母集団のモデルのパラメータ (ここでは平均μと標準偏差σ)の事後分布p(θ|D)を推定 μ

    σ2 μ事後分布 σ事後分布 μ事前分布 σ事前分布 ② 母集団の分布も正規分布なのでは ないかと仮定 = モデリングし、 事前分布p(θ)を設定する ① 標本分布の形が正規分布のような 形をしていると評価する ベイズ主義
  14. 「真の」統計モデル 正規分布 モデル化 データを抽出 母集団 標本 μ σ2 パラメータを値で 推定するのではなく、

    分布を推定する μ事後分布 σ事後分布 μ事前分布 σ事前分布 ② 母集団の分布も正規分布なのでは ないかと仮定 = モデリングし、 事前分布p(θ)を設定する ① 標本分布の形が正規分布のような 形をしていると評価する ③ 標本から尤度関数p(D|θ)を計算して母集団のモデルのパラメータ (ここでは平均μと標準偏差σ)の事後分布p(θ|D)を推定 ベイズ主義
  15. モデル化 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 モデル化 例 •

    A:弱い光を当てて育てた植物の重さ B:強い光を当てて育てた植物の重さ ベイズ主義
  16. モデル化 データを抽出 母集団A Aの標本 データを抽出 母集団B Bの標本 モデル化 ベイズ主義 標本からそれぞれの母集団のモデルのパラメータ

    (ここでは平均μ(標準偏差σはおいておく))の事後分布p(θ|D)を推定 μ A 事後分布 μ B 事後分布
  17. ベイズ主義 μ A 事後分布 μ B 事後分布 μ 1A μ

    1B μ 2A μ 2B μ nA μ nB ・・・ ・・・ 比較 比較 比較 μ iB の方が大きい確率を 直接計算できる
  18. なぜベイズ主義統計学の発展が遅れてしまったのか • 歴史的には、主義論争に巻き込まれて、大勢派から弾圧されていた ◦ R.A.Fisherの『研究者のための統計的方法』の中でも「完全に葬り去らなければならないのであ る」と全否定されている • (弾圧理由①)事前分布を主観的に決める必要があり、一歩間違えるとデータ分析に おける科学的客観性を本質的・根本的に脅かす ◦

    この問題は根本的には解決していないが、できる限り無情報的事前分布を使用することで論争 を一定回避することは可能(決定的な立場はまだない) • (弾圧理由②)事後分布の計算には高次元の積分計算が含まれており、解析的には 解けない ◦ MCMC、変分推論法などの近似計算にもかなりの計算力が必要だが、マシンパワーの向上によ り十分に可能になった 参考:豊田秀樹. 『基礎からのベイズ統計学』
  19. 統計モデリングを行う上での注意 • 統計モデリングは、あくまで確率的にモデリングしているにすぎず、現象の裏側(母 集団)の想像はしているが、現象の原因や生起システムについては何も述べてい ない ◦ 因果関係が同時に推定できるというのはよくある誤解 ◦ 因果関係を推定するには、統計的因果探索で使われるような因果関係推定用の手法が必要 •

    統計モデリングを分析者が自ら行わなければならないのが統計学の難しさ • どれだけ多くのデータを集めても、母集団の分布を完全に理解できるということは ないし、モデリングの過程で分析者の主観・仮定が入り込む ◦ 統計学を用いた研究とは、限られたサンプルに対して、正しく統計学的に推察しているのか?前提 は妥当か?なども含めて、人々が納得できるかどうかで合意形成していくプロセス ◦ 不正や嘘でなくても、導いた結論が間違っている可能性は十分にある
  20. 機械学習とはなにか? • 「データに潜む規則や構造を抽出することによって、現象の理解や未知の現象に対 する予測を行う」が、必ずしも統計モデリングを行う必要はない ◦ モデルはどのようなアルゴリズムを使っていてもよく( ディープラーニング、ニューラルネットワーク、 ランダムフォレスト、ロジスティック回帰 etc、、、)、これらのアルゴリズムを統計モデリングの枠組み で説明できる必要はない

    • 統計的機械学習とは、統計的手法を用いて機械学習をする = 統計モデリングの アプローチを機械学習タスクに適応させる手法 ◦ 一般的な機械学習の入門書で目にするようなアルゴリズム( ディープラーニング、ニューラルネット ワーク、ランダムフォレスト、ロジスティック回帰 etc)は「非統計的機械学習」だと言える
  21. • 教師あり機械学習の識別問題は、Xを入力してYを出力し、全データの識別率を高 めるために勾配降下法によって損失関数が最小化になるWを求める問題に帰着さ せられる ◦ 設定する損失関数と、損失関数を最小化するアルゴリズムは機械学習アルゴリズムに よって異なる ベイジアン・ニューラルネットワーク 統計的機械学習 •

    パラメータに事前分布p(W)を設定し、与えられた教師データから事後分布p(W|X, Y)を学習する問題に帰着させることができる ◦ p(W|X, Y)を近似的に学習する方法として、ラプラス近似、 MCMC、変分推論法などが知 られてる ベイズ化
  22. x y w 2 w 1 x y w 2

    w 1 データ空間 パラメータ空間 事後分布にもとづく回帰モデル パラメータwの事後分布p(w|x,y) 事前分布にもとづく回帰モデル パラメータwの事前分布p(w) 事前 事後
  23. 予想分布 学習されたwの分布を使って、新しい入力値x * に対する未知の出力値y * に関する予測 分布は x y 事後分布にもとづく回帰モデル

    事後 x * } 事後分布 MAP EAP MED y * となり、あらゆるwに対して予測モデル の事後分布 による 重み付き平均を計算しているイメージになる 直線が引きたければ点推定すればいい y *
  24. 機械学習がなぜここまで流行しているのか • 未知の現象の予想とは人類の夢である ◦ 資本主義では、予測した人は利益を得えて、さらにうまく予測できることに投資をすること ができるという循環が起こる • 従来の機械学習では、様々な欠点(後述)には目をつむり、予想さえできればいい という割り切った考え方をする ◦

    統計学のように難しいことを考えずにとりあえず予測できればいいんでしょ?という分かり やすさが、機械学習がウケている大きな要因だと考えている(笑) • 予測精度の高い機械学習アルゴリズムは使いつつ、統計モデリングの手法を導入 することで、機械学習の良さと統計学の良さをミックスさせたのが統計的機械学習 ◦ 多くの機械学習アルゴリズムで統計モデリングを導入することは可能
  25. • データが膨大に必要 ◦ 精度が高い複雑なモデルでは、パラメータの数が膨大であり、このようなデータに過剰適合せずに 学習させるには、大量のデータが必要となる ◦ 例えば、ガン診断の画像データのような専門家の手によるラベル付けが必要なものやでは、ラベル 付きデータの収集に非常にコストがかかる場合もある • 過学習が起こる

    ◦ 機械学習は統計学のように目の前のデータの背景知識を汲み取っているわけではなく、目の前の データにフィットしようとするので、本質的に過学習することは織り込み済みの手法 非統計的機械学習の限界と統計的機械学習による克服① • 学習した後もパラメータの事後分布は一定のゆらぎを持っている ◦ データが増えれば増えた分だけ、事後分布は確からしくはなる ◦ 統計学はもともと少ないデータから背景知識をゆらぎを許して想像するための学問 ベイズ化
  26. 非統計的機械学習の限界と統計的機械学習による克服② • 不確実性を扱うのが苦手 ◦ 学習時に現れなかった入力や、与えられたデータのみでは判断するための情報が本質的に 足りてないような状況において、一般的な機械学習は一定の自信で何かしらの出力を出して しまう ◦ 予測アルゴリズムが「何を知らないのかを知る」ことができない ベイズ化

    • 分からなさが分かる=判断に自信がないことが分かることによって、(人間の)判断を挟むなどの対 応が可能 • 自信のある領域とない領域が分かることによって、自信のない領域周辺のデータを追加すれば、効 果的に知識の探索ができる 曖昧なところは確率分布が広がる 参考:『ガウス過程と機械学習 』
  27. 非統計的機械学習の限界と統計的機械学習による克服③ • 解釈性が低い ◦ どうしてそのような予測を行ったのかの根拠を示すことができない ◦ 予測精度が高い場合に与えられたデータに過剰適合しているから予測精度が高いだけな のかが分からない ベイズ化 ※(解釈性の低さを補うために

    XAI(=AIを説明する技術)も注目されている) 参考:須山敦志. 『ベイズ深層学習』 • 統計学はモデリングを行うために、解きたい課題に合わせて分析者が自ら確率分 布を使ったモデルの構築を行う必要があるため、何を仮定しているのかが明確 ◦ 特にベイズ推論を行うためにはパラメータに対する事前分布を設定する必要もあり、パラ メータに関して持っている知識を取り込むことができる
  28. その他統計的機械学習の応用の方向性 統計的機械学習には、機械学習の弱点を克服する以外にも、下記のような応用の方向 性が存在する • 既存の機械学習手法をベイズ的に解釈する ◦ 例えば、深層学習における一部の計算技術はベイズ推論における計算技術と等価である ことが知られている ▪ 過剰適合を防ぐための正則化やドロップアウトといったテクニックは、ベイズ推論における変

    分推論法のある種の利用形態として捉えることができる ▪ 深層学習とベイズの手法であるガウス過程には深い繋がりを示せることが知られている • 機械学習アルゴリズムのベイズ推論への応用 ◦ 例えば、ベイズ推論の事後分布をニューラルネットワークを用いて計算する方法(償却推論)がある 参考:須山敦志. 『ベイズ深層学習』
  29. 統計的機械学習の今後 参考:須山敦志. 『ベイズ深層学習』 • マシンパワーの向上などにより課題が克服されてきたことで、社会実装されていく準 備は整ってきたが、高度な数学的な知識を要するため、機械学習よりもさらに一段と普及は難 しいだろう • 近年、Stanに代表される確率的プログラミング言語が発展しており、PythonやRなど と組み合わせて(PyStan、Rstan)統計モデルを記述すれば、MCMCや変分推論な

    どを自動的に実行することができるようになった ◦ 機械学習に統計モデリングを組み合わせて実装することも容易になり、今後実用例も増え ていくだろう • 研究分野としては、しばらく統計学と機械学習の蜜月は続き、互いに他に良い影響 を与えながら急速な発展を遂げていくだろう