Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計学に入門したので確率変数/期待値/分散をなるべく分かりやすく説明してみる
Search
Yosuke Obata
August 23, 2019
Science
1
490
統計学に入門したので確率変数/期待値/分散をなるべく分かりやすく説明してみる
Yosuke Obata
August 23, 2019
Tweet
Share
More Decks by Yosuke Obata
See All by Yosuke Obata
Kotlin + DGS で始めるスキーマファーストな GraphQL サーバー開発
sukechannnn
0
240
自動E2Eテストを活用した デプロイフロー改善
sukechannnn
6
1.6k
結婚式の席札を手書きしたくなかったので技術で解決した話
sukechannnn
1
4.1k
Other Decks in Science
See All in Science
白金鉱業Meetup Vol.15 DMLによる条件付処置効果の推定_sotaroIZUMI_20240919
brainpadpr
1
490
20分で分かる Human-in-the-Loop 機械学習におけるアノテーションとヒューマンコンピューターインタラクションの真髄
hurutoriya
5
2.3k
機械学習を支える連続最適化
nearme_tech
PRO
1
150
Introduction to Graph Neural Networks
joisino
PRO
4
2.1k
Improving Search @scale with efficient query experimentation @BerlinBuzzwords 2024
searchhub
0
240
Pericarditis Comic
camkdraws
0
1.2k
Machine Learning for Materials (Lecture 8)
aronwalsh
0
410
教師なしテンソル分解に基づく、有糸分裂後の転写再活性化におけるヒストン修飾ブックマークとしての転写因子候補の抽出法
tagtag
0
120
MoveItを使った産業用ロボット向け動作作成方法の紹介 / Introduction to creating motion for industrial robots using MoveIt
ry0_ka
0
160
機械学習による確率推定とカリブレーション/probabilistic-calibration-on-classification-model
ktgrstsh
2
240
いまAI組織が求める企画開発エンジニアとは?
roadroller
2
1.3k
ICRA2024 速報
rpc
3
5.2k
Featured
See All Featured
It's Worth the Effort
3n
183
27k
Facilitating Awesome Meetings
lara
50
6.1k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
31
2.7k
jQuery: Nuts, Bolts and Bling
dougneiner
61
7.5k
Designing for humans not robots
tammielis
250
25k
A designer walks into a library…
pauljervisheath
204
24k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
65k
Build The Right Thing And Hit Your Dates
maggiecrowley
33
2.4k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
Why You Should Never Use an ORM
jnunemaker
PRO
54
9.1k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Transcript
統計学に入門した ので確率変数/期待値/ 分散をなるべく分かりや すく説明してみる
今回の勉強会では ・確率変数/期待値/分散について説明してみる ・発表することで自分の理解も整理したい Instructions 2 なんで統計学を学ぼうと? ・元々は機械学習を勉強するつもりだった ・が、機械学習の数式が分からなすぎた(特に確率変数 /期待値/分散が謎だった) ・統計学を一通り勉強すれば機械学習の理論も理解できるのでは?という気がした
・学んでるうちに統計学そのものが面白くなった
I am @sukechannnn Hello! 3 ・社会人3年目のエンジニアです ・株式会社フィードフォースでバックエンドエンジニアをしています ・最近はデータの可視化・分析もちょっとだけしてます(楽しい)
◍ これから話す話は全て⇢の本に書いてあ ります ◍ とても良い本ですが数式ベースの説明 がメインなので、全くの初学者はマン ガでわかるシリーズとかから始めた方 が良いかも...? ◍ また、例題は以下のQiita記事を参考に
してます ◌ https://qiita.com/Lily0727K/items/9ea67d7bb7335 698465d ちなみに 4 https://www.amazon.co.jp/dp/4130420658
1. 統計学とは Let’s start with the first set of slides
5
◍ 得られたデータからなんらかの規則性(あるい は不規則性)を見出すことを目的とした学問 ◍ 得られた結果の分析・検証がメイン ◌ 予測は機械学習の方が得意 ◍ 最初は医学(疫学)から発展してきた ◌
“統計学が最強の学問である”とかが詳しい ◌ https://www.amazon.co.jp/dp/4478022216 統計学とは 6
機械学習 ・予測、推定がメイン ・なので、得られた結果の精度が重要 ・どういう処理をしているかの意味は よく分からなくても OK ・DNN とか謎のまま使われてる ・人間の判断材料にもなるし、アプリ ケーションに組み込むこともできる
統計学 ・データの中身の解析がメイン ・なので、得られた結果の意味が重要 ・意味がわかる必要があるのでロジッ クは比較的シンプル ・人間が判断する材料になる ・機械学習で使われるようなアルゴリ ズムもある 統計学とは 統計学 と 機械学習 7
◍ 統計学の手法は目的や分野ごとにいくつ かある ◌ 右図にあるような標準正規分布に近 似する方法はよく知られてるが、他 にもたくさんある ◍ それらすべての手法の基礎となるのが、 期待値・分散の考え方
◌ そして確率変数!(一番謎だった…) ◍ この発表では主に確率変数/期待値/分散 について説明します 統計学とは 8
2. 例題 9
◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率 はどれくらいでしょうか? ◍ 以下の選択肢から最も近い値を選んでください。 例題 10 1)
10% 2) 5% 3) 0.05% 4) 0.0005%
◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率 はどれくらいでしょうか? ◍ 以下の選択肢から最も近い値を選んでください。 例題 - 正解
11 1) 10% 2) 5% 3) 0.05% 4) 0.0005% なんでこうなるのかを 次 ページ以降で解説します!
3. 解説 12
解説 13 ◍ コインを投げて出る結果は「表と裏が出る」の 2種類 ◍ このような試行のことを ベルヌーイ試行 と言います ◍
このベルヌーイ試行を n回行った場合に表( or 裏)が出る確率は、表 が出る確率をPとすると ◍ この確率に対する確率分布を 二項分布(ベルヌーイ分布)と言います ◍ ここで、X は確率変数です
解説 14 ◍ コインを投げて出る結果は「表と裏が出る」の 2種類 ◍ このベルヌーイ試行を n回行った場合に表( or 裏)が出る確率は、表
が出る確率をPとすると ここで、今回のコインは表も裏も 1/2の確率なので、上記の P(X)は になります。 例えばn=4回コインを投げてx=2になる確率 => 6/16 と計算できます。
解説 - 確率変数 ◍ 確率変数とは「ある変数の値をとる確率が存在する変数のこと」です ◍ ◍ 例えば... 1. コインを投げると1/2の確率で表(1)か裏(0)が出る
2. サイコロなら1/6の確率で 1,2,3,4,5,6 のどれかが出る ◍ という、事象そのものと考えると分かりやすい ...気がする ◍ 各値に確率が振ってあって、実行するとその確率に応じてランダムに 値を返す関数が定義してあるイメージ ◍ コインの確率変数を Rubyのメソッドにしてみる 15
◍ さて、↑ の確率を出したいのでした ◍ 今回の例題のように、確率変数 X が二項分布に従っている場合、 期待値 と 分散
は以下のようになります 期待値: 分散: 解説 16 ◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率はどれくらいでしょうか?
◍ 期待値とは、平たく言うと 平均値 です ◍ n は試行回数、p は表が出る確率です ◍ なので、10回試行した場合の期待値は
E(X) = 10 * 1/2 = 5 ◍ 二項分布の期待値は特に分かりやすいです 解説 - 期待値 17
◍ 分散は、確率変数 X の ばらつき度合い のことです ◍ 分散が大きければ大きいほど ばらつきます ◍
√V(X) が 標準偏差 です 解説 - 分散 18
◍ 試行結果を足した場合、分散は試行結果と共に増えていきます ◌ X1 + X2 + X3 + …
Xn の結果は n を増やすと増えるからです ◍ 平均を取った場合は事情が変わります ◌ (X1 + X2 + X3 + … Xn) / n が、n を増やすと安定するのは想 像に難くないと思います ◌ 実際に、平均値の場合だと分散は V(X)/n で減っていきます ◌ n -> ∞ とすると、分散は0に収束します ◍ この性質を利用したのが、 大数の法則 です 解説 - 分散 19
◍ 大数の法則 は試行回数が増えると分散が0に収束し、その平均値 も収束するというものでした ◌ じゃあ、その分布もどこかに収束しそうじゃない? ◍ ということで、ラプラスの定理(中心極限定理)が生まれました ◍ ラプラスの定理は、試行回数がめっちゃ増えると
二項分布が正規 分布に近似できてしまう 、という定理です ◌ ラプラスの定理は 中心極限定理 の特殊バージョンです ◌ 中心極限定理は、どんな分布 でも試行回数がめっちゃ多いと 正規分布になる というなんともすごい定理です 解説 - 大数の法則, ラプラスの定理 20
◍ 期待値と分散を問題の条件で出すと、 ◍ E(X) = 1000, V(X) = 500 ◍
標準偏差: σ = √V(X) = √500 ≒ 22.36 ◍ 標準偏差が出て、正規分布に近似できるなら、確率出せそう 解説 21 ◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率はどれくらいでしょうか?
◍ 有名な正規分布の性質は ◌ ±σ の範囲におさまる確率は約 70%(68.27%) ◌ ±2σ の範囲におさまる確率は約 95%(95.45%)
◌ ±3σ の範囲におさまる確率は約 99%(99.73%) 解説 - 正規分布 22
23 ◍ もう少し正確に言うと、 「標準偏差に対する確率が、正規分布表に 当てはまる性質を持っている」と言える。 ◍ μ = E(X) =
1000 ◍ σ = √V(X) = √500 ≒ 22.36 より ◍ Q(u) = 100 / 22.36 ≒ 4.47 ◍ なので右の正規分布表から、コインを 2000 回投げたときに、表が 1100回以上出る確率 は 約0.00039% となります(パーセント表 記にしてるので 100 倍してる)。 解説 - 正規分布表
◍ 頑張って手計算で出した答えですが、近似値のため正確ではありません ◍ SciPy(Python の数値解析ライブラリ)使って正確な値を出してみます ◍ binom 関数はExcelにも似たものが入ってて、引数に (成功数, 試行回数,
成功確率)を入れると正規分布の確率を出してくれます 解説 - Python 24
◍ 二項分布を正規分布に近似して、正規分布から期待値と分散 (標準偏差)を使って手計算で確率を算出してみました ◍ ライブラリを使えば答えは一発で出せますが、統計学はその 答えが示す意味が重要なので、学習の際には泥臭く手を動か してみるのがオススメです ◍ 僕もまだまだ初心者なので、今後も継続的に勉強します! まとめ
25
おしまい 26
Credits Special thanks to all the people who made and
released these awesome resources for free: ◍ Presentation template by SlidesCarnival ◍ Photographs by Unsplash 27