Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計学に入門したので確率変数/期待値/分散をなるべく分かりやすく説明してみる
Search
Yosuke Obata
August 23, 2019
Science
1
490
統計学に入門したので確率変数/期待値/分散をなるべく分かりやすく説明してみる
Yosuke Obata
August 23, 2019
Tweet
Share
More Decks by Yosuke Obata
See All by Yosuke Obata
Kotlin + DGS で始めるスキーマファーストな GraphQL サーバー開発
sukechannnn
0
230
自動E2Eテストを活用した デプロイフロー改善
sukechannnn
6
1.5k
結婚式の席札を手書きしたくなかったので技術で解決した話
sukechannnn
1
4k
Other Decks in Science
See All in Science
All-in-One Bioinformatics Platform Realized with Snowflake ~ From In Silico Drug Discovery, Disease Variant Analysis, to Single-Cell RNA-seq
ktatsuya
0
220
Spectral Sparsification of Hypergraphs
tasusu
0
160
理論計算機科学における 数学の応用: 擬似ランダムネス
nobushimi
1
330
Boil Order
uni_of_nomi
0
120
創薬における機械学習技術について
kanojikajino
5
1.2k
ABEMAの効果検証事例〜効果の異質性を考える〜
s1ok69oo
4
2k
重複排除・高速バックアップ・ランサムウェア対策 三拍子そろったExaGrid × Veeam連携セミナー
climbteam
0
100
Direct Preference Optimization
zchenry
0
270
Lyme Disease
uni_of_nomi
0
130
深層学習を利用して 大豆の外部欠陥を判別した研究事例の紹介
kentaitakura
0
210
Pericarditis Comic
camkdraws
0
670
拡散モデルの原理紹介
brainpadpr
3
4.6k
Featured
See All Featured
Building a Modern Day E-commerce SEO Strategy
aleyda
38
6.9k
Producing Creativity
orderedlist
PRO
341
39k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
159
15k
RailsConf 2023
tenderlove
29
880
The World Runs on Bad Software
bkeepers
PRO
65
11k
A Modern Web Designer's Workflow
chriscoyier
692
190k
Music & Morning Musume
bryan
46
6.1k
Ruby is Unlike a Banana
tanoku
96
11k
Reflections from 52 weeks, 52 projects
jeffersonlam
346
20k
Into the Great Unknown - MozCon
thekraken
31
1.5k
GraphQLの誤解/rethinking-graphql
sonatard
66
9.9k
Writing Fast Ruby
sferik
626
61k
Transcript
統計学に入門した ので確率変数/期待値/ 分散をなるべく分かりや すく説明してみる
今回の勉強会では ・確率変数/期待値/分散について説明してみる ・発表することで自分の理解も整理したい Instructions 2 なんで統計学を学ぼうと? ・元々は機械学習を勉強するつもりだった ・が、機械学習の数式が分からなすぎた(特に確率変数 /期待値/分散が謎だった) ・統計学を一通り勉強すれば機械学習の理論も理解できるのでは?という気がした
・学んでるうちに統計学そのものが面白くなった
I am @sukechannnn Hello! 3 ・社会人3年目のエンジニアです ・株式会社フィードフォースでバックエンドエンジニアをしています ・最近はデータの可視化・分析もちょっとだけしてます(楽しい)
◍ これから話す話は全て⇢の本に書いてあ ります ◍ とても良い本ですが数式ベースの説明 がメインなので、全くの初学者はマン ガでわかるシリーズとかから始めた方 が良いかも...? ◍ また、例題は以下のQiita記事を参考に
してます ◌ https://qiita.com/Lily0727K/items/9ea67d7bb7335 698465d ちなみに 4 https://www.amazon.co.jp/dp/4130420658
1. 統計学とは Let’s start with the first set of slides
5
◍ 得られたデータからなんらかの規則性(あるい は不規則性)を見出すことを目的とした学問 ◍ 得られた結果の分析・検証がメイン ◌ 予測は機械学習の方が得意 ◍ 最初は医学(疫学)から発展してきた ◌
“統計学が最強の学問である”とかが詳しい ◌ https://www.amazon.co.jp/dp/4478022216 統計学とは 6
機械学習 ・予測、推定がメイン ・なので、得られた結果の精度が重要 ・どういう処理をしているかの意味は よく分からなくても OK ・DNN とか謎のまま使われてる ・人間の判断材料にもなるし、アプリ ケーションに組み込むこともできる
統計学 ・データの中身の解析がメイン ・なので、得られた結果の意味が重要 ・意味がわかる必要があるのでロジッ クは比較的シンプル ・人間が判断する材料になる ・機械学習で使われるようなアルゴリ ズムもある 統計学とは 統計学 と 機械学習 7
◍ 統計学の手法は目的や分野ごとにいくつ かある ◌ 右図にあるような標準正規分布に近 似する方法はよく知られてるが、他 にもたくさんある ◍ それらすべての手法の基礎となるのが、 期待値・分散の考え方
◌ そして確率変数!(一番謎だった…) ◍ この発表では主に確率変数/期待値/分散 について説明します 統計学とは 8
2. 例題 9
◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率 はどれくらいでしょうか? ◍ 以下の選択肢から最も近い値を選んでください。 例題 10 1)
10% 2) 5% 3) 0.05% 4) 0.0005%
◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率 はどれくらいでしょうか? ◍ 以下の選択肢から最も近い値を選んでください。 例題 - 正解
11 1) 10% 2) 5% 3) 0.05% 4) 0.0005% なんでこうなるのかを 次 ページ以降で解説します!
3. 解説 12
解説 13 ◍ コインを投げて出る結果は「表と裏が出る」の 2種類 ◍ このような試行のことを ベルヌーイ試行 と言います ◍
このベルヌーイ試行を n回行った場合に表( or 裏)が出る確率は、表 が出る確率をPとすると ◍ この確率に対する確率分布を 二項分布(ベルヌーイ分布)と言います ◍ ここで、X は確率変数です
解説 14 ◍ コインを投げて出る結果は「表と裏が出る」の 2種類 ◍ このベルヌーイ試行を n回行った場合に表( or 裏)が出る確率は、表
が出る確率をPとすると ここで、今回のコインは表も裏も 1/2の確率なので、上記の P(X)は になります。 例えばn=4回コインを投げてx=2になる確率 => 6/16 と計算できます。
解説 - 確率変数 ◍ 確率変数とは「ある変数の値をとる確率が存在する変数のこと」です ◍ ◍ 例えば... 1. コインを投げると1/2の確率で表(1)か裏(0)が出る
2. サイコロなら1/6の確率で 1,2,3,4,5,6 のどれかが出る ◍ という、事象そのものと考えると分かりやすい ...気がする ◍ 各値に確率が振ってあって、実行するとその確率に応じてランダムに 値を返す関数が定義してあるイメージ ◍ コインの確率変数を Rubyのメソッドにしてみる 15
◍ さて、↑ の確率を出したいのでした ◍ 今回の例題のように、確率変数 X が二項分布に従っている場合、 期待値 と 分散
は以下のようになります 期待値: 分散: 解説 16 ◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率はどれくらいでしょうか?
◍ 期待値とは、平たく言うと 平均値 です ◍ n は試行回数、p は表が出る確率です ◍ なので、10回試行した場合の期待値は
E(X) = 10 * 1/2 = 5 ◍ 二項分布の期待値は特に分かりやすいです 解説 - 期待値 17
◍ 分散は、確率変数 X の ばらつき度合い のことです ◍ 分散が大きければ大きいほど ばらつきます ◍
√V(X) が 標準偏差 です 解説 - 分散 18
◍ 試行結果を足した場合、分散は試行結果と共に増えていきます ◌ X1 + X2 + X3 + …
Xn の結果は n を増やすと増えるからです ◍ 平均を取った場合は事情が変わります ◌ (X1 + X2 + X3 + … Xn) / n が、n を増やすと安定するのは想 像に難くないと思います ◌ 実際に、平均値の場合だと分散は V(X)/n で減っていきます ◌ n -> ∞ とすると、分散は0に収束します ◍ この性質を利用したのが、 大数の法則 です 解説 - 分散 19
◍ 大数の法則 は試行回数が増えると分散が0に収束し、その平均値 も収束するというものでした ◌ じゃあ、その分布もどこかに収束しそうじゃない? ◍ ということで、ラプラスの定理(中心極限定理)が生まれました ◍ ラプラスの定理は、試行回数がめっちゃ増えると
二項分布が正規 分布に近似できてしまう 、という定理です ◌ ラプラスの定理は 中心極限定理 の特殊バージョンです ◌ 中心極限定理は、どんな分布 でも試行回数がめっちゃ多いと 正規分布になる というなんともすごい定理です 解説 - 大数の法則, ラプラスの定理 20
◍ 期待値と分散を問題の条件で出すと、 ◍ E(X) = 1000, V(X) = 500 ◍
標準偏差: σ = √V(X) = √500 ≒ 22.36 ◍ 標準偏差が出て、正規分布に近似できるなら、確率出せそう 解説 21 ◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率はどれくらいでしょうか?
◍ 有名な正規分布の性質は ◌ ±σ の範囲におさまる確率は約 70%(68.27%) ◌ ±2σ の範囲におさまる確率は約 95%(95.45%)
◌ ±3σ の範囲におさまる確率は約 99%(99.73%) 解説 - 正規分布 22
23 ◍ もう少し正確に言うと、 「標準偏差に対する確率が、正規分布表に 当てはまる性質を持っている」と言える。 ◍ μ = E(X) =
1000 ◍ σ = √V(X) = √500 ≒ 22.36 より ◍ Q(u) = 100 / 22.36 ≒ 4.47 ◍ なので右の正規分布表から、コインを 2000 回投げたときに、表が 1100回以上出る確率 は 約0.00039% となります(パーセント表 記にしてるので 100 倍してる)。 解説 - 正規分布表
◍ 頑張って手計算で出した答えですが、近似値のため正確ではありません ◍ SciPy(Python の数値解析ライブラリ)使って正確な値を出してみます ◍ binom 関数はExcelにも似たものが入ってて、引数に (成功数, 試行回数,
成功確率)を入れると正規分布の確率を出してくれます 解説 - Python 24
◍ 二項分布を正規分布に近似して、正規分布から期待値と分散 (標準偏差)を使って手計算で確率を算出してみました ◍ ライブラリを使えば答えは一発で出せますが、統計学はその 答えが示す意味が重要なので、学習の際には泥臭く手を動か してみるのがオススメです ◍ 僕もまだまだ初心者なので、今後も継続的に勉強します! まとめ
25
おしまい 26
Credits Special thanks to all the people who made and
released these awesome resources for free: ◍ Presentation template by SlidesCarnival ◍ Photographs by Unsplash 27