Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計学に入門したので確率変数/期待値/分散をなるべく分かりやすく説明してみる
Search
Yosuke Obata
August 23, 2019
Science
1
510
統計学に入門したので確率変数/期待値/分散をなるべく分かりやすく説明してみる
Yosuke Obata
August 23, 2019
Tweet
Share
More Decks by Yosuke Obata
See All by Yosuke Obata
Kotlin + DGS で始めるスキーマファーストな GraphQL サーバー開発
sukechannnn
0
260
自動E2Eテストを活用した デプロイフロー改善
sukechannnn
6
1.6k
結婚式の席札を手書きしたくなかったので技術で解決した話
sukechannnn
1
4.1k
Other Decks in Science
See All in Science
はじめてのバックドア基準:あるいは、重回帰分析の偏回帰係数を因果効果の推定値として解釈してよいのか問題
takehikoihayashi
2
1k
ABEMAの効果検証事例〜効果の異質性を考える〜
s1ok69oo
4
2.1k
生成AI による論文執筆サポートの手引き(ワークショップ) / A guide to supporting dissertation writing with generative AI (workshop)
ks91
PRO
0
350
HAS Dark Site Orientation
astronomyhouston
0
5.5k
Pericarditis Comic
camkdraws
0
1.5k
トラブルがあったコンペに学ぶデータ分析
tereka114
2
1.3k
Analysis-Ready Cloud-Optimized Data for your community and the entire world with Pangeo-Forge
jbusecke
0
120
インフラだけではない MLOps の話 @事例でわかるMLOps 機械学習の成果をスケールさせる処方箋 発売記念
icoxfog417
PRO
2
640
(論文読み)贈り物の交換による地位の競争と社会構造の変化 - 文化人類学への統計物理学的アプローチ -
__ymgc__
1
140
マテリアルズ・インフォマティクスの先端で起きていること / What's Happening at the Cutting Edge of Materials Informatics
snhryt
1
150
Spectral Sparsification of Hypergraphs
tasusu
0
210
深層学習を利用して 大豆の外部欠陥を判別した研究事例の紹介
kentaitakura
0
250
Featured
See All Featured
Producing Creativity
orderedlist
PRO
343
39k
Typedesign – Prime Four
hannesfritz
40
2.5k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
850
Optimizing for Happiness
mojombo
376
70k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
1
150
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.9k
Agile that works and the tools we love
rasmusluckow
328
21k
How GitHub (no longer) Works
holman
312
140k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
111
50k
What's in a price? How to price your products and services
michaelherold
244
12k
GitHub's CSS Performance
jonrohan
1030
460k
Gamification - CAS2011
davidbonilla
80
5.1k
Transcript
統計学に入門した ので確率変数/期待値/ 分散をなるべく分かりや すく説明してみる
今回の勉強会では ・確率変数/期待値/分散について説明してみる ・発表することで自分の理解も整理したい Instructions 2 なんで統計学を学ぼうと? ・元々は機械学習を勉強するつもりだった ・が、機械学習の数式が分からなすぎた(特に確率変数 /期待値/分散が謎だった) ・統計学を一通り勉強すれば機械学習の理論も理解できるのでは?という気がした
・学んでるうちに統計学そのものが面白くなった
I am @sukechannnn Hello! 3 ・社会人3年目のエンジニアです ・株式会社フィードフォースでバックエンドエンジニアをしています ・最近はデータの可視化・分析もちょっとだけしてます(楽しい)
◍ これから話す話は全て⇢の本に書いてあ ります ◍ とても良い本ですが数式ベースの説明 がメインなので、全くの初学者はマン ガでわかるシリーズとかから始めた方 が良いかも...? ◍ また、例題は以下のQiita記事を参考に
してます ◌ https://qiita.com/Lily0727K/items/9ea67d7bb7335 698465d ちなみに 4 https://www.amazon.co.jp/dp/4130420658
1. 統計学とは Let’s start with the first set of slides
5
◍ 得られたデータからなんらかの規則性(あるい は不規則性)を見出すことを目的とした学問 ◍ 得られた結果の分析・検証がメイン ◌ 予測は機械学習の方が得意 ◍ 最初は医学(疫学)から発展してきた ◌
“統計学が最強の学問である”とかが詳しい ◌ https://www.amazon.co.jp/dp/4478022216 統計学とは 6
機械学習 ・予測、推定がメイン ・なので、得られた結果の精度が重要 ・どういう処理をしているかの意味は よく分からなくても OK ・DNN とか謎のまま使われてる ・人間の判断材料にもなるし、アプリ ケーションに組み込むこともできる
統計学 ・データの中身の解析がメイン ・なので、得られた結果の意味が重要 ・意味がわかる必要があるのでロジッ クは比較的シンプル ・人間が判断する材料になる ・機械学習で使われるようなアルゴリ ズムもある 統計学とは 統計学 と 機械学習 7
◍ 統計学の手法は目的や分野ごとにいくつ かある ◌ 右図にあるような標準正規分布に近 似する方法はよく知られてるが、他 にもたくさんある ◍ それらすべての手法の基礎となるのが、 期待値・分散の考え方
◌ そして確率変数!(一番謎だった…) ◍ この発表では主に確率変数/期待値/分散 について説明します 統計学とは 8
2. 例題 9
◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率 はどれくらいでしょうか? ◍ 以下の選択肢から最も近い値を選んでください。 例題 10 1)
10% 2) 5% 3) 0.05% 4) 0.0005%
◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率 はどれくらいでしょうか? ◍ 以下の選択肢から最も近い値を選んでください。 例題 - 正解
11 1) 10% 2) 5% 3) 0.05% 4) 0.0005% なんでこうなるのかを 次 ページ以降で解説します!
3. 解説 12
解説 13 ◍ コインを投げて出る結果は「表と裏が出る」の 2種類 ◍ このような試行のことを ベルヌーイ試行 と言います ◍
このベルヌーイ試行を n回行った場合に表( or 裏)が出る確率は、表 が出る確率をPとすると ◍ この確率に対する確率分布を 二項分布(ベルヌーイ分布)と言います ◍ ここで、X は確率変数です
解説 14 ◍ コインを投げて出る結果は「表と裏が出る」の 2種類 ◍ このベルヌーイ試行を n回行った場合に表( or 裏)が出る確率は、表
が出る確率をPとすると ここで、今回のコインは表も裏も 1/2の確率なので、上記の P(X)は になります。 例えばn=4回コインを投げてx=2になる確率 => 6/16 と計算できます。
解説 - 確率変数 ◍ 確率変数とは「ある変数の値をとる確率が存在する変数のこと」です ◍ ◍ 例えば... 1. コインを投げると1/2の確率で表(1)か裏(0)が出る
2. サイコロなら1/6の確率で 1,2,3,4,5,6 のどれかが出る ◍ という、事象そのものと考えると分かりやすい ...気がする ◍ 各値に確率が振ってあって、実行するとその確率に応じてランダムに 値を返す関数が定義してあるイメージ ◍ コインの確率変数を Rubyのメソッドにしてみる 15
◍ さて、↑ の確率を出したいのでした ◍ 今回の例題のように、確率変数 X が二項分布に従っている場合、 期待値 と 分散
は以下のようになります 期待値: 分散: 解説 16 ◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率はどれくらいでしょうか?
◍ 期待値とは、平たく言うと 平均値 です ◍ n は試行回数、p は表が出る確率です ◍ なので、10回試行した場合の期待値は
E(X) = 10 * 1/2 = 5 ◍ 二項分布の期待値は特に分かりやすいです 解説 - 期待値 17
◍ 分散は、確率変数 X の ばらつき度合い のことです ◍ 分散が大きければ大きいほど ばらつきます ◍
√V(X) が 標準偏差 です 解説 - 分散 18
◍ 試行結果を足した場合、分散は試行結果と共に増えていきます ◌ X1 + X2 + X3 + …
Xn の結果は n を増やすと増えるからです ◍ 平均を取った場合は事情が変わります ◌ (X1 + X2 + X3 + … Xn) / n が、n を増やすと安定するのは想 像に難くないと思います ◌ 実際に、平均値の場合だと分散は V(X)/n で減っていきます ◌ n -> ∞ とすると、分散は0に収束します ◍ この性質を利用したのが、 大数の法則 です 解説 - 分散 19
◍ 大数の法則 は試行回数が増えると分散が0に収束し、その平均値 も収束するというものでした ◌ じゃあ、その分布もどこかに収束しそうじゃない? ◍ ということで、ラプラスの定理(中心極限定理)が生まれました ◍ ラプラスの定理は、試行回数がめっちゃ増えると
二項分布が正規 分布に近似できてしまう 、という定理です ◌ ラプラスの定理は 中心極限定理 の特殊バージョンです ◌ 中心極限定理は、どんな分布 でも試行回数がめっちゃ多いと 正規分布になる というなんともすごい定理です 解説 - 大数の法則, ラプラスの定理 20
◍ 期待値と分散を問題の条件で出すと、 ◍ E(X) = 1000, V(X) = 500 ◍
標準偏差: σ = √V(X) = √500 ≒ 22.36 ◍ 標準偏差が出て、正規分布に近似できるなら、確率出せそう 解説 21 ◍ 表と裏が出る確率が同じコインがあります ◍ このコインを2000回投げたときに、表が1100回以上出る確率はどれくらいでしょうか?
◍ 有名な正規分布の性質は ◌ ±σ の範囲におさまる確率は約 70%(68.27%) ◌ ±2σ の範囲におさまる確率は約 95%(95.45%)
◌ ±3σ の範囲におさまる確率は約 99%(99.73%) 解説 - 正規分布 22
23 ◍ もう少し正確に言うと、 「標準偏差に対する確率が、正規分布表に 当てはまる性質を持っている」と言える。 ◍ μ = E(X) =
1000 ◍ σ = √V(X) = √500 ≒ 22.36 より ◍ Q(u) = 100 / 22.36 ≒ 4.47 ◍ なので右の正規分布表から、コインを 2000 回投げたときに、表が 1100回以上出る確率 は 約0.00039% となります(パーセント表 記にしてるので 100 倍してる)。 解説 - 正規分布表
◍ 頑張って手計算で出した答えですが、近似値のため正確ではありません ◍ SciPy(Python の数値解析ライブラリ)使って正確な値を出してみます ◍ binom 関数はExcelにも似たものが入ってて、引数に (成功数, 試行回数,
成功確率)を入れると正規分布の確率を出してくれます 解説 - Python 24
◍ 二項分布を正規分布に近似して、正規分布から期待値と分散 (標準偏差)を使って手計算で確率を算出してみました ◍ ライブラリを使えば答えは一発で出せますが、統計学はその 答えが示す意味が重要なので、学習の際には泥臭く手を動か してみるのがオススメです ◍ 僕もまだまだ初心者なので、今後も継続的に勉強します! まとめ
25
おしまい 26
Credits Special thanks to all the people who made and
released these awesome resources for free: ◍ Presentation template by SlidesCarnival ◍ Photographs by Unsplash 27