Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2020-11-15-第1回-統計学勉強会
Search
Ringa_hyj
November 13, 2020
Science
0
690
2020-11-15-第1回-統計学勉強会
connpassで開催された
統計学勉強会 第一回 20201115
確率分布の担当分資料
Ringa_hyj
November 13, 2020
Tweet
Share
More Decks by Ringa_hyj
See All by Ringa_hyj
Catching up with the tidymodels.[Japan.R 2021 LT]
ringa_hyj
3
780
多次元尺度法MDS
ringa_hyj
0
230
因子分析(仮)
ringa_hyj
0
110
階層、非階層クラスタリング
ringa_hyj
0
84
tidymodels紹介「モデリング過程料理で表現できる説」
ringa_hyj
0
380
深層学習をつかった画像スタイル変換の話と今までの歴史
ringa_hyj
0
360
正準相関分析(仮)
ringa_hyj
0
92
対応分析
ringa_hyj
0
110
生成モデルの今までと異常検知への応用(GAN,anoGAN,ganomaly,efficient,skip))
ringa_hyj
2
2.3k
Other Decks in Science
See All in Science
『データ可視化学入門』を PythonからRに翻訳した話
bob3bob3
1
490
ECUACIÓN DE ESTADO DEL VIRIAL
borischicoma
0
160
Machine Learning for Materials (Lecture 2)
aronwalsh
0
710
Презентация программы магистратуры СПбГУ "Искусственный интеллект и наука о данных"
dscs
0
370
The Incredible Machine: Developer Productivity and the Impact of AI
tomzimmermann
0
380
ベイズ最適化をゼロから
brainpadpr
2
740
【人工衛星開発】能見研究室紹介動画
02hattori11sat03
0
140
(Forkwell Library #48)『詳解 インシデントレスポンス』で学び倒すブルーチーム技術
scientia
2
1.3k
最適化超入門
tkm2261
13
3.2k
Iniciativas independentes de divulgação científica: o caso do Movimento #CiteMulheresNegras
taisso
0
130
Spectral Sparsification of Hypergraphs
tasusu
0
160
科学で迫る勝敗の法則(名城大学公開講座.2024年10月) / The principle of victory discovered by science (Open lecture in Meijo Univ. 2024)
konakalab
0
190
Featured
See All Featured
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
126
18k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
7
150
Designing the Hi-DPI Web
ddemaree
280
34k
Gamification - CAS2011
davidbonilla
80
5k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Why You Should Never Use an ORM
jnunemaker
PRO
53
9k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
6.9k
It's Worth the Effort
3n
183
27k
Git: the NoSQL Database
bkeepers
PRO
425
64k
Scaling GitHub
holman
458
140k
How To Stay Up To Date on Web Technology
chriscoyier
788
250k
The Language of Interfaces
destraynor
154
24k
Transcript
統計学のはじめの一歩:確率分布 ~ 平行世界を例に確率分布を理解する ~ 2020-11-15 統計学勉強会 #1
どんな話をするか ・確率分布が~ ・確率密度関数が~ ・片側検定で、両側で~ ・危険率5%で~ ・95%区間を考えると~ などを初めて聞く人に向けて。 ・統計の検定の考えを理解する最初の一歩として。
自己紹介 @Ringa_hyj @Ringa_hyj Name : Ringa 指摘大歓迎です
確率分布ってなに?
確率分布ってなに? JIS:日本工業規格 によると 「確率変数が ’ある値’ となる確率, 又はある集合に属する確率を与える関数」 確率分布って何
????????? 安心してください と思った方、安心してください 本講の対象者です。 スローペースでいきます。
確率分布って統計学で至る所に出てくる ・検定 ・線形回帰 ・パラメーター推定 ↓ ・故障予測 ・異常検知 ・時系列・確率過程 ・生成モデル どれも「分布関数」の性質ありきの話
とりあえず「分布」とか「分布関数」についての説明から 確率分布、頻出
こんな形の池があったとする この魚、池のどこで釣れた魚? だいたいでいいからどこで釣れたと思うか言ってみて。 情報がなさ過ぎてわからない 池釣りの話
池に対して上図の釣れ方をした どこで釣れるのか? = 50匹釣れた地点が一番確率が高そう 池釣りの話 「どこから釣れたか」を当てるために どこに投げたら釣れるのか? = 魚の生息地(分布)が知りたい 各x軸で100回投げて何匹釣れたか数える実験を行う。
合計210匹なので1匹の重さは 1/210 1/210 を各x軸地点について適応していくと、 合計1になる値になった = 確率として扱うことができそう 「どこで、どのくらいの割合で釣れるか」 、を知ることができた ↑確率変数
↑確率 釣れた数を確率に変換
もっと細かく、釣れた地点ごとに区切って集計・確率になおす 確率をもっと細かく求める
x ※今回の実験ではこの魚の分布が考えられたが、 ※日によって変わるだろうし、もう少しずれているかもしれない ※真の分布を得るために永遠に釣りは出来ないので ※取得した手元のデータから確率分布を擬似的に表している ※これを経験分布と呼ぶ 細かい確率値たちが求まる←確率分布 関数式として数式であらわす←確率分布関数 (連続値は確率密度関数) y
y=f(x) 確率をもっと細かく
確率分布が分かればどんなxの時、確率が高いかが推定できる 逆に低い場合についても議論できる 2.5% 2.5% 5% 95%の魚はこの xの範囲 で釣れる (端の方で釣れた可能性は低い) 確率の高くない範囲をいくらか無視して推定につかおう
両側合計5%を無視 片側5%を無視 確率分布と両側?片側?
確率分布をどう使うの?
世の中毎回経験分布を求められるわけではない 「あるデータはある分布に近似する」 と仮定して議論する 偏差値, 身長, 異常値の範囲 : 正規分布 交通事故数, 不良品の発生数
: ポアソン分布 コインの表数, ガチャでレアを引く : 二項分布 確率分布を使った実験
ゲーム(ギャンブル)を例に 賭け ・コインが表なら 1000円もらえる ・コインが裏なら 1000円払う 表が出やすいコインなら賭けに乗ってもいい 賭けに乗る前に 「20回投げるお試し権がもらえる」 何回
表 が出たら話に乗る? 表裏均等に出るコインを投げても ピッタリ表10裏10にはならない ← 確率変数はばらつく ばらつきの範囲を知り、乗るか乗らないか決める
平行世界があったとして ©MAGES./Nitroplus---STEINS;GATEより 平行世界を考える 1000個の平行世界の自分自身も 20回コインを振ったならばどうなるか?
平行世界生成器 (R) https://rstudio.com/products/rstudio/download/ https://cran.r-project.org/mirrors.html https://www.soumu.go.jp/ict_skill/pdf/ict_ev_el_4_3.pdf (総務省ICTスキル総合習得教材・Rのインストール方法) RとRstudioをダウンロードしてRstudioから以下のRscriptを開いて(ctrl + shift +
n) コードをコピペ(ctrl+c) & 実行(ctrl+enter)
コインが1/2の確率なら 大体10回の表が出るはず ただし、 運の悪い世界は2回だけ表 運のいい世界は17回も表 20回コインを投げる 表が出る確率1/2のコインを、 1000の平行世界の自分が20回投げた結果 #初回だけPCへパッケージをinstall #install.packages("tidyverse")
#読み込み library(tidyverse) #世界線の数 n <- 1000 #投げる回数 size <- 20 #確率 prob <- 0.5 #平行世界の俺たちに投げさせる res <- rbinom(n,size,prob) res <- as.tibble(res) ggplot(res, aes(x = value)) + geom_histogram(aes(y=..count..),bins = 50) res %>% count(value) 確率変数 の ばらつき
表が出る確率が違った場合どうなる? 表が出る確率0.7のコインだったら? 表が出る確率0.3のコインだったら? だいたい10より少ない (10より多い値も少しある) だいたい10より多い (10より少ない値も少しある)
表が出る確率が違った場合どうなる? 自分の生きている世界線で20回なげてみた結果 7回表だった この時のコインの確率は? ← 最尤推定(今回話さない) 確率は表が出やすいのか? ← 比率の区間推定
積み上げ結果を確率に直した 結果 par(mfrow=c(3,3)) for(i in 1:9){ n <- 20 p
<- 0.1 * i mu <- n*p sigma <- sqrt(n*p*(1 - p)) x <- seq(0, 20) y <- dbinom(x,n,p) plot(x, y, lwd = 4, col = 'gray', las = 1, bty = 'l', yaxs = 'i', ylim = c(0, 0.3), type="n") lines(x, dnorm(x, mean = mu, sd = sigma), col = 'gray', lwd = 2) title(main = sprintf('n=%s, p=%.1f', n, p)) abline(v=7,col="red") }
確率分布になおす 20回投げたら表が7回、という情報から ・表が出る確率0.2のコインを20回投げた場合の最も運のいい時(分布の上側) もしくは ・表が出る確率0.6のコインを20回投げた場合の最も運のわるい時(分布の下側) 結論:「およそ0.2~0.6の確率で表が出るコインだろう」(これを見ても賭けますか?)
まとめ 今回話したこと ・確率分布って何 ・池釣りの例 ・両側とか片側って何 ・確率分布の使い方 ・平行世界でコインを投げて表になる確率を調べる
Enjoy statistics Recommended Reading List