Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2020-11-15-第1回-統計学勉強会
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Ringa_hyj
November 13, 2020
Science
0
780
2020-11-15-第1回-統計学勉強会
connpassで開催された
統計学勉強会 第一回 20201115
確率分布の担当分資料
Ringa_hyj
November 13, 2020
Tweet
Share
More Decks by Ringa_hyj
See All by Ringa_hyj
DVCによるデータバージョン管理
ringa_hyj
0
220
deeplakeによる大規模データのバージョン管理と深層学習フレームワークとの接続
ringa_hyj
0
92
Hydraを使った設定ファイル管理とoptunaプラグインでのパラメータ探索
ringa_hyj
0
190
ClearMLで行うAIプロジェクトの管理(レポート,最適化,再現,デプロイ,オーケストレーション)
ringa_hyj
0
180
Catching up with the tidymodels.[Japan.R 2021 LT]
ringa_hyj
3
860
多次元尺度法MDS
ringa_hyj
0
330
因子分析(仮)
ringa_hyj
0
180
階層、非階層クラスタリング
ringa_hyj
0
140
tidymodels紹介「モデリング過程料理で表現できる説」
ringa_hyj
0
600
Other Decks in Science
See All in Science
AIに仕事を奪われる 最初の医師たちへ
ikora128
0
1k
サイコロで理解する原子核崩壊と拡散現象 〜単純化されたモデルで本質を理解する〜
syotasasaki593876
0
150
データマイニング - グラフデータと経路
trycycle
PRO
1
290
Algorithmic Aspects of Quiver Representations
tasusu
0
200
俺たちは本当に分かり合えるのか? ~ PdMとスクラムチームの “ずれ” を科学する
bonotake
2
1.7k
データベース06: SQL (3/3) 副問い合わせ
trycycle
PRO
1
730
(2025) Balade en cyclotomie
mansuy
0
460
【RSJ2025】PAMIQ Core: リアルタイム継続学習のための⾮同期推論・学習フレームワーク
gesonanko
0
650
凸最適化からDC最適化まで
santana_hammer
1
360
【論文紹介】Is CLIP ideal? No. Can we fix it?Yes! 第65回 コンピュータビジョン勉強会@関東
shun6211
5
2.3k
コンピュータビジョンによるロボットの視覚と判断:宇宙空間での適応と課題
hf149
1
540
Amusing Abliteration
ianozsvald
0
110
Featured
See All Featured
Rebuilding a faster, lazier Slack
samanthasiow
85
9.4k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.6k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.9k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
450
Navigating Weather and Climate Data
rabernat
0
120
The Cult of Friendly URLs
andyhume
79
6.8k
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
62
50k
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
320
Claude Code のすすめ
schroneko
67
210k
Transcript
統計学のはじめの一歩:確率分布 ~ 平行世界を例に確率分布を理解する ~ 2020-11-15 統計学勉強会 #1
どんな話をするか ・確率分布が~ ・確率密度関数が~ ・片側検定で、両側で~ ・危険率5%で~ ・95%区間を考えると~ などを初めて聞く人に向けて。 ・統計の検定の考えを理解する最初の一歩として。
自己紹介 @Ringa_hyj @Ringa_hyj Name : Ringa 指摘大歓迎です
確率分布ってなに?
確率分布ってなに? JIS:日本工業規格 によると 「確率変数が ’ある値’ となる確率, 又はある集合に属する確率を与える関数」 確率分布って何
????????? 安心してください と思った方、安心してください 本講の対象者です。 スローペースでいきます。
確率分布って統計学で至る所に出てくる ・検定 ・線形回帰 ・パラメーター推定 ↓ ・故障予測 ・異常検知 ・時系列・確率過程 ・生成モデル どれも「分布関数」の性質ありきの話
とりあえず「分布」とか「分布関数」についての説明から 確率分布、頻出
こんな形の池があったとする この魚、池のどこで釣れた魚? だいたいでいいからどこで釣れたと思うか言ってみて。 情報がなさ過ぎてわからない 池釣りの話
池に対して上図の釣れ方をした どこで釣れるのか? = 50匹釣れた地点が一番確率が高そう 池釣りの話 「どこから釣れたか」を当てるために どこに投げたら釣れるのか? = 魚の生息地(分布)が知りたい 各x軸で100回投げて何匹釣れたか数える実験を行う。
合計210匹なので1匹の重さは 1/210 1/210 を各x軸地点について適応していくと、 合計1になる値になった = 確率として扱うことができそう 「どこで、どのくらいの割合で釣れるか」 、を知ることができた ↑確率変数
↑確率 釣れた数を確率に変換
もっと細かく、釣れた地点ごとに区切って集計・確率になおす 確率をもっと細かく求める
x ※今回の実験ではこの魚の分布が考えられたが、 ※日によって変わるだろうし、もう少しずれているかもしれない ※真の分布を得るために永遠に釣りは出来ないので ※取得した手元のデータから確率分布を擬似的に表している ※これを経験分布と呼ぶ 細かい確率値たちが求まる←確率分布 関数式として数式であらわす←確率分布関数 (連続値は確率密度関数) y
y=f(x) 確率をもっと細かく
確率分布が分かればどんなxの時、確率が高いかが推定できる 逆に低い場合についても議論できる 2.5% 2.5% 5% 95%の魚はこの xの範囲 で釣れる (端の方で釣れた可能性は低い) 確率の高くない範囲をいくらか無視して推定につかおう
両側合計5%を無視 片側5%を無視 確率分布と両側?片側?
確率分布をどう使うの?
世の中毎回経験分布を求められるわけではない 「あるデータはある分布に近似する」 と仮定して議論する 偏差値, 身長, 異常値の範囲 : 正規分布 交通事故数, 不良品の発生数
: ポアソン分布 コインの表数, ガチャでレアを引く : 二項分布 確率分布を使った実験
ゲーム(ギャンブル)を例に 賭け ・コインが表なら 1000円もらえる ・コインが裏なら 1000円払う 表が出やすいコインなら賭けに乗ってもいい 賭けに乗る前に 「20回投げるお試し権がもらえる」 何回
表 が出たら話に乗る? 表裏均等に出るコインを投げても ピッタリ表10裏10にはならない ← 確率変数はばらつく ばらつきの範囲を知り、乗るか乗らないか決める
平行世界があったとして ©MAGES./Nitroplus---STEINS;GATEより 平行世界を考える 1000個の平行世界の自分自身も 20回コインを振ったならばどうなるか?
平行世界生成器 (R) https://rstudio.com/products/rstudio/download/ https://cran.r-project.org/mirrors.html https://www.soumu.go.jp/ict_skill/pdf/ict_ev_el_4_3.pdf (総務省ICTスキル総合習得教材・Rのインストール方法) RとRstudioをダウンロードしてRstudioから以下のRscriptを開いて(ctrl + shift +
n) コードをコピペ(ctrl+c) & 実行(ctrl+enter)
コインが1/2の確率なら 大体10回の表が出るはず ただし、 運の悪い世界は2回だけ表 運のいい世界は17回も表 20回コインを投げる 表が出る確率1/2のコインを、 1000の平行世界の自分が20回投げた結果 #初回だけPCへパッケージをinstall #install.packages("tidyverse")
#読み込み library(tidyverse) #世界線の数 n <- 1000 #投げる回数 size <- 20 #確率 prob <- 0.5 #平行世界の俺たちに投げさせる res <- rbinom(n,size,prob) res <- as.tibble(res) ggplot(res, aes(x = value)) + geom_histogram(aes(y=..count..),bins = 50) res %>% count(value) 確率変数 の ばらつき
表が出る確率が違った場合どうなる? 表が出る確率0.7のコインだったら? 表が出る確率0.3のコインだったら? だいたい10より少ない (10より多い値も少しある) だいたい10より多い (10より少ない値も少しある)
表が出る確率が違った場合どうなる? 自分の生きている世界線で20回なげてみた結果 7回表だった この時のコインの確率は? ← 最尤推定(今回話さない) 確率は表が出やすいのか? ← 比率の区間推定
積み上げ結果を確率に直した 結果 par(mfrow=c(3,3)) for(i in 1:9){ n <- 20 p
<- 0.1 * i mu <- n*p sigma <- sqrt(n*p*(1 - p)) x <- seq(0, 20) y <- dbinom(x,n,p) plot(x, y, lwd = 4, col = 'gray', las = 1, bty = 'l', yaxs = 'i', ylim = c(0, 0.3), type="n") lines(x, dnorm(x, mean = mu, sd = sigma), col = 'gray', lwd = 2) title(main = sprintf('n=%s, p=%.1f', n, p)) abline(v=7,col="red") }
確率分布になおす 20回投げたら表が7回、という情報から ・表が出る確率0.2のコインを20回投げた場合の最も運のいい時(分布の上側) もしくは ・表が出る確率0.6のコインを20回投げた場合の最も運のわるい時(分布の下側) 結論:「およそ0.2~0.6の確率で表が出るコインだろう」(これを見ても賭けますか?)
まとめ 今回話したこと ・確率分布って何 ・池釣りの例 ・両側とか片側って何 ・確率分布の使い方 ・平行世界でコインを投げて表になる確率を調べる
Enjoy statistics Recommended Reading List