Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2020-11-15-第1回-統計学勉強会
Search
Ringa_hyj
November 13, 2020
Science
0
760
2020-11-15-第1回-統計学勉強会
connpassで開催された
統計学勉強会 第一回 20201115
確率分布の担当分資料
Ringa_hyj
November 13, 2020
Tweet
Share
More Decks by Ringa_hyj
See All by Ringa_hyj
DVCによるデータバージョン管理
ringa_hyj
0
91
deeplakeによる大規模データのバージョン管理と深層学習フレームワークとの接続
ringa_hyj
0
59
Hydraを使った設定ファイル管理とoptunaプラグインでのパラメータ探索
ringa_hyj
0
66
ClearMLで行うAIプロジェクトの管理(レポート,最適化,再現,デプロイ,オーケストレーション)
ringa_hyj
0
62
Catching up with the tidymodels.[Japan.R 2021 LT]
ringa_hyj
3
840
多次元尺度法MDS
ringa_hyj
0
290
因子分析(仮)
ringa_hyj
0
150
階層、非階層クラスタリング
ringa_hyj
0
120
tidymodels紹介「モデリング過程料理で表現できる説」
ringa_hyj
0
430
Other Decks in Science
See All in Science
「美は世界を救う」を心理学で実証したい~クラファンを通じた新しい研究方法
jimpe_hitsuwari
1
140
実力評価性能を考慮した弓道高校生全国大会の大会制度設計の提案 / (konakalab presentation at MSS 2025.03)
konakalab
2
180
安心・効率的な医療現場の実現へ ~オンプレAI & ノーコードワークフローで進める業務改革~
siyoo
0
270
点群ライブラリPDALをGoogleColabにて実行する方法の紹介
kentaitakura
1
320
CV_5_3dVision
hachama
0
140
メール送信サーバの集約における透過型SMTP プロキシの定量評価 / Quantitative Evaluation of Transparent SMTP Proxy in Email Sending Server Aggregation
linyows
0
970
IWASAKI Hideo
genomethica
0
120
眼科AIコンテスト2024_特別賞_6位Solution
pon0matsu
0
430
2025-06-11-ai_belgium
sofievl
1
130
機械学習 - 授業概要
trycycle
PRO
0
210
03_草原和博_広島大学大学院人間社会科学研究科教授_デジタル_シティズンシップシティで_新たな_学び__をつくる.pdf
sip3ristex
0
510
テンソル分解による糖尿病の組織特異的遺伝子発現の統合解析を用いた関連疾患の予測
tagtag
2
200
Featured
See All Featured
Become a Pro
speakerdeck
PRO
29
5.4k
Reflections from 52 weeks, 52 projects
jeffersonlam
351
21k
GraphQLとの向き合い方2022年版
quramy
49
14k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
109
19k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
282
13k
Building Flexible Design Systems
yeseniaperezcruz
328
39k
What's in a price? How to price your products and services
michaelherold
246
12k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
31
1.3k
Designing Experiences People Love
moore
142
24k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
48
2.9k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.6k
Transcript
統計学のはじめの一歩:確率分布 ~ 平行世界を例に確率分布を理解する ~ 2020-11-15 統計学勉強会 #1
どんな話をするか ・確率分布が~ ・確率密度関数が~ ・片側検定で、両側で~ ・危険率5%で~ ・95%区間を考えると~ などを初めて聞く人に向けて。 ・統計の検定の考えを理解する最初の一歩として。
自己紹介 @Ringa_hyj @Ringa_hyj Name : Ringa 指摘大歓迎です
確率分布ってなに?
確率分布ってなに? JIS:日本工業規格 によると 「確率変数が ’ある値’ となる確率, 又はある集合に属する確率を与える関数」 確率分布って何
????????? 安心してください と思った方、安心してください 本講の対象者です。 スローペースでいきます。
確率分布って統計学で至る所に出てくる ・検定 ・線形回帰 ・パラメーター推定 ↓ ・故障予測 ・異常検知 ・時系列・確率過程 ・生成モデル どれも「分布関数」の性質ありきの話
とりあえず「分布」とか「分布関数」についての説明から 確率分布、頻出
こんな形の池があったとする この魚、池のどこで釣れた魚? だいたいでいいからどこで釣れたと思うか言ってみて。 情報がなさ過ぎてわからない 池釣りの話
池に対して上図の釣れ方をした どこで釣れるのか? = 50匹釣れた地点が一番確率が高そう 池釣りの話 「どこから釣れたか」を当てるために どこに投げたら釣れるのか? = 魚の生息地(分布)が知りたい 各x軸で100回投げて何匹釣れたか数える実験を行う。
合計210匹なので1匹の重さは 1/210 1/210 を各x軸地点について適応していくと、 合計1になる値になった = 確率として扱うことができそう 「どこで、どのくらいの割合で釣れるか」 、を知ることができた ↑確率変数
↑確率 釣れた数を確率に変換
もっと細かく、釣れた地点ごとに区切って集計・確率になおす 確率をもっと細かく求める
x ※今回の実験ではこの魚の分布が考えられたが、 ※日によって変わるだろうし、もう少しずれているかもしれない ※真の分布を得るために永遠に釣りは出来ないので ※取得した手元のデータから確率分布を擬似的に表している ※これを経験分布と呼ぶ 細かい確率値たちが求まる←確率分布 関数式として数式であらわす←確率分布関数 (連続値は確率密度関数) y
y=f(x) 確率をもっと細かく
確率分布が分かればどんなxの時、確率が高いかが推定できる 逆に低い場合についても議論できる 2.5% 2.5% 5% 95%の魚はこの xの範囲 で釣れる (端の方で釣れた可能性は低い) 確率の高くない範囲をいくらか無視して推定につかおう
両側合計5%を無視 片側5%を無視 確率分布と両側?片側?
確率分布をどう使うの?
世の中毎回経験分布を求められるわけではない 「あるデータはある分布に近似する」 と仮定して議論する 偏差値, 身長, 異常値の範囲 : 正規分布 交通事故数, 不良品の発生数
: ポアソン分布 コインの表数, ガチャでレアを引く : 二項分布 確率分布を使った実験
ゲーム(ギャンブル)を例に 賭け ・コインが表なら 1000円もらえる ・コインが裏なら 1000円払う 表が出やすいコインなら賭けに乗ってもいい 賭けに乗る前に 「20回投げるお試し権がもらえる」 何回
表 が出たら話に乗る? 表裏均等に出るコインを投げても ピッタリ表10裏10にはならない ← 確率変数はばらつく ばらつきの範囲を知り、乗るか乗らないか決める
平行世界があったとして ©MAGES./Nitroplus---STEINS;GATEより 平行世界を考える 1000個の平行世界の自分自身も 20回コインを振ったならばどうなるか?
平行世界生成器 (R) https://rstudio.com/products/rstudio/download/ https://cran.r-project.org/mirrors.html https://www.soumu.go.jp/ict_skill/pdf/ict_ev_el_4_3.pdf (総務省ICTスキル総合習得教材・Rのインストール方法) RとRstudioをダウンロードしてRstudioから以下のRscriptを開いて(ctrl + shift +
n) コードをコピペ(ctrl+c) & 実行(ctrl+enter)
コインが1/2の確率なら 大体10回の表が出るはず ただし、 運の悪い世界は2回だけ表 運のいい世界は17回も表 20回コインを投げる 表が出る確率1/2のコインを、 1000の平行世界の自分が20回投げた結果 #初回だけPCへパッケージをinstall #install.packages("tidyverse")
#読み込み library(tidyverse) #世界線の数 n <- 1000 #投げる回数 size <- 20 #確率 prob <- 0.5 #平行世界の俺たちに投げさせる res <- rbinom(n,size,prob) res <- as.tibble(res) ggplot(res, aes(x = value)) + geom_histogram(aes(y=..count..),bins = 50) res %>% count(value) 確率変数 の ばらつき
表が出る確率が違った場合どうなる? 表が出る確率0.7のコインだったら? 表が出る確率0.3のコインだったら? だいたい10より少ない (10より多い値も少しある) だいたい10より多い (10より少ない値も少しある)
表が出る確率が違った場合どうなる? 自分の生きている世界線で20回なげてみた結果 7回表だった この時のコインの確率は? ← 最尤推定(今回話さない) 確率は表が出やすいのか? ← 比率の区間推定
積み上げ結果を確率に直した 結果 par(mfrow=c(3,3)) for(i in 1:9){ n <- 20 p
<- 0.1 * i mu <- n*p sigma <- sqrt(n*p*(1 - p)) x <- seq(0, 20) y <- dbinom(x,n,p) plot(x, y, lwd = 4, col = 'gray', las = 1, bty = 'l', yaxs = 'i', ylim = c(0, 0.3), type="n") lines(x, dnorm(x, mean = mu, sd = sigma), col = 'gray', lwd = 2) title(main = sprintf('n=%s, p=%.1f', n, p)) abline(v=7,col="red") }
確率分布になおす 20回投げたら表が7回、という情報から ・表が出る確率0.2のコインを20回投げた場合の最も運のいい時(分布の上側) もしくは ・表が出る確率0.6のコインを20回投げた場合の最も運のわるい時(分布の下側) 結論:「およそ0.2~0.6の確率で表が出るコインだろう」(これを見ても賭けますか?)
まとめ 今回話したこと ・確率分布って何 ・池釣りの例 ・両側とか片側って何 ・確率分布の使い方 ・平行世界でコインを投げて表になる確率を調べる
Enjoy statistics Recommended Reading List