Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2020-11-15-第1回-統計学勉強会
Search
Ringa_hyj
November 13, 2020
Science
0
710
2020-11-15-第1回-統計学勉強会
connpassで開催された
統計学勉強会 第一回 20201115
確率分布の担当分資料
Ringa_hyj
November 13, 2020
Tweet
Share
More Decks by Ringa_hyj
See All by Ringa_hyj
DVCによるデータバージョン管理
ringa_hyj
0
14
deeplakeによる大規模データのバージョン管理と深層学習フレームワークとの接続
ringa_hyj
0
15
Hydraを使った設定ファイル管理とoptunaプラグインでのパラメータ探索
ringa_hyj
0
19
ClearMLで行うAIプロジェクトの管理(レポート,最適化,再現,デプロイ,オーケストレーション)
ringa_hyj
0
14
Catching up with the tidymodels.[Japan.R 2021 LT]
ringa_hyj
3
800
多次元尺度法MDS
ringa_hyj
0
260
因子分析(仮)
ringa_hyj
0
120
階層、非階層クラスタリング
ringa_hyj
0
92
tidymodels紹介「モデリング過程料理で表現できる説」
ringa_hyj
0
400
Other Decks in Science
See All in Science
多次元展開法を用いた 多値バイクラスタリング モデルの提案
kosugitti
0
210
(2024) Livres, Femmes et Math
mansuy
0
120
インフラだけではない MLOps の話 @事例でわかるMLOps 機械学習の成果をスケールさせる処方箋 発売記念
icoxfog417
PRO
2
660
局所保存性・相似変換対称性を満たす機械学習モデルによる数値流体力学
yellowshippo
1
140
理論計算機科学における 数学の応用: 擬似ランダムネス
nobushimi
1
390
LIMEを用いた判断根拠の可視化
kentaitakura
0
400
Visual Analytics for R&D Intelligence @Funding the Commons & DeSci Tokyo 2024
hayataka88
0
120
2024-06-16-pydata_london
sofievl
0
570
学術講演会中央大学学員会いわき支部
tagtag
0
120
Snowflakeによる統合バイオインフォマティクス
ktatsuya
PRO
0
560
生成AI による論文執筆サポートの手引き(ワークショップ) / A guide to supporting dissertation writing with generative AI (workshop)
ks91
PRO
0
360
証明支援系LEANに入門しよう
unaoya
0
530
Featured
See All Featured
Reflections from 52 weeks, 52 projects
jeffersonlam
348
20k
How STYLIGHT went responsive
nonsquared
96
5.3k
StorybookのUI Testing Handbookを読んだ
zakiyama
28
5.4k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
6
500
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Product Roadmaps are Hard
iamctodd
PRO
50
11k
[RailsConf 2023] Rails as a piece of cake
palkan
53
5.1k
4 Signs Your Business is Dying
shpigford
182
22k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
3
240
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.2k
Docker and Python
trallard
43
3.2k
Transcript
統計学のはじめの一歩:確率分布 ~ 平行世界を例に確率分布を理解する ~ 2020-11-15 統計学勉強会 #1
どんな話をするか ・確率分布が~ ・確率密度関数が~ ・片側検定で、両側で~ ・危険率5%で~ ・95%区間を考えると~ などを初めて聞く人に向けて。 ・統計の検定の考えを理解する最初の一歩として。
自己紹介 @Ringa_hyj @Ringa_hyj Name : Ringa 指摘大歓迎です
確率分布ってなに?
確率分布ってなに? JIS:日本工業規格 によると 「確率変数が ’ある値’ となる確率, 又はある集合に属する確率を与える関数」 確率分布って何
????????? 安心してください と思った方、安心してください 本講の対象者です。 スローペースでいきます。
確率分布って統計学で至る所に出てくる ・検定 ・線形回帰 ・パラメーター推定 ↓ ・故障予測 ・異常検知 ・時系列・確率過程 ・生成モデル どれも「分布関数」の性質ありきの話
とりあえず「分布」とか「分布関数」についての説明から 確率分布、頻出
こんな形の池があったとする この魚、池のどこで釣れた魚? だいたいでいいからどこで釣れたと思うか言ってみて。 情報がなさ過ぎてわからない 池釣りの話
池に対して上図の釣れ方をした どこで釣れるのか? = 50匹釣れた地点が一番確率が高そう 池釣りの話 「どこから釣れたか」を当てるために どこに投げたら釣れるのか? = 魚の生息地(分布)が知りたい 各x軸で100回投げて何匹釣れたか数える実験を行う。
合計210匹なので1匹の重さは 1/210 1/210 を各x軸地点について適応していくと、 合計1になる値になった = 確率として扱うことができそう 「どこで、どのくらいの割合で釣れるか」 、を知ることができた ↑確率変数
↑確率 釣れた数を確率に変換
もっと細かく、釣れた地点ごとに区切って集計・確率になおす 確率をもっと細かく求める
x ※今回の実験ではこの魚の分布が考えられたが、 ※日によって変わるだろうし、もう少しずれているかもしれない ※真の分布を得るために永遠に釣りは出来ないので ※取得した手元のデータから確率分布を擬似的に表している ※これを経験分布と呼ぶ 細かい確率値たちが求まる←確率分布 関数式として数式であらわす←確率分布関数 (連続値は確率密度関数) y
y=f(x) 確率をもっと細かく
確率分布が分かればどんなxの時、確率が高いかが推定できる 逆に低い場合についても議論できる 2.5% 2.5% 5% 95%の魚はこの xの範囲 で釣れる (端の方で釣れた可能性は低い) 確率の高くない範囲をいくらか無視して推定につかおう
両側合計5%を無視 片側5%を無視 確率分布と両側?片側?
確率分布をどう使うの?
世の中毎回経験分布を求められるわけではない 「あるデータはある分布に近似する」 と仮定して議論する 偏差値, 身長, 異常値の範囲 : 正規分布 交通事故数, 不良品の発生数
: ポアソン分布 コインの表数, ガチャでレアを引く : 二項分布 確率分布を使った実験
ゲーム(ギャンブル)を例に 賭け ・コインが表なら 1000円もらえる ・コインが裏なら 1000円払う 表が出やすいコインなら賭けに乗ってもいい 賭けに乗る前に 「20回投げるお試し権がもらえる」 何回
表 が出たら話に乗る? 表裏均等に出るコインを投げても ピッタリ表10裏10にはならない ← 確率変数はばらつく ばらつきの範囲を知り、乗るか乗らないか決める
平行世界があったとして ©MAGES./Nitroplus---STEINS;GATEより 平行世界を考える 1000個の平行世界の自分自身も 20回コインを振ったならばどうなるか?
平行世界生成器 (R) https://rstudio.com/products/rstudio/download/ https://cran.r-project.org/mirrors.html https://www.soumu.go.jp/ict_skill/pdf/ict_ev_el_4_3.pdf (総務省ICTスキル総合習得教材・Rのインストール方法) RとRstudioをダウンロードしてRstudioから以下のRscriptを開いて(ctrl + shift +
n) コードをコピペ(ctrl+c) & 実行(ctrl+enter)
コインが1/2の確率なら 大体10回の表が出るはず ただし、 運の悪い世界は2回だけ表 運のいい世界は17回も表 20回コインを投げる 表が出る確率1/2のコインを、 1000の平行世界の自分が20回投げた結果 #初回だけPCへパッケージをinstall #install.packages("tidyverse")
#読み込み library(tidyverse) #世界線の数 n <- 1000 #投げる回数 size <- 20 #確率 prob <- 0.5 #平行世界の俺たちに投げさせる res <- rbinom(n,size,prob) res <- as.tibble(res) ggplot(res, aes(x = value)) + geom_histogram(aes(y=..count..),bins = 50) res %>% count(value) 確率変数 の ばらつき
表が出る確率が違った場合どうなる? 表が出る確率0.7のコインだったら? 表が出る確率0.3のコインだったら? だいたい10より少ない (10より多い値も少しある) だいたい10より多い (10より少ない値も少しある)
表が出る確率が違った場合どうなる? 自分の生きている世界線で20回なげてみた結果 7回表だった この時のコインの確率は? ← 最尤推定(今回話さない) 確率は表が出やすいのか? ← 比率の区間推定
積み上げ結果を確率に直した 結果 par(mfrow=c(3,3)) for(i in 1:9){ n <- 20 p
<- 0.1 * i mu <- n*p sigma <- sqrt(n*p*(1 - p)) x <- seq(0, 20) y <- dbinom(x,n,p) plot(x, y, lwd = 4, col = 'gray', las = 1, bty = 'l', yaxs = 'i', ylim = c(0, 0.3), type="n") lines(x, dnorm(x, mean = mu, sd = sigma), col = 'gray', lwd = 2) title(main = sprintf('n=%s, p=%.1f', n, p)) abline(v=7,col="red") }
確率分布になおす 20回投げたら表が7回、という情報から ・表が出る確率0.2のコインを20回投げた場合の最も運のいい時(分布の上側) もしくは ・表が出る確率0.6のコインを20回投げた場合の最も運のわるい時(分布の下側) 結論:「およそ0.2~0.6の確率で表が出るコインだろう」(これを見ても賭けますか?)
まとめ 今回話したこと ・確率分布って何 ・池釣りの例 ・両側とか片側って何 ・確率分布の使い方 ・平行世界でコインを投げて表になる確率を調べる
Enjoy statistics Recommended Reading List