Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ分析をはじめよう/lets_start_data_analysis
Search
florets1
April 16, 2026
Business
1k
2
Share
データ分析をはじめよう/lets_start_data_analysis
florets1
April 16, 2026
More Decks by florets1
See All by florets1
なぜSQLはAIぽく見えるのか/why does SQL look AI like
florets1
0
720
Tableauとggplot2の背景/Background_of_Tableau_and_ggplot2
florets1
0
87
Rで学ぶデータハンドリング入門/Introduction_to_Data_Handling_with_R
florets1
0
150
人工知能はクロスジョインでできている/AI_Is_Built_on_Cross_Joins
florets1
0
110
仮説の取扱説明書/User_Guide_to_a_Hypothesis
florets1
4
480
複式簿記から純資産を排除する/eliminate_net_assets_from_double-entry_bookkeeping
florets1
1
490
カイ二乗検定は何をやっているのか/What_Does_the_Chi-Square_Test_Do
florets1
7
2.5k
直積は便利/direct_product_is_useful
florets1
3
480
butterfly_effect/butterfly_effect_in-house
florets1
1
320
Other Decks in Business
See All in Business
情報を集める時間を チームを進める時間へ-Backlog AIアシスタントで変わった時間の使い方-
yasuhirox
0
330
ファブリカホールディングス_2026年3月期通期説明資料
fabrica_com
1
5.9k
政策共創事例集2025
polipoli
0
350
Speee_2026年9月期第2四半期 決算説明資料
speee_pr
0
3.3k
営業、広報、開発。 多面的なAIネイティブ化のための 基盤について
timakin
0
190
CMB.TECH earnings call Q1 2026
cmbtech
PRO
0
1.4k
AI導入PJの勝ちパターン KPI設計&意図的な社内AI格差
okuwakim
1
810
『今日から使える認知行動療法』でみつけた もっと人生をたのしむヒント
mkitahara01985
1
680
malna-recruiting-pitch
malna
0
21k
Sotas Company Deck / 会社紹介資料
sotas
0
350
株式会社Beer and Tech/HitoHana(ひとはな) 採用資料 2026.06 .09
beerandtech_recruiter
1
47k
2025年度「海の家プロジェクト」ピッチ資料
brush2026
0
210
Featured
See All Featured
Joys of Absence: A Defence of Solitary Play
codingconduct
1
390
Reality Check: Gamification 10 Years Later
codingconduct
0
2.2k
WENDY [Excerpt]
tessaabrams
11
38k
A Modern Web Designer's Workflow
chriscoyier
698
190k
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.2k
Tell your own story through comics
letsgokoyo
1
940
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.6k
Making the Leap to Tech Lead
cromwellryan
135
9.9k
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
220
Exploring anti-patterns in Rails
aemeredith
3
390
The Limits of Empathy - UXLibs8
cassininazir
1
350
Writing Fast Ruby
sferik
630
63k
Transcript
1 2026.04.18 Tokyo.R #120 データ分析をはじめよう 要約・可視化・比較・仮説・検定
2 今日のお話 • 要約しよう • 可視化しよう • 比べよう • 仮説と検定
3 要約しよう • データはそのままだとわかりにくい • 一言で説明したい データ:10, 12, 13, 15,
1000 合計:1050
4 平均値 • 合計÷データ件数 データ:10, 12, 13, 15, 1000 平均値:210
5 中央値 • 真ん中の値 データ:10, 12, 13, 15, 1000 中央値:13
6 平均値 vs 中央値 データ:10, 12, 13, 15, 1000 平均値:210
中央値:13 どちらが実態に近い? 中央値は外れ値の影響を受けにくい
7 バラツキ • 全員50点 • 0点と100点 平均は同じだけど、なんか違う
8 分散・標準偏差 データが平均からどれだけ離れているかの指標 データ:10, 12, 14 偏差: 10-12, 12-12, 14-12
分散:偏差の2乗の平均 標準偏差:分散の平方根 1 3 (10 − 12)2+(12 − 12)2+(14 − 12)2
9 可視化(ヒストグラム) x <- rnorm(500, mean=0, sd = 1) hist(x)
データの要約だけではなく 分布の形をみる。
10 可視化(箱ひげ図) x <- rnorm(500, mean=0, sd = 1) y
<- rnorm(500, mean=1, sd = 2) boxplot(list(x=x, y=y)) 複数の分布を比較
11 データ分析事例:割引券の効果 割引券を配ったら平均単価が増えました。 したがって割引券には効果があります。 とは言えません。 配らなくても増えていたかも。
12 比べよう 実験:顧客を2つに分ける • グループA:割引券あり • グループB:割引券なし 注意:よく混ぜよう 偏りのない公平な比較をしましょう。
13 実験結果 Aの平均単価が高い
14 実験結果 Aの平均単価が高い 反論 本当に差はあるの? 標本平均に差があった からと言っても、真の 平均に差があると言え るの?
15 母集団と標本 母集団:調査したいデータ全体 標本:母集団から抽出した一部のデータ 母平均:母集団の平均 標本平均:標本の平均 母分散:母集団の分散 標本分散:標本の分散
16 不偏分散(n-1で割る分散) 標本から真の分散(母分散)を推定する際に、標本 の大きさnで割ると分散が小さく見積もられてしま います。n-1で割ると、偏りのない推定ができます。 1 3 (10 − 12)2+(12
− 12)2+(14 − 12)2 2
17 標準誤差とt値 標準誤差:標本分散を標本の大きさで割ったもの の平方根(標本平均が母平均からどれくらい離れ ているかの指標) t値:標本平均の差が 標準誤差の何倍か
18 仮説検定 1. 仮説をたてる 2. 標本分布を予測 3. 有意水準を決める 4. 標本を集める
5. p値で判断
19 仮説検定:仮説をたてる 仮説:2つのグループの平均値が等しい なぜ差がない仮説をたてるの? 差があることを調べたいのでは? 安心してください。後でこの仮説を捨てちゃいます。
20 仮説検定:標本分布を予測 標本分布:仮説が成り立つ場合に、標本の統計量が 従うであろう確率分布 標本のt値(平均値のズレ)の分布
21 仮説検定:有意水準を決める 判定基準となるしきい値
22 仮説検定:標本からp値を求める p値:仮説が正しいと仮定した場合、標本と同じか、 標本よりも極端な統計量を得る確率。
23 仮説検定:p値で判断 p値があらかじめ設定した有意水準より小さければ そもそも仮説が間違っていたのだ。
24 やってはいけない • 標本を観測してから仮説をたてる • 有意になるまで観測を続ける • 有意になったらそこで観測をやめる • p値を求めてから有意水準を決める
順番が大事 仮説 → 標本分布 → 有意水準 → 標本 → p値
25 こんな仮説はダメ 「2023年に比べて2024年の売上が伸びたのは、関東 の調子がよかったからではないかという仮説をたて ました!」 • 仮説が先。データは後。守ってますか? • 今から2024年のデータを取れるの? •
関東の調子がよかった世界と調子が悪かった世界 2つ用意できる?
26 p値の誤解 「仮説が正しい確率」ではありません。 「データが偶然で生じる確率」ではありません。 正しい解釈:仮説が正しいと仮定した場合、標本 と同じか、標本よりも極端な統計量を得る確率。
27 有意差があればいいの? 実験でほとんど差がなかった。 どうしよう。 仮説検定をやってみよう。 やった!有意差が出たぞ。
28 有意差があれば効果があるの? 割引券を配ると儲かるのか、損するのか 仮説検定だけでは判断できません。 仮説検定では差の大きさはわかりません。 • 有意とはすごいことが起きたわけではない。 • 有意だけで何かを判断できるわけではない。
29 標本の大きさ 標本の大きさ(サンプルサイズ、データ数) 大きすぎるとよくない。ほんの小さな差でも有意 になってしまうから。という考えが主流ですが… • 有意とはすごいことが起きたわけではない。 • 有意だけで何かを判断できるわけではない。
30 正規性の検定の悩ましさ • 「正規分布に従うとは言えない」と主張できる 道具。 • データが多いほど、正規分布からの小さなズレ も有意と判定。 • 多重検定に気をつけて。
31 今日のお話 • 要約しよう • 可視化しよう • 比べよう • 仮説と検定
32 今日のお話 • 要約しよう • 可視化しよう • 比べよう • 仮説と検定
記述統計の世界 推測統計の世界