Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ分析をはじめよう/lets_start_data_analysis
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
florets1
April 16, 2026
Business
990
2
Share
データ分析をはじめよう/lets_start_data_analysis
florets1
April 16, 2026
More Decks by florets1
See All by florets1
なぜSQLはAIぽく見えるのか/why does SQL look AI like
florets1
0
650
Tableauとggplot2の背景/Background_of_Tableau_and_ggplot2
florets1
0
83
Rで学ぶデータハンドリング入門/Introduction_to_Data_Handling_with_R
florets1
0
150
人工知能はクロスジョインでできている/AI_Is_Built_on_Cross_Joins
florets1
0
100
仮説の取扱説明書/User_Guide_to_a_Hypothesis
florets1
4
470
複式簿記から純資産を排除する/eliminate_net_assets_from_double-entry_bookkeeping
florets1
1
480
カイ二乗検定は何をやっているのか/What_Does_the_Chi-Square_Test_Do
florets1
7
2.5k
直積は便利/direct_product_is_useful
florets1
3
480
butterfly_effect/butterfly_effect_in-house
florets1
1
300
Other Decks in Business
See All in Business
FERMENSTATION Impact report
fermenstation
0
4.3k
SimpleForm 会社紹介資料
simpleform
2
52k
株式会社SAFELY 会社紹介 / Company
safely_pr
1
6.6k
会社説明資料|ROBOTPAYMENT
robot_payment
0
230
【正社員】C-United 会社説明資料
chrecruit
0
970
AIにタスク管理 されてみた
hirado_ns
0
140
【UI/UXデザイナー職】中途採用向け会社説明資料(テックファーム株式会社)
techfirm
0
610
Smart相談室 カルチャーデック
smartsoudanshitsu
2
86k
【DearOne】Dear Newest Member
hrm
3
17k
LW_brochure_engineer
lincwellhr
0
42k
Rakus Career Introduction
rakus_career
0
510k
見積もり精度を爆上げするシンプルな習慣/simple-habit
suzukihoge
0
120
Featured
See All Featured
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.5k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
170
Speed Design
sergeychernyshev
33
1.6k
KATA
mclloyd
PRO
35
15k
How STYLIGHT went responsive
nonsquared
100
6.1k
The Power of CSS Pseudo Elements
geoffreycrofte
82
6.2k
Thoughts on Productivity
jonyablonski
76
5.1k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
330
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
270
Balancing Empowerment & Direction
lara
6
1.1k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.4k
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
530
Transcript
1 2026.04.18 Tokyo.R #120 データ分析をはじめよう 要約・可視化・比較・仮説・検定
2 今日のお話 • 要約しよう • 可視化しよう • 比べよう • 仮説と検定
3 要約しよう • データはそのままだとわかりにくい • 一言で説明したい データ:10, 12, 13, 15,
1000 合計:1050
4 平均値 • 合計÷データ件数 データ:10, 12, 13, 15, 1000 平均値:210
5 中央値 • 真ん中の値 データ:10, 12, 13, 15, 1000 中央値:13
6 平均値 vs 中央値 データ:10, 12, 13, 15, 1000 平均値:210
中央値:13 どちらが実態に近い? 中央値は外れ値の影響を受けにくい
7 バラツキ • 全員50点 • 0点と100点 平均は同じだけど、なんか違う
8 分散・標準偏差 データが平均からどれだけ離れているかの指標 データ:10, 12, 14 偏差: 10-12, 12-12, 14-12
分散:偏差の2乗の平均 標準偏差:分散の平方根 1 3 (10 − 12)2+(12 − 12)2+(14 − 12)2
9 可視化(ヒストグラム) x <- rnorm(500, mean=0, sd = 1) hist(x)
データの要約だけではなく 分布の形をみる。
10 可視化(箱ひげ図) x <- rnorm(500, mean=0, sd = 1) y
<- rnorm(500, mean=1, sd = 2) boxplot(list(x=x, y=y)) 複数の分布を比較
11 データ分析事例:割引券の効果 割引券を配ったら平均単価が増えました。 したがって割引券には効果があります。 とは言えません。 配らなくても増えていたかも。
12 比べよう 実験:顧客を2つに分ける • グループA:割引券あり • グループB:割引券なし 注意:よく混ぜよう 偏りのない公平な比較をしましょう。
13 実験結果 Aの平均単価が高い
14 実験結果 Aの平均単価が高い 反論 本当に差はあるの? 標本平均に差があった からと言っても、真の 平均に差があると言え るの?
15 母集団と標本 母集団:調査したいデータ全体 標本:母集団から抽出した一部のデータ 母平均:母集団の平均 標本平均:標本の平均 母分散:母集団の分散 標本分散:標本の分散
16 不偏分散(n-1で割る分散) 標本から真の分散(母分散)を推定する際に、標本 の大きさnで割ると分散が小さく見積もられてしま います。n-1で割ると、偏りのない推定ができます。 1 3 (10 − 12)2+(12
− 12)2+(14 − 12)2 2
17 標準誤差とt値 標準誤差:標本分散を標本の大きさで割ったもの の平方根(標本平均が母平均からどれくらい離れ ているかの指標) t値:標本平均の差が 標準誤差の何倍か
18 仮説検定 1. 仮説をたてる 2. 標本分布を予測 3. 有意水準を決める 4. 標本を集める
5. p値で判断
19 仮説検定:仮説をたてる 仮説:2つのグループの平均値が等しい なぜ差がない仮説をたてるの? 差があることを調べたいのでは? 安心してください。後でこの仮説を捨てちゃいます。
20 仮説検定:標本分布を予測 標本分布:仮説が成り立つ場合に、標本の統計量が 従うであろう確率分布 標本のt値(平均値のズレ)の分布
21 仮説検定:有意水準を決める 判定基準となるしきい値
22 仮説検定:標本からp値を求める p値:仮説が正しいと仮定した場合、標本と同じか、 標本よりも極端な統計量を得る確率。
23 仮説検定:p値で判断 p値があらかじめ設定した有意水準より小さければ そもそも仮説が間違っていたのだ。
24 やってはいけない • 標本を観測してから仮説をたてる • 有意になるまで観測を続ける • 有意になったらそこで観測をやめる • p値を求めてから有意水準を決める
順番が大事 仮説 → 標本分布 → 有意水準 → 標本 → p値
25 こんな仮説はダメ 「2023年に比べて2024年の売上が伸びたのは、関東 の調子がよかったからではないかという仮説をたて ました!」 • 仮説が先。データは後。守ってますか? • 今から2024年のデータを取れるの? •
関東の調子がよかった世界と調子が悪かった世界 2つ用意できる?
26 p値の誤解 「仮説が正しい確率」ではありません。 「データが偶然で生じる確率」ではありません。 正しい解釈:仮説が正しいと仮定した場合、標本 と同じか、標本よりも極端な統計量を得る確率。
27 有意差があればいいの? 実験でほとんど差がなかった。 どうしよう。 仮説検定をやってみよう。 やった!有意差が出たぞ。
28 有意差があれば効果があるの? 割引券を配ると儲かるのか、損するのか 仮説検定だけでは判断できません。 仮説検定では差の大きさはわかりません。 • 有意とはすごいことが起きたわけではない。 • 有意だけで何かを判断できるわけではない。
29 標本の大きさ 標本の大きさ(サンプルサイズ、データ数) 大きすぎるとよくない。ほんの小さな差でも有意 になってしまうから。という考えが主流ですが… • 有意とはすごいことが起きたわけではない。 • 有意だけで何かを判断できるわけではない。
30 正規性の検定の悩ましさ • 「正規分布に従うとは言えない」と主張できる 道具。 • データが多いほど、正規分布からの小さなズレ も有意と判定。 • 多重検定に気をつけて。
31 今日のお話 • 要約しよう • 可視化しよう • 比べよう • 仮説と検定
32 今日のお話 • 要約しよう • 可視化しよう • 比べよう • 仮説と検定
記述統計の世界 推測統計の世界