Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ分析をはじめよう/lets_start_data_analysis
Search
florets1
April 16, 2026
Business
1k
2
Share
データ分析をはじめよう/lets_start_data_analysis
florets1
April 16, 2026
More Decks by florets1
See All by florets1
なぜSQLはAIぽく見えるのか/why does SQL look AI like
florets1
0
690
Tableauとggplot2の背景/Background_of_Tableau_and_ggplot2
florets1
0
87
Rで学ぶデータハンドリング入門/Introduction_to_Data_Handling_with_R
florets1
0
150
人工知能はクロスジョインでできている/AI_Is_Built_on_Cross_Joins
florets1
0
110
仮説の取扱説明書/User_Guide_to_a_Hypothesis
florets1
4
470
複式簿記から純資産を排除する/eliminate_net_assets_from_double-entry_bookkeeping
florets1
1
480
カイ二乗検定は何をやっているのか/What_Does_the_Chi-Square_Test_Do
florets1
7
2.5k
直積は便利/direct_product_is_useful
florets1
3
480
butterfly_effect/butterfly_effect_in-house
florets1
1
310
Other Decks in Business
See All in Business
SORAJIMA 2026
sorajima
0
6.5k
会社紹介資料
gatechnologies
2
180k
merpay-overview_en
mercari_inc
1
29k
Claude × Linear で代謝する組織をつくろう
nagatsu
0
1.8k
「AI時代、若手の育成はどうしたらいいんでしょう?」ー どの業界の方からも立て続けに頂いたこの問題を考えてみる
masayamoriofficial
0
630
DMM.com コーポレートブック
dmm
2
470k
【簡易版】パーソルクロステクノロジー_システムインテグレーション領域のご紹介 / Introduction_of_persol-xtech_gs_es_dx_short
pxt_gs_ssol
0
150k
01_全社_FLUX採用ピッチ資料_Ver.5.2
flux
PRO
6
210k
株式会社アシスト_会社紹介資料
ashisuto_career
3
170k
Mercari-Fact-book_jp
mercari_inc
7
190k
.nagoyaドメインから始めるドメイン管理_20260429
masakiokuda
0
490
introduce_backoffice_coordinate
yuki_yano
PRO
1
540
Featured
See All Featured
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
340
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
570
Practical Orchestrator
shlominoach
191
11k
The Pragmatic Product Professional
lauravandoore
37
7.3k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
The Power of CSS Pseudo Elements
geoffreycrofte
82
6.2k
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.2k
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4.2k
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
360
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
2
380
WCS-LA-2024
lcolladotor
0
600
Transcript
1 2026.04.18 Tokyo.R #120 データ分析をはじめよう 要約・可視化・比較・仮説・検定
2 今日のお話 • 要約しよう • 可視化しよう • 比べよう • 仮説と検定
3 要約しよう • データはそのままだとわかりにくい • 一言で説明したい データ:10, 12, 13, 15,
1000 合計:1050
4 平均値 • 合計÷データ件数 データ:10, 12, 13, 15, 1000 平均値:210
5 中央値 • 真ん中の値 データ:10, 12, 13, 15, 1000 中央値:13
6 平均値 vs 中央値 データ:10, 12, 13, 15, 1000 平均値:210
中央値:13 どちらが実態に近い? 中央値は外れ値の影響を受けにくい
7 バラツキ • 全員50点 • 0点と100点 平均は同じだけど、なんか違う
8 分散・標準偏差 データが平均からどれだけ離れているかの指標 データ:10, 12, 14 偏差: 10-12, 12-12, 14-12
分散:偏差の2乗の平均 標準偏差:分散の平方根 1 3 (10 − 12)2+(12 − 12)2+(14 − 12)2
9 可視化(ヒストグラム) x <- rnorm(500, mean=0, sd = 1) hist(x)
データの要約だけではなく 分布の形をみる。
10 可視化(箱ひげ図) x <- rnorm(500, mean=0, sd = 1) y
<- rnorm(500, mean=1, sd = 2) boxplot(list(x=x, y=y)) 複数の分布を比較
11 データ分析事例:割引券の効果 割引券を配ったら平均単価が増えました。 したがって割引券には効果があります。 とは言えません。 配らなくても増えていたかも。
12 比べよう 実験:顧客を2つに分ける • グループA:割引券あり • グループB:割引券なし 注意:よく混ぜよう 偏りのない公平な比較をしましょう。
13 実験結果 Aの平均単価が高い
14 実験結果 Aの平均単価が高い 反論 本当に差はあるの? 標本平均に差があった からと言っても、真の 平均に差があると言え るの?
15 母集団と標本 母集団:調査したいデータ全体 標本:母集団から抽出した一部のデータ 母平均:母集団の平均 標本平均:標本の平均 母分散:母集団の分散 標本分散:標本の分散
16 不偏分散(n-1で割る分散) 標本から真の分散(母分散)を推定する際に、標本 の大きさnで割ると分散が小さく見積もられてしま います。n-1で割ると、偏りのない推定ができます。 1 3 (10 − 12)2+(12
− 12)2+(14 − 12)2 2
17 標準誤差とt値 標準誤差:標本分散を標本の大きさで割ったもの の平方根(標本平均が母平均からどれくらい離れ ているかの指標) t値:標本平均の差が 標準誤差の何倍か
18 仮説検定 1. 仮説をたてる 2. 標本分布を予測 3. 有意水準を決める 4. 標本を集める
5. p値で判断
19 仮説検定:仮説をたてる 仮説:2つのグループの平均値が等しい なぜ差がない仮説をたてるの? 差があることを調べたいのでは? 安心してください。後でこの仮説を捨てちゃいます。
20 仮説検定:標本分布を予測 標本分布:仮説が成り立つ場合に、標本の統計量が 従うであろう確率分布 標本のt値(平均値のズレ)の分布
21 仮説検定:有意水準を決める 判定基準となるしきい値
22 仮説検定:標本からp値を求める p値:仮説が正しいと仮定した場合、標本と同じか、 標本よりも極端な統計量を得る確率。
23 仮説検定:p値で判断 p値があらかじめ設定した有意水準より小さければ そもそも仮説が間違っていたのだ。
24 やってはいけない • 標本を観測してから仮説をたてる • 有意になるまで観測を続ける • 有意になったらそこで観測をやめる • p値を求めてから有意水準を決める
順番が大事 仮説 → 標本分布 → 有意水準 → 標本 → p値
25 こんな仮説はダメ 「2023年に比べて2024年の売上が伸びたのは、関東 の調子がよかったからではないかという仮説をたて ました!」 • 仮説が先。データは後。守ってますか? • 今から2024年のデータを取れるの? •
関東の調子がよかった世界と調子が悪かった世界 2つ用意できる?
26 p値の誤解 「仮説が正しい確率」ではありません。 「データが偶然で生じる確率」ではありません。 正しい解釈:仮説が正しいと仮定した場合、標本 と同じか、標本よりも極端な統計量を得る確率。
27 有意差があればいいの? 実験でほとんど差がなかった。 どうしよう。 仮説検定をやってみよう。 やった!有意差が出たぞ。
28 有意差があれば効果があるの? 割引券を配ると儲かるのか、損するのか 仮説検定だけでは判断できません。 仮説検定では差の大きさはわかりません。 • 有意とはすごいことが起きたわけではない。 • 有意だけで何かを判断できるわけではない。
29 標本の大きさ 標本の大きさ(サンプルサイズ、データ数) 大きすぎるとよくない。ほんの小さな差でも有意 になってしまうから。という考えが主流ですが… • 有意とはすごいことが起きたわけではない。 • 有意だけで何かを判断できるわけではない。
30 正規性の検定の悩ましさ • 「正規分布に従うとは言えない」と主張できる 道具。 • データが多いほど、正規分布からの小さなズレ も有意と判定。 • 多重検定に気をつけて。
31 今日のお話 • 要約しよう • 可視化しよう • 比べよう • 仮説と検定
32 今日のお話 • 要約しよう • 可視化しよう • 比べよう • 仮説と検定
記述統計の世界 推測統計の世界