Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
平均値と中央値の違いについて
Search
松村優哉
November 15, 2020
Science
1
850
平均値と中央値の違いについて
統計学勉強会(仮)#1 での発表資料です。
松村優哉
November 15, 2020
Tweet
Share
More Decks by 松村優哉
See All by 松村優哉
はじめての機械学習 / entrance-to-machine-learning2022
y__mattu
2
1.1k
validateパッケージでデータを検証する / Data Validation with validate package
y__mattu
0
550
rstanの環境構築 / Set Up rstan
y__mattu
1
1.1k
R言語とGo言語 / R and Go
y__mattu
1
940
はじめての機械学習 / Entrance to Machine Learning
y__mattu
0
720
dplyr 1.0.0の新機能 / dplyr 1.0.0
y__mattu
2
9.9k
Other Decks in Science
See All in Science
応用心理学Ⅰテキストマイニング講義資料講義編(2024年度)
satocos135
0
120
(論文読み)贈り物の交換による地位の競争と社会構造の変化 - 文化人類学への統計物理学的アプローチ -
__ymgc__
1
190
As We May Interact: Challenges and Opportunities for Next-Generation Human-Information Interaction
signer
PRO
0
430
化学におけるAI・シミュレーション活用のトレンドと 汎用原子レベルシミュレーター: Matlantisを使った素材開発
matlantis
0
530
Causal discovery based on non-Gaussianity and nonlinearity
sshimizu2006
0
250
白金鉱業Meetup Vol.15 DMLによる条件付処置効果の推定_sotaroIZUMI_20240919
brainpadpr
2
730
白金鉱業Meetup Vol.16_数理最適化案件のはじめかた・すすめかた
brainpadpr
3
1.5k
観察研究における因果推論
nearme_tech
PRO
1
190
The Incredible Machine: Developer Productivity and the Impact of AI
tomzimmermann
0
600
私たちのプロダクトにとってのよいテスト/good test for our products
camel_404
0
280
Factorized Diffusion: Perceptual Illusions by Noise Decomposition
tomoaki0705
0
360
Planted Clique Conjectures are Equivalent
nobushimi
0
130
Featured
See All Featured
The Language of Interfaces
destraynor
157
24k
Stop Working from a Prison Cell
hatefulcrawdad
268
20k
Testing 201, or: Great Expectations
jmmastey
42
7.4k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
28
2k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
30
1.1k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.7k
Designing for humans not robots
tammielis
250
25k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Embracing the Ebb and Flow
colly
85
4.6k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
227
22k
The World Runs on Bad Software
bkeepers
PRO
67
11k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
46
2.4k
Transcript
平均値と中央値の違いに ついて 2020/11/15 統計学勉強会(仮) #1 @y__mattu
誰︖ • 名前: 松村優哉 • 学⽣時代の専⾨: 計量経済学、 ベイズ統計、因果推論、マーケティング • HR系企業でデータサイエンティストしてます
• 勉強会運営 →Tokyo.R (#TokyoR) Music×Analytics Meetup (#muana) • 近況: ⾃転⾞楽しい @y__mattu ymattu 2
本⽇の発表について • レベル: ⼊⾨ • 前提知識: ⼩〜中学⽣レベル • 具体的には、「以下の数字の平均値を求めてください」、と⾔われて計算が できるレベル
3 ※細かいことが気になる中上級者へ - 本発表での「平均」はすべて相加平均を指すこととします - ⾼校⽣でも理解できるレベルの内容にするため、統計学的な専⾨⽤語は避けて説明します 例1: A, B, C, D, Eさんに対して、 あるテスト(100点満点)を実施しときの点数データ A→45点 B→58点 C→95点 D→60点 E→100点
突然ですが問題です 4 ⼤学⽣数学基本調査 より 平均は⼩学校で習いますが、 意外と⼤⼈でも間違えます。
突然ですが問題です(答え) 5 ⼤学⽣数学基本調査 より ◦ × × 今⽇の話はここ
平均値とは • データを⾜し合わせ、個数で割った数 • もしAさんが0点だったら…? →極端な数字がある場合、平均値はそれに引っ張られてしまう(この場合、 他の4⼈の点数が同じでも平均点はだいぶ下がっている) 6 例1の場合: (45
+ 58 + 95 + 60 + 100) ÷5 = 71.6 例1の場合: (0 + 58 + 95 + 60 + 100) ÷5 = 62.6
平均値とは • データを⾜し合わせ、個数で割った数 • もしAさんが0点だったら…? →極端な数字がある場合、平均値はそれに引っ張られてしまう(この場合、 他の4⼈の点数が同じでも平均点はだいぶ下がっている) 7 例1の場合: (45
+ 58 + 95 + 60 + 100) ÷5 = 71.6 例1の場合: (0 + 58 + 95 + 60 + 100) ÷5 = 62.6 すべての数字を⾜す、ということは 「順序」や「平均より上(下)の点数の⼈数」とかは関係ありません
中央値とは • データを⼩さい(⼤きい)順に並べ替えて順位をつけた際の「真ん中」 • もしAさんが0点だったら…? 8 偶数個の場合は︖ 例2: 別のクラスのテストの点数データ A
B D C E 45 58 60 95 100 中央値 上位 下位 A B D C E 0 58 60 95 100 中央値 上位 下位 Aさんが0点でも順序は変わらないので、 中央値は60点のまま。 →中央値は極端な数字に引っ張られにくい 順位 1 2 3 4 5 6 7 8 9 10 11 12 13 14 点数 10 22 25 57 59 60 63 65 68 73 77 79 80 82 上位 中央値 (63 + 65)÷2=64 下位
平均値と中央値の違いまとめ どちらもデータを要約した「代表値」 • 平均値︓全データの総和をデータの個数で割った値。数量的な意味での真ん中。 • 中央値︓全データを⼤きさの順に並べて中央にくる値。順序的な意味での真ん中。 • 先程の問題について 9 ◦
× × 平均値だけでは順序・⼈数はわからないので 50⼈ずついるかもしれないし、いないかもしれない 平均値は「総和÷個数」なので、正しい 「最頻値」という概念の理解が必要ですが、 今⽇は扱いません
(やや発展)中央値をもう少し掘り下げてみる: 四分位数 • 下位データと上位データで、さらに中央値をとったものを四分位数 という • 下位データの中央値→第⼀四分位数 • 上位データの中央値→第三四分位数 →四分位数を基準に、⼈数が等分されていることが分かる
→中央値や四分位数は、順序や範囲内のデータの個数を把握するのに役⽴つ 10 下位 順位 1 2 3 4 5 6 7 8 9 10 11 12 13 14 点数 10 22 25 57 59 60 63 65 68 73 77 79 80 82 上位 中央値 (63 + 65)÷2=64 第⼀四分位数 第三四分位数
(やや発展)箱ひげ図 第⼀〜第三四分位数と、最⼩・最⼤値を表したグラフを「箱ひげ図」 という 11 第⼀四分位数 中央値 第三四分位数 最⼩値 最⼤値 0
10 20 30 40 50 60 70 80 90 100 テストの点数 • 箱ひげ図を使うと、データの範囲や偏りが 読み取れる! • ※1, 2: ひげの両端は、すごく極端な数字がある場合は、 「最⼤値」「最⼩値」でない場合もある ※参考: 外れ値検出のある箱ひげ図 ※1 ※2
全体のまとめ • 平均値と中央値の違い • 平均値︓全データの総和をデータの個数で割った値。数量的な意味での真ん中。 • 中央値︓全データを⼤きさの順に並べて中央にくる値。順序的な意味での真ん中。 • 中央値で2等分された下位データと上位データで、さらに中央値をとっ たものを四分位数という
• 箱ひげ図は、四分位数や最⼩・最⼤値をグラフ化したもので、データの 範囲や偏りを把握するのに役⽴つ 12
おわり ご清聴ありがとうございました︕