Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
平均値と中央値の違いについて
Search
松村優哉
November 15, 2020
Science
1
870
平均値と中央値の違いについて
統計学勉強会(仮)#1 での発表資料です。
松村優哉
November 15, 2020
Tweet
Share
More Decks by 松村優哉
See All by 松村優哉
はじめての機械学習 / entrance-to-machine-learning2022
y__mattu
2
1.1k
validateパッケージでデータを検証する / Data Validation with validate package
y__mattu
0
590
rstanの環境構築 / Set Up rstan
y__mattu
1
1.1k
R言語とGo言語 / R and Go
y__mattu
1
1k
はじめての機械学習 / Entrance to Machine Learning
y__mattu
0
760
dplyr 1.0.0の新機能 / dplyr 1.0.0
y__mattu
2
10k
Other Decks in Science
See All in Science
07_浮世満理子_アイディア高等学院学院長_一般社団法人全国心理業連合会代表理事_紹介資料.pdf
sip3ristex
0
560
統計的因果探索: 背景知識とデータにより因果仮説を探索する
sshimizu2006
4
960
Celebrate UTIG: Staff and Student Awards 2025
utig
0
110
白金鉱業Meetup Vol.16_数理最適化案件のはじめかた・すすめかた
brainpadpr
4
1.9k
Masseyのレーティングを用いたフォーミュラレースドライバーの実績評価手法の開発 / Development of a Performance Evaluation Method for Formula Race Drivers Using Massey Ratings
konakalab
0
180
生成検索エンジン最適化に関する研究の紹介
ynakano
2
1.3k
論文紹介 音源分離:SCNET SPARSE COMPRESSION NETWORK FOR MUSIC SOURCE SEPARATION
kenmatsu4
0
280
アナログ計算機『計算尺』を愛でる Midosuji Tech #4/Analog Computing Device Slide Rule now and then
quiver
1
220
点群ライブラリPDALをGoogleColabにて実行する方法の紹介
kentaitakura
1
340
Machine Learning for Materials (Challenge)
aronwalsh
0
320
06_浅井雄一郎_株式会社浅井農園代表取締役社長_紹介資料.pdf
sip3ristex
0
580
眼科AIコンテスト2024_特別賞_6位Solution
pon0matsu
0
440
Featured
See All Featured
Practical Orchestrator
shlominoach
190
11k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.4k
A better future with KSS
kneath
239
17k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
36
2.5k
BBQ
matthewcrist
89
9.8k
Designing for humans not robots
tammielis
253
25k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.6k
Building Flexible Design Systems
yeseniaperezcruz
328
39k
Music & Morning Musume
bryan
46
6.7k
Why Our Code Smells
bkeepers
PRO
337
57k
Side Projects
sachag
455
43k
Agile that works and the tools we love
rasmusluckow
329
21k
Transcript
平均値と中央値の違いに ついて 2020/11/15 統計学勉強会(仮) #1 @y__mattu
誰︖ • 名前: 松村優哉 • 学⽣時代の専⾨: 計量経済学、 ベイズ統計、因果推論、マーケティング • HR系企業でデータサイエンティストしてます
• 勉強会運営 →Tokyo.R (#TokyoR) Music×Analytics Meetup (#muana) • 近況: ⾃転⾞楽しい @y__mattu ymattu 2
本⽇の発表について • レベル: ⼊⾨ • 前提知識: ⼩〜中学⽣レベル • 具体的には、「以下の数字の平均値を求めてください」、と⾔われて計算が できるレベル
3 ※細かいことが気になる中上級者へ - 本発表での「平均」はすべて相加平均を指すこととします - ⾼校⽣でも理解できるレベルの内容にするため、統計学的な専⾨⽤語は避けて説明します 例1: A, B, C, D, Eさんに対して、 あるテスト(100点満点)を実施しときの点数データ A→45点 B→58点 C→95点 D→60点 E→100点
突然ですが問題です 4 ⼤学⽣数学基本調査 より 平均は⼩学校で習いますが、 意外と⼤⼈でも間違えます。
突然ですが問題です(答え) 5 ⼤学⽣数学基本調査 より ◦ × × 今⽇の話はここ
平均値とは • データを⾜し合わせ、個数で割った数 • もしAさんが0点だったら…? →極端な数字がある場合、平均値はそれに引っ張られてしまう(この場合、 他の4⼈の点数が同じでも平均点はだいぶ下がっている) 6 例1の場合: (45
+ 58 + 95 + 60 + 100) ÷5 = 71.6 例1の場合: (0 + 58 + 95 + 60 + 100) ÷5 = 62.6
平均値とは • データを⾜し合わせ、個数で割った数 • もしAさんが0点だったら…? →極端な数字がある場合、平均値はそれに引っ張られてしまう(この場合、 他の4⼈の点数が同じでも平均点はだいぶ下がっている) 7 例1の場合: (45
+ 58 + 95 + 60 + 100) ÷5 = 71.6 例1の場合: (0 + 58 + 95 + 60 + 100) ÷5 = 62.6 すべての数字を⾜す、ということは 「順序」や「平均より上(下)の点数の⼈数」とかは関係ありません
中央値とは • データを⼩さい(⼤きい)順に並べ替えて順位をつけた際の「真ん中」 • もしAさんが0点だったら…? 8 偶数個の場合は︖ 例2: 別のクラスのテストの点数データ A
B D C E 45 58 60 95 100 中央値 上位 下位 A B D C E 0 58 60 95 100 中央値 上位 下位 Aさんが0点でも順序は変わらないので、 中央値は60点のまま。 →中央値は極端な数字に引っ張られにくい 順位 1 2 3 4 5 6 7 8 9 10 11 12 13 14 点数 10 22 25 57 59 60 63 65 68 73 77 79 80 82 上位 中央値 (63 + 65)÷2=64 下位
平均値と中央値の違いまとめ どちらもデータを要約した「代表値」 • 平均値︓全データの総和をデータの個数で割った値。数量的な意味での真ん中。 • 中央値︓全データを⼤きさの順に並べて中央にくる値。順序的な意味での真ん中。 • 先程の問題について 9 ◦
× × 平均値だけでは順序・⼈数はわからないので 50⼈ずついるかもしれないし、いないかもしれない 平均値は「総和÷個数」なので、正しい 「最頻値」という概念の理解が必要ですが、 今⽇は扱いません
(やや発展)中央値をもう少し掘り下げてみる: 四分位数 • 下位データと上位データで、さらに中央値をとったものを四分位数 という • 下位データの中央値→第⼀四分位数 • 上位データの中央値→第三四分位数 →四分位数を基準に、⼈数が等分されていることが分かる
→中央値や四分位数は、順序や範囲内のデータの個数を把握するのに役⽴つ 10 下位 順位 1 2 3 4 5 6 7 8 9 10 11 12 13 14 点数 10 22 25 57 59 60 63 65 68 73 77 79 80 82 上位 中央値 (63 + 65)÷2=64 第⼀四分位数 第三四分位数
(やや発展)箱ひげ図 第⼀〜第三四分位数と、最⼩・最⼤値を表したグラフを「箱ひげ図」 という 11 第⼀四分位数 中央値 第三四分位数 最⼩値 最⼤値 0
10 20 30 40 50 60 70 80 90 100 テストの点数 • 箱ひげ図を使うと、データの範囲や偏りが 読み取れる! • ※1, 2: ひげの両端は、すごく極端な数字がある場合は、 「最⼤値」「最⼩値」でない場合もある ※参考: 外れ値検出のある箱ひげ図 ※1 ※2
全体のまとめ • 平均値と中央値の違い • 平均値︓全データの総和をデータの個数で割った値。数量的な意味での真ん中。 • 中央値︓全データを⼤きさの順に並べて中央にくる値。順序的な意味での真ん中。 • 中央値で2等分された下位データと上位データで、さらに中央値をとっ たものを四分位数という
• 箱ひげ図は、四分位数や最⼩・最⼤値をグラフ化したもので、データの 範囲や偏りを把握するのに役⽴つ 12
おわり ご清聴ありがとうございました︕