Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計学入門講座 第2回スライド
Search
TechmathProject
October 29, 2024
Science
0
34
統計学入門講座 第2回スライド
てくますプロジェクトで行った統計学入門講座の第2回スライドです。
実施:2024/10/28
TechmathProject
October 29, 2024
Tweet
Share
More Decks by TechmathProject
See All by TechmathProject
統計学入門講座 第4回スライド
techmathproject
0
30
統計学入門講座 第3回スライド
techmathproject
0
27
統計学入門講座 第1回スライド
techmathproject
0
130
線形代数学入門講座 第1回スライド
techmathproject
0
27
線形代数学入門講座 第2回スライド
techmathproject
0
25
線形代数学入門講座 第3回スライド
techmathproject
0
13
線形代数学入門講座 第4回スライド
techmathproject
0
11
線形代数学入門講座 第5回スライド
techmathproject
0
12
線形代数学入門講座 第6回スライド
techmathproject
0
15
Other Decks in Science
See All in Science
事業会社における 機械学習・推薦システム技術の活用事例と必要な能力 / ml-recsys-in-layerx-wantedly-2024
yuya4
3
250
20240420 Global Azure 2024 | Azure Migrate でデータセンターのサーバーを評価&移行してみる
olivia_0707
2
930
Cross-Media Information Spaces and Architectures (CISA)
signer
PRO
3
30k
Transformers are Universal in Context Learners
gpeyre
0
620
証明支援系LEANに入門しよう
unaoya
0
460
Snowflakeによる統合バイオインフォマティクス
ktatsuya
PRO
0
520
【人工衛星】座標変換についての説明
02hattori11sat03
0
130
はじめての「相関と因果とエビデンス」入門:“動機づけられた推論” に抗うために
takehikoihayashi
17
7k
位相的データ解析とその応用例
brainpadpr
1
720
【健康&筋肉と生産性向上の関連性】 【Google Cloudを企業で運用する際の知識】 をお届け
yasumuusan
0
380
Machine Learning for Materials (Lecture 9)
aronwalsh
0
240
Direct Preference Optimization
zchenry
0
300
Featured
See All Featured
Rebuilding a faster, lazier Slack
samanthasiow
79
8.7k
A better future with KSS
kneath
238
17k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
159
15k
Six Lessons from altMBA
skipperchong
27
3.5k
Building Your Own Lightsaber
phodgson
103
6.1k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Visualization
eitanlees
146
15k
Building an army of robots
kneath
302
44k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
7k
Become a Pro
speakerdeck
PRO
26
5k
Designing for Performance
lara
604
68k
Transcript
統計学入門講座 第2回 データの散らばり てくますプロジェクト
てくますプロジェクトについて • てくますプロジェクトは, 「考える楽しさを探そう!」が合言葉の, 数学と情報科学の学習コミュニティです. • 数学や情報科学は, 誰にとっても役立ち, 趣味としても楽しめるものです. その魅力を伝えるために,
私たちは活動しています. • 輪読会や講座の実施, 記事などのコンテンツ制作を行っています. • X などで宣伝いただけると大変嬉しいです. (#てくますプロジェクト) • 講師はゆっきん(桑原)が担当します. ◦ 数学教師→システムエンジニア→プログラミング講師 ◦ 数学, プログラミング, ボードゲームが好きです. ◦ てくますプロジェクトやボードゲームコミュニティの運営を 行っています.
本講座について • 本講座は統計学を初めて学ぶ方や, 学び直したい方を対象としています. 本講座の前半は高校数学レベル, 後半は大学教養レベルです. 統計検定2級を目指す方にも適した内容です. • 本講座は各回, 前半で知識のインプット,
後半で問題演習を行います. • 高校や大学以外で数学を学ぶことのできる貴重な場です. 数学を学びたい人たちが集まっていますので, ぜひ交流してください! • 本講座作成にあたり, 特に参考にした本を 右に挙げておきます. 2冊ともオススメです.
スケジュール 第1回 データの整理 2024/10/07 第4回 確率分布 2024/12/02 第3回 確率の基本 2024/11/18
第2回 データの散らばり 2024/10/28 第5回 検定の枠組み 2024/12/16 第8回 2標本t検定 2025/02/10 第6回 母平均の検定 2025/01/06 第7回 母分散, 母比率の検定 2025/01/27 本講座は全8回です. 各回の内容は以下の通りです.
目次 1. 分散と標準偏差 データのばらつき(散らばり具合)を表す分散と標準偏差について説明します. 講座の間, ずっと登場する最重要概念です! 2. 共分散と相関係数 2次元データの相関性を表す共分散と相関係数について説明します. (身長が高いほど,
体重が重い傾向にあるなど)
分散と標準偏差
2つのデータについて 次の2つのデータは, 平均値・中央値・最頻値がそれぞれ同じです. では同じ傾向のデータであるかというと, そうとも言えなさそうです. この2つのデータには, どのような傾向の違いがあるでしょうか. 0, 1, 3,
5, 5, 5, 7, 9, 10 データA 3, 4, 4, 5, 5, 5, 6, 6, 7 データB データAよりBの方が, データのばらつきが小さそうです.
データのばらつきを調べる道具 データのばらつきを調べる道具として第1回では四分位範囲を紹介しましたが, 他のよく使う道具とし て, 分散と標準偏差があります. 分散 を求めるステップ 1. データの平均値を求める 2.
各データに対し, データの平均値との差を求める(これを偏差と呼びます) 3. 偏差の2乗の平均値を求める→この値が分散です! 標準偏差 は で求めることができます. • テストの平均点が60点で自分が50点のとき, 「平均点より-10点か」など考えますよね. これが偏差です. • 分散は偏差の2乗の平均値です. ちなみに, 偏差の平均値は0です. • 標準偏差はもとのデータと単位が同じというメリットがあります.
なお, データBは分散が , 標準偏差が よってデータAよりBの方が, 値のばらつきが小さいことが分かりました. 分散と標準偏差を計算してみよう 先ほどのデータAに対し, 分散と標準偏差を求めてみましょう. 0,
1, 3, 5, 5, 5, 7, 9, 10 データA データAの平均値は 5 各データの偏差は順に, -5, -4, -2, 0, 0, 0, 2, 4, 5 よって分散は, 標準偏差は,
分散のもう一つの計算方法 分散は偏差の2乗の平均値が定義ですが, この定義とは別の計算方法があります. もう一つの分散の計算方法:(分散)=(データの2乗の平均値)ー(データの平均値の2乗) <証明> この方法を使って, データAの分散を求めてみましょう. よって分散は (先ほどと同じ結果が得られました!) データAの2乗の平均値は
そのデータは月並みか特殊か テストの平均点が50点に対し, あなたは70点を取ったとします. この70点は月並みな結果でしょうか? それとも特殊な結果でしょうか? 50 80 20 50 60 40
70点はそこまですごくない 70点はすごい! 標準偏差が30のとき 標準偏差が10のとき それは, 標準偏差によります.
そのデータは月並みか特殊か データが月並みか特殊かを調べるには, データが平均値から標準偏差何個分離れているかを調べるとよ いです. データが正規分布(下の釣鐘のような形のグラフ)に従う場合, 平均値から標準偏差±1個分の範囲に約68%のデータが含まれ, 平均値から標準偏差±2個分の範囲に約95%のデータが含まれることが分かっています. 約68% 約95% 標準偏差2個分以上離れていたら,
特殊なデータと言ってよさそう
変数変換(すべてに同じ値を足す) さきほどのデータAのすべてのデータに5が足されたとします. このとき, 平均値, 分散, 標準偏差はそれぞれどのように変化するでしょうか. 0, 1, 3, 5,
5, 5, 7, 9, 10 データA 5, 6, 8, 10, 10, 10, 12, 14, 15 すべてのデータが+5 • 平均値:5増える • 分散:偏差が変わらないので, 変化なし • 標準偏差:分散が変わらないので, 変化なし
変数変換(すべてに同じ値をかける) 今度はデータAのすべてのデータに2がかけられたとします. このとき, 平均値, 分散, 標準偏差はそれぞれどのように変化するでしょうか. 0, 1, 3, 5,
5, 5, 7, 9, 10 データA 0, 2, 6, 10, 10, 10, 14, 18, 20 すべてのデータが2倍 • 平均値:2倍になる • 分散:偏差が2倍なので, 分散は2の2乗=4倍になる • 標準偏差:分散が4倍なので, 標準偏差はルート4=2倍になる
共分散と相関係数
2次元データと散布図 これまでは1次元のデータを取り扱ってきましたが, (身長, 体重) や (数学の得点, 英語の得点) などの2次 元のデータを考えることもできます. 2次元データは散布図によって可視化できます.
相関係数 身長が高ければ高いほど, 体重が重くなる傾向が見受けられます. このように, Xの値が大きいほど, Yの 値も大きくなる傾向があることを正の相関関係と呼びます. 一方, Xの値が大きいほど, Yの値が小さくなる傾向があることを負の相関関係と呼びます.
相関関係は, 相関係数という値で調べることができます. 相関係数は-1以上1以下の値を取り, 相関係数が正だと正の相関関係, 負だと負の相関関係があることが 分かります. 相関係数 -0.8 相関係数 -0.4 相関係数 0 相関係数 0.4 相関係数 0.8 強い負の相関関係 相関関係が 見られない 弱い負の相関関係 弱い正の相関関係 強い正の相関関係
相関係数の計算方法 さて, データXの標準偏差を , データYの標準偏差を , データXとYの共分散を とします. このとき相関係数は で求められます. 相関係数の計算の前に, 共分散について説明します. データXとYの共分散は,「
(Xの偏差)×(Yの偏差)」の平均値 です. (※データXの分散は, 「(Xの偏差)×(Xの偏差)」の平均値だったので, それとよく似ていますね)
相関係数を計算してみよう 次のデータXとYの相関係数を計算しましょう. X 2 4 6 8 10 Y 5
7 6 10 12 -4 -3 16 9 12 -2 -1 4 1 2 0 -2 0 4 0 2 2 4 4 4 4 4 16 16 16 合計 40 34 34 よって, データXとYには, 強い正の相関関係があることが分かる.
まとめ • 分散と標準偏差は, データのばらつきを調べる道具です. ◦ 分散は偏差の2乗の平均値です. ◦ 分散は2乗の平均値ー平均値の2乗でも計算できます. ◦ 標準偏差はルート分散です.
• データが平均値から標準偏差何個分離れているかで, そのデータが月並みか特殊かが分かります. • 変数変換について ◦ すべてのデータにnが足されたとき, 平均値はn増える, 分散は変化なし, 標準偏差は変化なし ◦ すべてのデータがn倍されたとき, 平均値はn倍される, 分散はnの2乗倍される, 標準偏差はn倍さ れる • 相関係数は2次元データの2変数の相関性を調べる道具です. ◦ 相関係数が正だと正の相関があります.(Xの値が大きいほどYの値も大きくなる) ◦ 相関係数が負だと負の相関があります.(Xの値が大きいほどYの値は小さくなる) ◦ XとYの共分散は (Xの偏差)×(Yの偏差)の平均値 です. ◦ 相関係数は(XとYの共分散)/{(Xの標準偏差)×(Yの標準偏差)}です.
演習問題を解こう!