Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計学入門講座 第2回スライド
Search
TechmathProject
October 29, 2024
Science
0
22
統計学入門講座 第2回スライド
てくますプロジェクトで行った統計学入門講座の第2回スライドです。
実施:2024/10/28
TechmathProject
October 29, 2024
Tweet
Share
More Decks by TechmathProject
See All by TechmathProject
統計学入門講座 第1回スライド
techmathproject
0
72
線形代数学入門講座 第1回スライド
techmathproject
0
21
線形代数学入門講座 第2回スライド
techmathproject
0
20
線形代数学入門講座 第3回スライド
techmathproject
0
12
線形代数学入門講座 第4回スライド
techmathproject
0
10
線形代数学入門講座 第5回スライド
techmathproject
0
10
線形代数学入門講座 第6回スライド
techmathproject
0
13
線形代数学入門講座 第7回スライド
techmathproject
0
13
線形代数学入門講座 第8回スライド
techmathproject
0
17
Other Decks in Science
See All in Science
ABEMAの効果検証事例〜効果の異質性を考える〜
s1ok69oo
4
2.1k
理論計算機科学における 数学の応用: 擬似ランダムネス
nobushimi
1
340
科学で迫る勝敗の法則(名城大学公開講座.2024年10月) / The principle of victory discovered by science (Open lecture in Meijo Univ. 2024)
konakalab
0
200
事業会社における 機械学習・推薦システム技術の活用事例と必要な能力 / ml-recsys-in-layerx-wantedly-2024
yuya4
3
230
HAS Dark Site Orientation
astronomyhouston
0
5.3k
論文紹介: PEFA: Parameter-Free Adapters for Large-scale Embedding-based Retrieval Models (WSDM 2024)
ynakano
0
150
非同期コミュニケーションの構造 -チャットツールを用いた組織における情報の流れの設計について-
koisono
0
140
はじめてのバックドア基準:あるいは、重回帰分析の偏回帰係数を因果効果の推定値として解釈してよいのか問題
takehikoihayashi
2
730
DEIM2024 チュートリアル ~AWSで生成AIのRAGを使ったチャットボットを作ってみよう~
yamahiro
3
1.3k
最適化超入門
tkm2261
14
3.3k
MoveItを使った産業用ロボット向け動作作成方法の紹介 / Introduction to creating motion for industrial robots using MoveIt
ry0_ka
0
160
重複排除・高速バックアップ・ランサムウェア対策 三拍子そろったExaGrid × Veeam連携セミナー
climbteam
0
110
Featured
See All Featured
Imperfection Machines: The Place of Print at Facebook
scottboms
265
13k
Rails Girls Zürich Keynote
gr2m
94
13k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
25
1.8k
Faster Mobile Websites
deanohume
305
30k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.8k
Scaling GitHub
holman
458
140k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
0
89
Building a Modern Day E-commerce SEO Strategy
aleyda
38
6.9k
Ruby is Unlike a Banana
tanoku
97
11k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
329
21k
Building Applications with DynamoDB
mza
90
6.1k
Transcript
統計学入門講座 第2回 データの散らばり てくますプロジェクト
てくますプロジェクトについて • てくますプロジェクトは, 「考える楽しさを探そう!」が合言葉の, 数学と情報科学の学習コミュニティです. • 数学や情報科学は, 誰にとっても役立ち, 趣味としても楽しめるものです. その魅力を伝えるために,
私たちは活動しています. • 輪読会や講座の実施, 記事などのコンテンツ制作を行っています. • X などで宣伝いただけると大変嬉しいです. (#てくますプロジェクト) • 講師はゆっきん(桑原)が担当します. ◦ 数学教師→システムエンジニア→プログラミング講師 ◦ 数学, プログラミング, ボードゲームが好きです. ◦ てくますプロジェクトやボードゲームコミュニティの運営を 行っています.
本講座について • 本講座は統計学を初めて学ぶ方や, 学び直したい方を対象としています. 本講座の前半は高校数学レベル, 後半は大学教養レベルです. 統計検定2級を目指す方にも適した内容です. • 本講座は各回, 前半で知識のインプット,
後半で問題演習を行います. • 高校や大学以外で数学を学ぶことのできる貴重な場です. 数学を学びたい人たちが集まっていますので, ぜひ交流してください! • 本講座作成にあたり, 特に参考にした本を 右に挙げておきます. 2冊ともオススメです.
スケジュール 第1回 データの整理 2024/10/07 第4回 確率分布 2024/12/02 第3回 確率の基本 2024/11/18
第2回 データの散らばり 2024/10/28 第5回 検定の枠組み 2024/12/16 第8回 2標本t検定 2025/02/10 第6回 母平均の検定 2025/01/06 第7回 母分散, 母比率の検定 2025/01/27 本講座は全8回です. 各回の内容は以下の通りです.
目次 1. 分散と標準偏差 データのばらつき(散らばり具合)を表す分散と標準偏差について説明します. 講座の間, ずっと登場する最重要概念です! 2. 共分散と相関係数 2次元データの相関性を表す共分散と相関係数について説明します. (身長が高いほど,
体重が重い傾向にあるなど)
分散と標準偏差
2つのデータについて 次の2つのデータは, 平均値・中央値・最頻値がそれぞれ同じです. では同じ傾向のデータであるかというと, そうとも言えなさそうです. この2つのデータには, どのような傾向の違いがあるでしょうか. 0, 1, 3,
5, 5, 5, 7, 9, 10 データA 3, 4, 4, 5, 5, 5, 6, 6, 7 データB データAよりBの方が, データのばらつきが小さそうです.
データのばらつきを調べる道具 データのばらつきを調べる道具として第1回では四分位範囲を紹介しましたが, 他のよく使う道具とし て, 分散と標準偏差があります. 分散 を求めるステップ 1. データの平均値を求める 2.
各データに対し, データの平均値との差を求める(これを偏差と呼びます) 3. 偏差の2乗の平均値を求める→この値が分散です! 標準偏差 は で求めることができます. • テストの平均点が60点で自分が50点のとき, 「平均点より-10点か」など考えますよね. これが偏差です. • 分散は偏差の2乗の平均値です. ちなみに, 偏差の平均値は0です. • 標準偏差はもとのデータと単位が同じというメリットがあります.
なお, データBは分散が , 標準偏差が よってデータAよりBの方が, 値のばらつきが小さいことが分かりました. 分散と標準偏差を計算してみよう 先ほどのデータAに対し, 分散と標準偏差を求めてみましょう. 0,
1, 3, 5, 5, 5, 7, 9, 10 データA データAの平均値は 5 各データの偏差は順に, -5, -4, -2, 0, 0, 0, 2, 4, 5 よって分散は, 標準偏差は,
分散のもう一つの計算方法 分散は偏差の2乗の平均値が定義ですが, この定義とは別の計算方法があります. もう一つの分散の計算方法:(分散)=(データの2乗の平均値)ー(データの平均値の2乗) <証明> この方法を使って, データAの分散を求めてみましょう. よって分散は (先ほどと同じ結果が得られました!) データAの2乗の平均値は
そのデータは月並みか特殊か テストの平均点が50点に対し, あなたは70点を取ったとします. この70点は月並みな結果でしょうか? それとも特殊な結果でしょうか? 50 80 20 50 60 40
70点はそこまですごくない 70点はすごい! 標準偏差が30のとき 標準偏差が10のとき それは, 標準偏差によります.
そのデータは月並みか特殊か データが月並みか特殊かを調べるには, データが平均値から標準偏差何個分離れているかを調べるとよ いです. データが正規分布(下の釣鐘のような形のグラフ)に従う場合, 平均値から標準偏差±1個分の範囲に約68%のデータが含まれ, 平均値から標準偏差±2個分の範囲に約95%のデータが含まれることが分かっています. 約68% 約95% 標準偏差2個分以上離れていたら,
特殊なデータと言ってよさそう
変数変換(すべてに同じ値を足す) さきほどのデータAのすべてのデータに5が足されたとします. このとき, 平均値, 分散, 標準偏差はそれぞれどのように変化するでしょうか. 0, 1, 3, 5,
5, 5, 7, 9, 10 データA 5, 6, 8, 10, 10, 10, 12, 14, 15 すべてのデータが+5 • 平均値:5増える • 分散:偏差が変わらないので, 変化なし • 標準偏差:分散が変わらないので, 変化なし
変数変換(すべてに同じ値をかける) 今度はデータAのすべてのデータに2がかけられたとします. このとき, 平均値, 分散, 標準偏差はそれぞれどのように変化するでしょうか. 0, 1, 3, 5,
5, 5, 7, 9, 10 データA 0, 2, 6, 10, 10, 10, 14, 18, 20 すべてのデータが2倍 • 平均値:2倍になる • 分散:偏差が2倍なので, 分散は2の2乗=4倍になる • 標準偏差:分散が4倍なので, 標準偏差はルート4=2倍になる
共分散と相関係数
2次元データと散布図 これまでは1次元のデータを取り扱ってきましたが, (身長, 体重) や (数学の得点, 英語の得点) などの2次 元のデータを考えることもできます. 2次元データは散布図によって可視化できます.
相関係数 身長が高ければ高いほど, 体重が重くなる傾向が見受けられます. このように, Xの値が大きいほど, Yの 値も大きくなる傾向があることを正の相関関係と呼びます. 一方, Xの値が大きいほど, Yの値が小さくなる傾向があることを負の相関関係と呼びます.
相関関係は, 相関係数という値で調べることができます. 相関係数は-1以上1以下の値を取り, 相関係数が正だと正の相関関係, 負だと負の相関関係があることが 分かります. 相関係数 -0.8 相関係数 -0.4 相関係数 0 相関係数 0.4 相関係数 0.8 強い負の相関関係 相関関係が 見られない 弱い負の相関関係 弱い正の相関関係 強い正の相関関係
相関係数の計算方法 さて, データXの標準偏差を , データYの標準偏差を , データXとYの共分散を とします. このとき相関係数は で求められます. 相関係数の計算の前に, 共分散について説明します. データXとYの共分散は,「
(Xの偏差)×(Yの偏差)」の平均値 です. (※データXの分散は, 「(Xの偏差)×(Xの偏差)」の平均値だったので, それとよく似ていますね)
相関係数を計算してみよう 次のデータXとYの相関係数を計算しましょう. X 2 4 6 8 10 Y 5
7 6 10 12 -4 -3 16 9 12 -2 -1 4 1 2 0 -2 0 4 0 2 2 4 4 4 4 4 16 16 16 合計 40 34 34 よって, データXとYには, 強い正の相関関係があることが分かる.
まとめ • 分散と標準偏差は, データのばらつきを調べる道具です. ◦ 分散は偏差の2乗の平均値です. ◦ 分散は2乗の平均値ー平均値の2乗でも計算できます. ◦ 標準偏差はルート分散です.
• データが平均値から標準偏差何個分離れているかで, そのデータが月並みか特殊かが分かります. • 変数変換について ◦ すべてのデータにnが足されたとき, 平均値はn増える, 分散は変化なし, 標準偏差は変化なし ◦ すべてのデータがn倍されたとき, 平均値はn倍される, 分散はnの2乗倍される, 標準偏差はn倍さ れる • 相関係数は2次元データの2変数の相関性を調べる道具です. ◦ 相関係数が正だと正の相関があります.(Xの値が大きいほどYの値も大きくなる) ◦ 相関係数が負だと負の相関があります.(Xの値が大きいほどYの値は小さくなる) ◦ XとYの共分散は (Xの偏差)×(Yの偏差)の平均値 です. ◦ 相関係数は(XとYの共分散)/{(Xの標準偏差)×(Yの標準偏差)}です.
演習問題を解こう!