Upgrade to Pro — share decks privately, control downloads, hide ads and more …

パーマーステーションのペンギンたち#3 探索的データ分析(EDA)編

bob3bob3
September 02, 2023

パーマーステーションのペンギンたち#3 探索的データ分析(EDA)編

パーマーステーションのペンギンたち#3
探索的データ分析(EDA)編
Tokyo.R #108 (2023/09/02)

#TokyoR
#R言語
#rstatsj

bob3bob3

September 02, 2023
Tweet

More Decks by bob3bob3

Other Decks in Programming

Transcript

  1. 探索的データ分析とは? • Exploratory Data Analysis、EDA。
 • 分析対象であるデータに対する理解を 深めるプロセスのことを指す。
 • 個々の変数の特性や変数間の関係を

    把握することが目的で、その手段として 要約統計量や可視化が用いられる。 
 • 分析するデータが手に入ったらまずは EDA!
 • John Tukey さん(1915 – 2000)が提唱し ました。箱ひげ図を提唱したことでも有 名。コンピューター用語の bit を作ったこ とでも知られる。
 引用元
  2. 2つのデータセット penguins_raw 生のデータ
 • 17変数
 • studyName: 研究名(越冬隊ごと?) 
 •

    Sample Number: 標本番号(連番) 
 • Species: ペンギンの種(学名付き) 
 • Region: 調査した地域 
 • Island: 調査した島 
 • Stage: 発育段階 
 • Individual ID: 個体ID 
 • Clutch Completion: 巣の完成度 
 • Date Egg: 巣に1個以上の卵が確認された日? 
 • Culmen Length (mm): くちばしの長さ 
 • Culmen Depth (mm): くちばしの高さ 
 • Flipper Length (mm): 翼の長さ 
 • Body Mass (g): 体重 
 • Sex: 性別
 • Delta 15 N (o/oo): 窒素同位体比(δ15N) 
 • Delta 13 C (o/oo): 炭素同位体比(δ13C) 
 • Comments: コメント 
 penguins 使いやすく加工されたデータ 
 • 8変数
 • species: ペンギンの種 
 • island: 調査した島 
 • bill_length_mm: くちばしの長さ 
 • bill_depth_mm: くちばしの高さ 
 • flipper_length_mm: 翼の長さ 
 • body_mass_g: 体重 
 • sex: 性別
 • year: 調査した年 
 Artwork by @allison_horst
  3. 2つのデータセット penguins_raw 生のデータ
 • 17変数
 • studyName: 研究名(越冬隊ごと?) 
 •

    Sample Number: 標本番号(連番) 
 • Species: ペンギンの種(学名付き) 
 • Region: 調査した地域 
 • Island: 調査した島 
 • Stage: 発育段階 
 • Individual ID: 個体ID 
 • Clutch Completion: 巣の完成度 
 • Date Egg: 巣に1個以上の卵が確認された日? 
 • Culmen Length (mm): くちばしの長さ 
 • Culmen Depth (mm): くちばしの高さ 
 • Flipper Length (mm): 翼の長さ 
 • Body Mass (g): 体重 
 • Sex: 性別
 • Delta 15 N (o/oo): 窒素同位体比(δ15N) 
 • Delta 13 C (o/oo): 炭素同位体比(δ13C) 
 • Comments: コメント 
 penguins 使いやすく加工されたデータ 
 • 8変数
 • species: ペンギンの種 
 • island: 調査した島 
 • bill_length_mm: くちばしの長さ 
 • bill_depth_mm: くちばしの高さ 
 • flipper_length_mm: 翼の長さ 
 • body_mass_g: 体重 
 • sex: 性別
 • year: 調査した年 
 Artwork by @allison_horst 今日使うのは こっち。
  4. まずはデータを確認 # summary()の超強力版 library(summarytools) penguins |> dfSummary() |> view() summarytoolsパッケージ。

    データの概要を確認するのに非常に便 利。 分布の形、欠損値の有無、名義尺度や 順序尺度のカテゴリ数数などを確認して おきたい。
  5. 2変量の分析(名義尺度×連続変数) • 箱ひげ図、バイオリンプロット、ジッタ ―プロッ トの重ね書き ◦ raincloud plot がいいけれど、ちょっと手間な ので簡易版として。

    penguins |> ggplot(aes(x = species, y = body_mass_g)) + geom_violin(aes(fill=species)) + geom_boxplot(width=0.1) + geom_jitter(width=0.2, height=0, alpha=0.3)
  6. to be continued... 今後の予定: 1. データセットの紹介(前々回) 2. データクリーニング(前回) 3. 探索的データ分析(EDA)(今回)

    4. 分析例 ◦ シンプソンのパラドクス ◦ 次元縮約 ◦ クラスタリング ◦ 判別モデル ◦ などなど 次回はついに分析例だよ! いつになる ことやら…… お楽しみに!