Upgrade to Pro — share decks privately, control downloads, hide ads and more …

R Workshop for beginners

Yuka Hirayama
December 11, 2023
9

R Workshop for beginners

Yuka Hirayama

December 11, 2023
Tweet

Transcript

  1. 2. データ分析入門 - 1 ① Rの基本的な操作とデータ型を理解しよう! - データのインポートとエクスポート - データフレームと行列の基本的な操作

    ② データの前処理をやってみよう! - 機械処理がしやすいデータって何? - データの整形 - データの操作 ④ データのクリーニングをやってみよう! - 欠損値の処理 - 異常値の処理 - 外れ値の処理 - データのスケーリングと正規化 ⑤ データの可視化をやってみよう! - 基本的なグラフの描画方法 - 散布図行列、ヒストグラム
  2. 3. データ分析入門 - 2 ④ 基本的なデータ分析の手法を使ってデータを分析してみよう! - t 検定 -

    カイ二乗検定 - 適合度の検定 - 独立性の検定 - 回帰分析 - クロスセッションデータを用いる場合 - 時系列データを用いる場合 - 「はい」「いいえ」のデータを用いる場合
  3. データの前処理をやってみよう! 名前 算数 国語 理科 社会 生徒A 100 80 60

    40 生徒B 100 100 100 20 表1. 名前 教科 点数 生徒A 算数 100 生徒A 国語 80 生徒A 理科 60 生徒A 社会 40 生徒B 算数 100 生徒B 国語 100 生徒B 理科 100 生徒B 社会 20 表2. Q. どちらの表が見やすいですか? Q. どちらが優れたデータ形式でしょうか?
  4. データの前処理をやってみよう! ① 機械処理がしやすいデータって何? - 機械処理がしやすいデータとは? >> tidy data…「tidyな(整然)」データ Hadley Wickham氏の定義: tidy

    dataとは以下の条件を満たすデータのことである。 - 1.1つの列が1つの変数を表す - 2. 1つの行が1つの観測を表す - 3. 1つのテーブルが1つのデータセットだけを表す
  5. データの前処理をやってみよう! pivot_longer(データ, cols = c ( 変形する対象の列1, 変形する対象の列2, …), names_to

    = “キーの列の名前”, values_to = “値の列の名前” ) pivot_longer()の基本的な記述形式:
  6. データの前処理をやってみよう! ③mpgデータセットを用いて、データ絞り込みや並べ替えをやってみよう! mpg データセットとは?... - 1999年と2008年に製造された車両の燃費についてのデータセット - 各車両のメーカー、シリンダ数、車種などの情報が含まれています 操作 コード

    列の絞り込み select(カラム名1, カラム名2,...) 行の絞り込み filter(条件1, 条件2,...) 列の並べ替え relocate(列1, 列2…) 行の並べ替え arrange(列1, 列2,....) 列の追加 例)mutate(cyl_6 = if_else(cyl >= 6,"6以上","6未満"))
  7. 4. どのようにデータをとるか決める(現実的な範囲で) ・自分たちでデータを取る - ちょっと大変だけど楽しい - 計画したとおりのデータが得られる - 例:日当たりが良い30地点と悪い30地点の種数を調べる -

    日当たりが良い/悪いはどう定義するか? - 植物種はどのように同定するか? 5. 誰かが調べたデータを調べる - 良いデータを見つければ大量のデータが得られる - 調べたいことにぴったりのデータがあるとは限らない - データの読み込みが意外と大変(csvじゃなかったりする)