R Workshop for beginners

Workshop for R 〜Rを使ってデータ解析をやってみよう！〜

名前：平山優花所属：専修大学人間科学部心理学科4年関心：医療、福祉、予防、公衆衛生　　　心理学、データを用いた意思決定 ... etc 自己紹介

目次 1. アナリティクス概要 2.「R」入門 3. データ分析入門 4. データ分析実践今回は参加者がR経験者であったことから、1. ~
2. を省略し 3. ~ 4. に焦点を当てます！

2. データ分析入門 - 1 ① Rの基本的な操作とデータ型を理解しよう！ - データのインポートとエクスポート - データフレームと行列の基本的な操作
② データの前処理をやってみよう！ - 機械処理がしやすいデータって何？ - データの整形 - データの操作 ④ データのクリーニングをやってみよう！ - 欠損値の処理 - 異常値の処理 - 外れ値の処理 - データのスケーリングと正規化 ⑤ データの可視化をやってみよう！ - 基本的なグラフの描画方法 - 散布図行列、ヒストグラム

３. データ分析入門 - 2 ④ 基本的なデータ分析の手法を使ってデータを分析してみよう！ - t 検定 -
カイ二乗検定 - 適合度の検定 - 独立性の検定 - 回帰分析 - クロスセッションデータを用いる場合 - 時系列データを用いる場合 - 「はい」「いいえ」のデータを用いる場合

なぜ、データ分析を学ぶの？？ >> 組織や個人がより良い意思決定を　するため。

データの前処理をやってみよう！名前算数国語理科社会生徒A 100 80 60
40 生徒B 100 100 100 20 表1. 名前教科点数生徒A 算数 100 生徒A 国語 80 生徒A 理科 60 生徒A 社会 40 生徒B 算数 100 生徒B 国語 100 生徒B 理科 100 生徒B 社会 20 表2. Q. どちらの表が見やすいですか？ Q. どちらが優れたデータ形式でしょうか？

データの前処理をやってみよう！ ① 機械処理がしやすいデータって何？ - 機械処理がしやすいデータとは？　＞＞ tidy data…「tidyな（整然）」データ Hadley Wickham氏の定義： tidy
dataとは以下の条件を満たすデータのことである。 - 1.1つの列が1つの変数を表す - 2. 1つの行が1つの観測を表す - 3. 1つのテーブルが1つのデータセットだけを表す

データの前処理をやってみよう！ Hadley Wickhamの定義： tidy dataとは以下の条件を満たすデータのことである。 - 1.1つの列が1つの変数を表す - 2. 1つの行が1つの観測を表す
- 3. 1つのテーブルが1つのデータセットだけを表す

データの前処理をやってみよう！ ② 関数を使って、実際にデータを整形してみよう！使う関数： pivot_longer() ... 横→縦 pivot_wider() … 縦→横

データの前処理をやってみよう！ pivot_longer(データ, cols = c ( 変形する対象の列1, 変形する対象の列2, …）, names_to
= “キーの列の名前”, values_to = “値の列の名前” ） pivot_longer()の基本的な記述形式：

データの前処理をやってみよう！ pivot_longer()を使って、表1のデータセットの整形をやってみよう！表1をデータフレームとして作成するには？： score_messy <- data.frame( 名前 = c (
“生徒A”, “生徒B”), 算数 = c ( 100, 100), 国語 = c ( 80, 100), 理科 = c ( 60, 100), 社会 = c ( 40, 20) )

やってみよう！

データの前処理をやってみよう！ ③mpgデータセットを用いて、データ絞り込みや並べ替えをやってみよう！ mpg データセットとは？... - 1999年と2008年に製造された車両の燃費についてのデータセット - 各車両のメーカー、シリンダ数、車種などの情報が含まれています操作コード
列の絞り込み select(カラム名1, カラム名2,...) 行の絞り込み filter(条件1, 条件2,...）列の並べ替え relocate(列1, 列2…）行の並べ替え arrange(列1, 列2,....）列の追加例）mutate(cyl_6 = if_else(cyl >= 6,"6以上","6未満"))

データの可視化をやってみよう！ displデータのヒストグラムでの可視化 displデータの密度プロットでの可視化

データの可視化をやってみよう！散布図に近似直線を追加

データの可視化をやってみよう！特定のデータを比較してみよう！

やってみよう！今日はここまで...！

4. データ分析実践 Web上のオープンデータを用いて、データ分析を実践してみよう！ - インターネット上にはオープンソースのデータベースが色々ある ... 例） PISA e-STAT WHO
World Bank OECD

参加していただき、ありがとうございました！

1. 何を明らかにしたいのか？（大きな目的）例：植物の多様性はどのような環境条件に影響されるのか？ 2. そのために何を調べるのか？（研究の目的）例：特定の地点の植物種数と環境条件の関係を調べる - 1.の目的と合致しているか？ 3. 検証したい仮説は何か？
例：日当たりが良いほうが植物種が多い - 仮説の根拠は？ - データがどうなったら仮説が支持されるのか？データ分析プロジェクトの流れの 1例

4. どのようにデータをとるか決める（現実的な範囲で）・自分たちでデータを取る - ちょっと大変だけど楽しい - 計画したとおりのデータが得られる - 例：日当たりが良い30地点と悪い30地点の種数を調べる -
日当たりが良い／悪いはどう定義するか？ - 植物種はどのように同定するか？ 5. 誰かが調べたデータを調べる - 良いデータを見つければ大量のデータが得られる - 調べたいことにぴったりのデータがあるとは限らない - データの読み込みが意外と大変（csvじゃなかったりする）

参加していただき、ありがとうございました！

R Workshop for beginners

R Workshop for beginners

Yuka Hirayama

More Decks by Yuka Hirayama

Featured

Transcript

Workshop for R 〜Rを使ってデータ解析をやってみよう！〜

名前：平山優花所属：専修大学人間科学部心理学科4年関心：医療、福祉、予防、公衆衛生　　　心理学、データを用いた意思決定 ... etc 自己紹介

目次 1. アナリティクス概要 2.「R」入門 3. データ分析入門 4. データ分析実践今回は参加者がR経験者であったことから、1. ~

2. データ分析入門 - 1 ① Rの基本的な操作とデータ型を理解しよう！ - データのインポートとエクスポート - データフレームと行列の基本的な操作

３. データ分析入門 - 2 ④ 基本的なデータ分析の手法を使ってデータを分析してみよう！ - t 検定 -

なぜ、データ分析を学ぶの？？ >> 組織や個人がより良い意思決定を　するため。

データの前処理をやってみよう！名前算数国語理科社会生徒A 100 80 60

データの前処理をやってみよう！ ① 機械処理がしやすいデータって何？ - 機械処理がしやすいデータとは？　＞＞ tidy data…「tidyな（整然）」データ Hadley Wickham氏の定義： tidy

データの前処理をやってみよう！ Hadley Wickhamの定義： tidy dataとは以下の条件を満たすデータのことである。 - 1.1つの列が1つの変数を表す - 2. 1つの行が1つの観測を表す

データの前処理をやってみよう！ ② 関数を使って、実際にデータを整形してみよう！使う関数： pivot_longer() ... 横→縦 pivot_wider() … 縦→横

データの前処理をやってみよう！ pivot_longer(データ, cols = c ( 変形する対象の列1, 変形する対象の列2, …）, names_to

データの前処理をやってみよう！ pivot_longer()を使って、表1のデータセットの整形をやってみよう！表1をデータフレームとして作成するには？： score_messy <- data.frame( 名前 = c (

やってみよう！

やってみよう！

データの可視化をやってみよう！ displデータのヒストグラムでの可視化 displデータの密度プロットでの可視化

やってみよう！

データの可視化をやってみよう！散布図に近似直線を追加

やってみよう！

データの可視化をやってみよう！特定のデータを比較してみよう！

やってみよう！今日はここまで...！

4. データ分析実践 Web上のオープンデータを用いて、データ分析を実践してみよう！ - インターネット上にはオープンソースのデータベースが色々ある ... 例） PISA e-STAT WHO

参加していただき、ありがとうございました！

4. どのようにデータをとるか決める（現実的な範囲で）・自分たちでデータを取る - ちょっと大変だけど楽しい - 計画したとおりのデータが得られる - 例：日当たりが良い30地点と悪い30地点の種数を調べる -

やってみよう！

参加していただき、ありがとうございました！