Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
R Workshop for beginners
Search
Yuka Hirayama
December 11, 2023
0
9
R Workshop for beginners
Yuka Hirayama
December 11, 2023
Tweet
Share
More Decks by Yuka Hirayama
See All by Yuka Hirayama
Health Education WS for High school students in Cambodia
yukahirayama
1
13
Featured
See All Featured
GraphQLの誤解/rethinking-graphql
sonatard
67
10k
StorybookのUI Testing Handbookを読んだ
zakiyama
27
5.3k
Statistics for Hackers
jakevdp
796
220k
Code Reviewing Like a Champion
maltzj
520
39k
Scaling GitHub
holman
458
140k
The Cost Of JavaScript in 2023
addyosmani
45
7k
Six Lessons from altMBA
skipperchong
27
3.5k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.9k
Speed Design
sergeychernyshev
25
670
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
48
2.2k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.3k
The Pragmatic Product Professional
lauravandoore
32
6.3k
Transcript
Workshop for R 〜Rを使ってデータ解析をやってみよう!〜
名前:平山優花 所属:専修大学人間科学部心理学科4年 関心:医療、福祉、予防、公衆衛生 心理学、データを用いた意思決定 ... etc 自己紹介
目次 1. アナリティクス概要 2.「R」入門 3. データ分析入門 4. データ分析実践 今回は参加者がR経験者であったことから、1. ~
2. を省略し 3. ~ 4. に焦点を当てます!
2. データ分析入門 - 1 ① Rの基本的な操作とデータ型を理解しよう! - データのインポートとエクスポート - データフレームと行列の基本的な操作
② データの前処理をやってみよう! - 機械処理がしやすいデータって何? - データの整形 - データの操作 ④ データのクリーニングをやってみよう! - 欠損値の処理 - 異常値の処理 - 外れ値の処理 - データのスケーリングと正規化 ⑤ データの可視化をやってみよう! - 基本的なグラフの描画方法 - 散布図行列、ヒストグラム
3. データ分析入門 - 2 ④ 基本的なデータ分析の手法を使ってデータを分析してみよう! - t 検定 -
カイ二乗検定 - 適合度の検定 - 独立性の検定 - 回帰分析 - クロスセッションデータを用いる場合 - 時系列データを用いる場合 - 「はい」「いいえ」のデータを用いる場合
なぜ、データ分析を学ぶの?? >> 組織や個人がより良い意思決定を するため。
データの前処理をやってみよう! 名前 算数 国語 理科 社会 生徒A 100 80 60
40 生徒B 100 100 100 20 表1. 名前 教科 点数 生徒A 算数 100 生徒A 国語 80 生徒A 理科 60 生徒A 社会 40 生徒B 算数 100 生徒B 国語 100 生徒B 理科 100 生徒B 社会 20 表2. Q. どちらの表が見やすいですか? Q. どちらが優れたデータ形式でしょうか?
データの前処理をやってみよう! ① 機械処理がしやすいデータって何? - 機械処理がしやすいデータとは? >> tidy data…「tidyな(整然)」データ Hadley Wickham氏の定義: tidy
dataとは以下の条件を満たすデータのことである。 - 1.1つの列が1つの変数を表す - 2. 1つの行が1つの観測を表す - 3. 1つのテーブルが1つのデータセットだけを表す
データの前処理をやってみよう! Hadley Wickhamの定義: tidy dataとは以下の条件を満たすデータのことである。 - 1.1つの列が1つの変数を表す - 2. 1つの行が1つの観測を表す
- 3. 1つのテーブルが1つのデータセットだけを表す
データの前処理をやってみよう! ② 関数を使って、実際にデータを整形してみよう! 使う関数: pivot_longer() ... 横→縦 pivot_wider() … 縦→横
データの前処理をやってみよう! pivot_longer(データ, cols = c ( 変形する対象の列1, 変形する対象の列2, …), names_to
= “キーの列の名前”, values_to = “値の列の名前” ) pivot_longer()の基本的な記述形式:
データの前処理をやってみよう! pivot_longer()を使って、表1のデータセットの整形をやってみよう! 表1をデータフレームとして作成するには?: score_messy <- data.frame( 名前 = c (
“生徒A”, “生徒B”), 算数 = c ( 100, 100), 国語 = c ( 80, 100), 理科 = c ( 60, 100), 社会 = c ( 40, 20) )
やってみよう!
データの前処理をやってみよう! ③mpgデータセットを用いて、データ絞り込みや並べ替えをやってみよう! mpg データセットとは?... - 1999年と2008年に製造された車両の燃費についてのデータセット - 各車両のメーカー、シリンダ数、車種などの情報が含まれています 操作 コード
列の絞り込み select(カラム名1, カラム名2,...) 行の絞り込み filter(条件1, 条件2,...) 列の並べ替え relocate(列1, 列2…) 行の並べ替え arrange(列1, 列2,....) 列の追加 例)mutate(cyl_6 = if_else(cyl >= 6,"6以上","6未満"))
やってみよう!
データの可視化をやってみよう! displデータのヒストグラムでの可視化 displデータの密度プロットでの可視化
やってみよう!
データの可視化をやってみよう! 散布図に近似直線を追加
やってみよう!
データの可視化をやってみよう! 特定のデータを比較してみよう!
やってみよう! 今日はここまで...!
4. データ分析実践 Web上のオープンデータを用いて、データ分析を実践してみよう! - インターネット上にはオープンソースのデータベースが色々ある ... 例) PISA e-STAT WHO
World Bank OECD
参加していただき、 ありがとうございました!
1. 何を明らかにしたいのか?(大きな目的) 例:植物の多様性はどのような環境条件に影響されるのか? 2. そのために何を調べるのか?(研究の目的) 例:特定の地点の植物種数と環境条件の関係を調べる - 1.の目的と合致しているか? 3. 検証したい仮説は何か?
例:日当たりが良いほうが植物種が多い - 仮説の根拠は? - データがどうなったら仮説が支持されるのか? データ分析プロジェクトの流れの 1例
4. どのようにデータをとるか決める(現実的な範囲で) ・自分たちでデータを取る - ちょっと大変だけど楽しい - 計画したとおりのデータが得られる - 例:日当たりが良い30地点と悪い30地点の種数を調べる -
日当たりが良い/悪いはどう定義するか? - 植物種はどのように同定するか? 5. 誰かが調べたデータを調べる - 良いデータを見つければ大量のデータが得られる - 調べたいことにぴったりのデータがあるとは限らない - データの読み込みが意外と大変(csvじゃなかったりする)
やってみよう!
参加していただき、 ありがとうございました!