Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Rで学ぶデータハンドリング入門/Introduction_to_Data_Handling_w...
Search
florets1
September 14, 2025
Business
0
110
Rで学ぶデータハンドリング入門/Introduction_to_Data_Handling_with_R
florets1
September 14, 2025
Tweet
Share
More Decks by florets1
See All by florets1
人工知能はクロスジョインでできている/AI_Is_Built_on_Cross_Joins
florets1
0
67
仮説の取扱説明書/User_Guide_to_a_Hypothesis
florets1
4
410
複式簿記から純資産を排除する/eliminate_net_assets_from_double-entry_bookkeeping
florets1
1
420
カイ二乗検定は何をやっているのか/What_Does_the_Chi-Square_Test_Do
florets1
7
2.4k
直積は便利/direct_product_is_useful
florets1
3
430
butterfly_effect/butterfly_effect_in-house
florets1
1
250
データハンドリング/data_handling
florets1
2
250
カイ二乗検定との遭遇/The_path_to_encountering_the_chi-square_test
florets1
1
310
率の平均を求めてはいけない/Do_Not_Average_Rates
florets1
11
16k
Other Decks in Business
See All in Business
malna-recruiting-pitch
malna
0
11k
人が辞めても困らない職場へ - AIでノウハウがたまる仕組み、文化を作る実践術
nkajihara
4
1.5k
Recept_Culture deck
shokennakase
0
590
テオリア・テクノロジーズ:About Us
theoriatec2024
2
41k
Rakus Career Introduction
rakus_career
0
420k
ウィルゲート開発組織の紹介 / willgate engineering team
willgate
0
340k
ファーストピンの気持ち
in0u
1
110
【リクロマ株式会社】20251026_会社紹介資料
takahiro4545
0
230
三井物産グループのデジタル証券〜ザ ロイヤルパークホテル 東京汐留〜再販売②徹底解説セミナースライド(20251008)
c0rp_mdm
PRO
1
510
日本マーケティング学会2025発表_組織の市場志向形成におけるバウンダリースパナー行動とマーケターの越境的役割
nazoru
PRO
0
370
Gemini と NotebookLM を組み合わせて 目標設定の負荷を軽減する方法 / Goal setting with gemini and notebooklm
tbpgr
21
41k
生成AI×個人情報保護法 ― 改正動向から読み解く実務の行方
seko_shuhei
5
2.2k
Featured
See All Featured
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.7k
Stop Working from a Prison Cell
hatefulcrawdad
272
21k
Statistics for Hackers
jakevdp
799
220k
The Invisible Side of Design
smashingmag
302
51k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
34
2.3k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
How to train your dragon (web standard)
notwaldorf
97
6.4k
Designing Experiences People Love
moore
142
24k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
GraphQLとの向き合い方2022年版
quramy
49
14k
A Tale of Four Properties
chriscoyier
162
23k
Transcript
1 2025.09.20 Tokyo.R #119 Rで学ぶデータハンドリング入門 - 雑然データから整然データへ -
2 今日のテーマ • Rでのデータ操作例(tidyverse) • データ分析に役立つデータ整理術 整然データ(tidy data)という考え方
3 例:応募者の選考データ 雑然データ.csv 整然データ.csv
4 雑然データ.csv • 一行に一人の応募者 • 変数「選考段階」の値である一次、二次が列として存在 一見わかりやすく感じる
5 整然データ.csv • 応募者NOと選考段階でユニーク
6 整然データは扱いやすい(1) データを読み込む
7 整然データは扱いやすい(2) 一次・二次ごとの合否を簡単に集計できる!
8 整然データは扱いやすい(3) 通過人数だけを抽出
9 整然データは扱いやすい(4) 選考段階で並べ替え
10 整然データは扱いやすい(5) 上の行の件数を取得
11 整然データは扱いやすい(6) 選考段階が三次、四次と増えてもコードはそのまま!
12 雑然データは扱いにくい(1) 選考段階ごとにコード追加が必要
13 雑然データは扱いにくい(2) 選考段階ごとにコード追加が必要
14 雑然データは扱いにくい(3) 選考段階ごとにコード追加が必要
15 雑然データは扱いにくい(4) 選考段階が増えるたびにコード追加が必要
16 雑然データを整然データに変換 雑然データ.csv pivot_longer
17 変換できたら後は同じ
18 整然データの定義 1.各変数は列に 2.各観測は行に 3.各観測単位は1テーブルに 4.各値はセルに
19 定義の確認(雑然データ.csv) • 1つの変数(選考段階)が複数の列(一次、二次)に割れている→NG • 1つの行に複数の観測(一次の結果、二次の結果)が入っている→NG
20 定義の確認(整然データ.csv) • 変数=列 • 観測=行 整然データの定義を満たしている
21 定義の確認(各観測は1テーブルに) 1.ひとつのテーブルに種類の違う観測が入っては ならない 2.同じ種類の観測が複数のテーブルにまたがって はならない
22 定義の確認(各観測は1テーブルに) ひとつのテーブルに種類の違う観測が入ってはならない • 応募者名は「応募者」という単位の観測 • 選考段階や合否結果は「選考」という単位の観測 本来は「応募者」テーブルと「選考」テーブルに分けるべき
23 定義の確認(各観測は1テーブルに) ひとつのテーブルに種類の違う観測が入ってはならない • 応募者テーブル:応募者NOをキーとして応募者の情報をまとめる • 選考テーブル:応募者NOと選考段階をキーにして合否を記録する 分ける 選考 応募者
選考データに応募者の情報 観測単位が違うものは別のテーブルにしておくことで、矛盾を防ぎ、管理が楽になる
24 定義の確認(各観測は1テーブルに) なぜテーブルを分けるのか • 応募者名を選考テーブルの各行に書いてしまう と誤って違う名前が入る可能性がある。 • 応募者の名前変更があった場合に全ての行を 修正しなければならない。
25 定義の確認(各観測は1テーブルに) 1月応募.csv 2月応募.csv 3月応募.csv つなげる 同じ種類の観測が複数のテーブルにまたがってはならない
26 定義の確認(各値はセルに) 悪い例 • 「面接者」カラムに「伊藤、山本」のように複数の名前 • 分析するとき、「誰が面接したのか」を集計するのが難しい
27 定義の確認(各値はセルに) よい例 • 「選考」テーブルと「面接者」テーブルに分ける • 「面接者」テーブルは一行に一面接者 分ける 面接者 選考
まとめ • 雑然データは処理が大変 • 整然データにすればコードが単純に、データ分析が楽に なる 「雑然データだから苦労しているのかも」と考えてみよう 28