Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Rで学ぶデータハンドリング入門/Introduction_to_Data_Handling_w...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
florets1
September 14, 2025
Business
0
140
Rで学ぶデータハンドリング入門/Introduction_to_Data_Handling_with_R
florets1
September 14, 2025
Tweet
Share
More Decks by florets1
See All by florets1
なぜSQLはAIぽく見えるのか/why does SQL look AI like
florets1
0
550
Tableauとggplot2の背景/Background_of_Tableau_and_ggplot2
florets1
0
66
人工知能はクロスジョインでできている/AI_Is_Built_on_Cross_Joins
florets1
0
95
仮説の取扱説明書/User_Guide_to_a_Hypothesis
florets1
4
440
複式簿記から純資産を排除する/eliminate_net_assets_from_double-entry_bookkeeping
florets1
1
470
カイ二乗検定は何をやっているのか/What_Does_the_Chi-Square_Test_Do
florets1
7
2.5k
直積は便利/direct_product_is_useful
florets1
3
470
butterfly_effect/butterfly_effect_in-house
florets1
1
280
データハンドリング/data_handling
florets1
2
270
Other Decks in Business
See All in Business
ARグラスが当たり前になったら、デザインってどう変わる?Spectrum Tokyo Festival 2026 #spectrumfest26
arisan
0
150
ワンキャリア 会社説明資料 / Company Deck
onecareer
7
280k
株式会社IDOM_FACT BOOK 2026
idompr
0
280
株式会社ネオキャリア_新卒採用ピッチ資料_20260201
neo_recruit
0
2.4k
「事業目線」の正体 〜3つのフェーズのCTO経験から見えてきた、EMが持つべき視点 @ EMConf JP 2026
sotarok
7
2.7k
株式会社ボスコ・テクノロジーズCompany Deck(SI事業部エンジニア編)
boscotechrecruit
1
910
Как готовить большие стратсессии, которые работают, а не имитируют
alexanderbyndyu
0
130
受託開発からtoCプロダクトへ 〜変わったこと・変わらないこと〜 #事業を動かすエンジニア
layerx
PRO
2
290
人々にとってかけがえのないプロダクトを作るには ~顧客の日常に紛れる "not not" を見つけろ!~ #pdmyy
bonotake
2
210
AI推進における「勝手に広がる仕組み」の」作り方
notty
2
180
TROCCO × Terraform × AI で kintone 連携も IaC 化 / TROCCO × Terraform × AI for kintone
medley
0
260
プレイド概要説明資料_2025/12
plaid
PRO
0
110
Featured
See All Featured
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.5k
Game over? The fight for quality and originality in the time of robots
wayneb77
1
140
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
1
1.3k
Agile that works and the tools we love
rasmusluckow
331
21k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Accessibility Awareness
sabderemane
0
80
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
100
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
1
320
Ethics towards AI in product and experience design
skipperchong
2
220
4 Signs Your Business is Dying
shpigford
187
22k
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
710
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.2k
Transcript
1 2025.09.20 Tokyo.R #119 Rで学ぶデータハンドリング入門 - 雑然データから整然データへ -
2 今日のテーマ • Rでのデータ操作例(tidyverse) • データ分析に役立つデータ整理術 整然データ(tidy data)という考え方
3 例:応募者の選考データ 雑然データ.csv 整然データ.csv
4 雑然データ.csv • 一行に一人の応募者 • 変数「選考段階」の値である一次、二次が列として存在 一見わかりやすく感じる
5 整然データ.csv • 応募者NOと選考段階でユニーク
6 整然データは扱いやすい(1) データを読み込む
7 整然データは扱いやすい(2) 一次・二次ごとの合否を簡単に集計できる!
8 整然データは扱いやすい(3) 通過人数だけを抽出
9 整然データは扱いやすい(4) 選考段階で並べ替え
10 整然データは扱いやすい(5) 上の行の件数を取得
11 整然データは扱いやすい(6) 選考段階が三次、四次と増えてもコードはそのまま!
12 雑然データは扱いにくい(1) 選考段階ごとにコード追加が必要
13 雑然データは扱いにくい(2) 選考段階ごとにコード追加が必要
14 雑然データは扱いにくい(3) 選考段階ごとにコード追加が必要
15 雑然データは扱いにくい(4) 選考段階が増えるたびにコード追加が必要
16 雑然データを整然データに変換 雑然データ.csv pivot_longer
17 変換できたら後は同じ
18 整然データの定義 1.各変数は列に 2.各観測は行に 3.各観測単位は1テーブルに 4.各値はセルに
19 定義の確認(雑然データ.csv) • 1つの変数(選考段階)が複数の列(一次、二次)に割れている→NG • 1つの行に複数の観測(一次の結果、二次の結果)が入っている→NG
20 定義の確認(整然データ.csv) • 変数=列 • 観測=行 整然データの定義を満たしている
21 定義の確認(各観測は1テーブルに) 1.ひとつのテーブルに種類の違う観測が入っては ならない 2.同じ種類の観測が複数のテーブルにまたがって はならない
22 定義の確認(各観測は1テーブルに) ひとつのテーブルに種類の違う観測が入ってはならない • 応募者名は「応募者」という単位の観測 • 選考段階や合否結果は「選考」という単位の観測 本来は「応募者」テーブルと「選考」テーブルに分けるべき
23 定義の確認(各観測は1テーブルに) ひとつのテーブルに種類の違う観測が入ってはならない • 応募者テーブル:応募者NOをキーとして応募者の情報をまとめる • 選考テーブル:応募者NOと選考段階をキーにして合否を記録する 分ける 選考 応募者
選考データに応募者の情報 観測単位が違うものは別のテーブルにしておくことで、矛盾を防ぎ、管理が楽になる
24 定義の確認(各観測は1テーブルに) なぜテーブルを分けるのか • 応募者名を選考テーブルの各行に書いてしまう と誤って違う名前が入る可能性がある。 • 応募者の名前変更があった場合に全ての行を 修正しなければならない。
25 定義の確認(各観測は1テーブルに) 1月応募.csv 2月応募.csv 3月応募.csv つなげる 同じ種類の観測が複数のテーブルにまたがってはならない
26 定義の確認(各値はセルに) 悪い例 • 「面接者」カラムに「伊藤、山本」のように複数の名前 • 分析するとき、「誰が面接したのか」を集計するのが難しい
27 定義の確認(各値はセルに) よい例 • 「選考」テーブルと「面接者」テーブルに分ける • 「面接者」テーブルは一行に一面接者 分ける 面接者 選考
まとめ • 雑然データは処理が大変 • 整然データにすればコードが単純に、データ分析が楽に なる 「雑然データだから苦労しているのかも」と考えてみよう 28