Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
validateパッケージでデータを検証する / Data Validation with v...
Search
松村優哉
February 19, 2022
Programming
0
530
validateパッケージでデータを検証する / Data Validation with validate package
松村優哉
February 19, 2022
Tweet
Share
More Decks by 松村優哉
See All by 松村優哉
はじめての機械学習 / entrance-to-machine-learning2022
y__mattu
2
1.1k
rstanの環境構築 / Set Up rstan
y__mattu
1
1.1k
R言語とGo言語 / R and Go
y__mattu
1
910
はじめての機械学習 / Entrance to Machine Learning
y__mattu
0
700
平均値と中央値の違いについて
y__mattu
1
830
dplyr 1.0.0の新機能 / dplyr 1.0.0
y__mattu
2
9.8k
Other Decks in Programming
See All in Programming
KMP와 kotlinx.rpc로 서버와 클라이언트 동기화
kwakeuijin
0
300
rails newと同時に型を書く
aki19035vc
5
710
PHPカンファレンス 2024|共創を加速するための若手の技術挑戦
weddingpark
0
140
盆栽転じて家具となる / Bonsai and Furnitures
aereal
0
1.9k
快速入門可觀測性
blueswen
0
500
サーバーゆる勉強会 DBMS の仕組み編
kj455
1
300
ドメインイベント増えすぎ問題
h0r15h0
2
570
[JAWS-UG横浜 #80] うわっ…今年のServerless アップデート、少なすぎ…?
maroon1st
0
100
ISUCON14感想戦で85万点まで頑張ってみた
ponyo877
1
590
Асинхронность неизбежна: как мы проектировали сервис уведомлений
lamodatech
0
1.3k
ゼロからの、レトロゲームエンジンの作り方
tokujiros
3
1.1k
선언형 UI에서의 상태관리
l2hyunwoo
0
270
Featured
See All Featured
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
173
51k
Optimising Largest Contentful Paint
csswizardry
33
3k
Into the Great Unknown - MozCon
thekraken
34
1.6k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
98
18k
Side Projects
sachag
452
42k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
3
240
[RailsConf 2023] Rails as a piece of cake
palkan
53
5.1k
The Cult of Friendly URLs
andyhume
78
6.1k
Speed Design
sergeychernyshev
25
740
How to train your dragon (web standard)
notwaldorf
89
5.8k
Embracing the Ebb and Flow
colly
84
4.5k
KATA
mclloyd
29
14k
Transcript
validate パッケージで データを検証する @y__mattu 2022-02-19 HiRoshima.R #7 LT
誰︖ • 松村優哉 • 出⾝: 計量経済、ベイズ統計、 因果推論 • お仕事: データサイエンティスト&
データエンジニア in 広告会社 • ⾔語: R, Python • Tokyo.R, Japan.R運営 • 近況:2⽉に転職しました︕
宣伝 Rユーザのための RStudio[実践]⼊⾨ 第2版 好評発売中!!
今⽇のお話 • 統計的データクリーニングについて • validateパッケージの紹介
データクリーニングとは • データクリーニング≒データ前処理の最も基本的な部分 • 数値表現の統⼀ • ⽇付型の統⼀ • ⽂字列の正規化・前処理 •
⽋測データの特定・補完 • エラーデータの特定・修正 • 今⽇の話題は、エラーデータの特定、つまりデータ検証がメイン 統計的な処理が必要な領域
データ検証の必要性 • データは意図せず変化してしまう • 前処理⼯程のミス • 集計のミス • そもそもデータソースの時点で変なデータが含まれている •
適当なタイミングで、⽬の前のデータが「正しいか」の検証(バリ デーション)を⼊れると良い データの読み込み データの前処理 分析・可視化 処理1 処理2 処理3 検証 検証 検証
validateパッケージ • CRANからインストール • 使うデータをロード
retailersデータ • 架空の⼩売業者の財務データ
check_that()による簡単なチェック ルールを記述。ここでは以下の2つ - 売上⾼は0より⼤きい - 従業員⼀⼈当たりの⼈件費は50(50,000ギルダー)未満
検証結果の可視化
検証ルール作成、適⽤、結果確認の分離 検証 ルール 作成 適⽤ 確認 validate::validator() validate::confront() summary(), validate::aggregate()
ルール 作成 適⽤
検証ルールの作成⽅法(発展編1) • レコード間での⽭盾のチェック • 例: 市と通りが同じなら郵便版後も同じでなくてはならない • 簡単なデータで検証 2レコード⽬が間違い
検証ルールの作成⽅法(発展編1) • レコード間での⽭盾のチェック • 例: 市と通りが同じなら郵便版後も同じでなくてはならない ルールをチルダでつなぐ
検証ルールの作成⽅法(発展編2) • マクロの定義 • ルールが多くなると、似たようなルール(平均が0以上など)が多くなって きて、書くのが⾯倒 := 演算⼦で共通ルールを 作っておけば、再利⽤可能
検証ルールの作成⽅法(発展編3) • 変数グループ • a>=m, b>=mみたいに「m(平均)が0以上」は共通してるので何⾏も書き たくない • 以下の2つは同じ
検証結果をデータフレームとして出⼒ • aggregate() • retailorデータの例に戻る ルール 作成 適⽤ 確認
検証ルールを外部ファイルで定義 • validator()に渡す検証ルールは外部ファイル(yaml)にて定義可能 • ルールが多くなってくるとこちらのほうが便利かも rules.yml
まとめ • データ前処理の途中で検証(バリデーション)をするのは⼤切 • Rでデータ検証ならvalidateパッケージが便利
参考資料 • R⾔語 - データ検証パッケージ "validate” • validateパッケージのドキュメント • 『統計的データクリーニングの理論と実践』
Enjoy!