Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
validateパッケージでデータを検証する / Data Validation with v...
Search
松村優哉
February 19, 2022
Programming
0
550
validateパッケージでデータを検証する / Data Validation with validate package
松村優哉
February 19, 2022
Tweet
Share
More Decks by 松村優哉
See All by 松村優哉
はじめての機械学習 / entrance-to-machine-learning2022
y__mattu
2
1.1k
rstanの環境構築 / Set Up rstan
y__mattu
1
1.1k
R言語とGo言語 / R and Go
y__mattu
1
940
はじめての機械学習 / Entrance to Machine Learning
y__mattu
0
720
平均値と中央値の違いについて
y__mattu
1
850
dplyr 1.0.0の新機能 / dplyr 1.0.0
y__mattu
2
9.9k
Other Decks in Programming
See All in Programming
Denoでフロントエンド開発 2025年春版 / Frontend Development with Deno (Spring 2025)
petamoriken
1
1.3k
PHPでお金を扱う時、終わりのない 謎の1円調査の旅にでなくて済む方法
nakka
3
990
2025/3/18 サービスの成長で生じる幅広いパフォーマンスの問題を、 AIで手軽に解決する
shirahama_x
0
160
コンテナでLambdaをデプロイするときに知っておきたかったこと
_takahash
0
140
AtCoder Heuristic First-step Vol.1 講義スライド(山登り法・焼きなまし法編)
takumi152
3
980
Kubernetesで実現できるPlatform Engineering の現在地
nwiizo
2
1.7k
Develop Faster With FrankenPHP
dunglas
2
2.4k
20250326_生成AIによる_レビュー承認システムの実現.pdf
takahiromatsui
17
5.3k
Modern Angular:Renovation for Your Applications @angularDays 2025 Munich
manfredsteyer
PRO
0
130
アプリを起動せずにアプリを開発して品質と生産性を上げる
ishkawa
0
210
SQL Server ベクトル検索
odashinsuke
0
110
Devinのメモリ活用の学びを自社サービスにどう組み込むか?
itarutomy
0
1.7k
Featured
See All Featured
VelocityConf: Rendering Performance Case Studies
addyosmani
328
24k
Become a Pro
speakerdeck
PRO
27
5.2k
The Pragmatic Product Professional
lauravandoore
33
6.5k
Designing Experiences People Love
moore
141
23k
Code Review Best Practice
trishagee
67
18k
Optimising Largest Contentful Paint
csswizardry
35
3.2k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
25k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
7.1k
We Have a Design System, Now What?
morganepeng
51
7.5k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
160
15k
Music & Morning Musume
bryan
46
6.4k
Transcript
validate パッケージで データを検証する @y__mattu 2022-02-19 HiRoshima.R #7 LT
誰︖ • 松村優哉 • 出⾝: 計量経済、ベイズ統計、 因果推論 • お仕事: データサイエンティスト&
データエンジニア in 広告会社 • ⾔語: R, Python • Tokyo.R, Japan.R運営 • 近況:2⽉に転職しました︕
宣伝 Rユーザのための RStudio[実践]⼊⾨ 第2版 好評発売中!!
今⽇のお話 • 統計的データクリーニングについて • validateパッケージの紹介
データクリーニングとは • データクリーニング≒データ前処理の最も基本的な部分 • 数値表現の統⼀ • ⽇付型の統⼀ • ⽂字列の正規化・前処理 •
⽋測データの特定・補完 • エラーデータの特定・修正 • 今⽇の話題は、エラーデータの特定、つまりデータ検証がメイン 統計的な処理が必要な領域
データ検証の必要性 • データは意図せず変化してしまう • 前処理⼯程のミス • 集計のミス • そもそもデータソースの時点で変なデータが含まれている •
適当なタイミングで、⽬の前のデータが「正しいか」の検証(バリ デーション)を⼊れると良い データの読み込み データの前処理 分析・可視化 処理1 処理2 処理3 検証 検証 検証
validateパッケージ • CRANからインストール • 使うデータをロード
retailersデータ • 架空の⼩売業者の財務データ
check_that()による簡単なチェック ルールを記述。ここでは以下の2つ - 売上⾼は0より⼤きい - 従業員⼀⼈当たりの⼈件費は50(50,000ギルダー)未満
検証結果の可視化
検証ルール作成、適⽤、結果確認の分離 検証 ルール 作成 適⽤ 確認 validate::validator() validate::confront() summary(), validate::aggregate()
ルール 作成 適⽤
検証ルールの作成⽅法(発展編1) • レコード間での⽭盾のチェック • 例: 市と通りが同じなら郵便版後も同じでなくてはならない • 簡単なデータで検証 2レコード⽬が間違い
検証ルールの作成⽅法(発展編1) • レコード間での⽭盾のチェック • 例: 市と通りが同じなら郵便版後も同じでなくてはならない ルールをチルダでつなぐ
検証ルールの作成⽅法(発展編2) • マクロの定義 • ルールが多くなると、似たようなルール(平均が0以上など)が多くなって きて、書くのが⾯倒 := 演算⼦で共通ルールを 作っておけば、再利⽤可能
検証ルールの作成⽅法(発展編3) • 変数グループ • a>=m, b>=mみたいに「m(平均)が0以上」は共通してるので何⾏も書き たくない • 以下の2つは同じ
検証結果をデータフレームとして出⼒ • aggregate() • retailorデータの例に戻る ルール 作成 適⽤ 確認
検証ルールを外部ファイルで定義 • validator()に渡す検証ルールは外部ファイル(yaml)にて定義可能 • ルールが多くなってくるとこちらのほうが便利かも rules.yml
まとめ • データ前処理の途中で検証(バリデーション)をするのは⼤切 • Rでデータ検証ならvalidateパッケージが便利
参考資料 • R⾔語 - データ検証パッケージ "validate” • validateパッケージのドキュメント • 『統計的データクリーニングの理論と実践』
Enjoy!