Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Alteryx で取り組むデータクレンジング
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
TomokiYasuhara
September 05, 2023
Technology
310
0
Share
Alteryx で取り組むデータクレンジング
DevelopersIO 2023 ビデオセッションの資料です。
動画
https://www.youtube.com/watch?v=VpItZqCl7PU
TomokiYasuhara
September 05, 2023
More Decks by TomokiYasuhara
See All by TomokiYasuhara
基礎から解説!Icebergで紐解くSnowflake×Databricks連携の現在地
cm_yasuhara
0
110
240313_8週連続ウェビナー_イチから学ぶImmuta
cm_yasuhara
0
730
セキュアかつスムーズなデータアクセス!Alteryxにおける認証情報管理の今をご紹介
cm_yasuhara
0
660
Other Decks in Technology
See All in Technology
TypeScriptで実現する既存APIを活用したリモートMCPサーバー構築 / TSKaigi 2026
soarteclab
1
180
なぜ、IAMロールのプリンシパルに*による部分マッチングが使えないのか? / 20260518-ssmjp-iam-role-principal
opelab
2
150
「使われるデータ基盤」を目指してデータアナリストとワークショップをやった話
jackojacko_
1
260
続 運用改善、不都合な真実 〜 物理制約のない運用改善はほとんど無価値 / 20260518-ssmjp-kaizen-no-value-without-physical-constraints
opelab
2
320
TypeScript の型で副作用の実行順序を制御する
yanaemon
1
140
AIのために、AIを使った、Effect-TSからの脱却 〜テストを活用した安全なリファクタリングの進め方〜
bitkey
PRO
1
210
freee-mcpを Local→Remote で出してわかった MCP認可実装のリアル
terara
2
320
ルール・ロール・ツールを創る / Creating Rules, Roles and Tools
ks91
PRO
0
150
Cortex(Code) を ML モデルの 精度改善サイクルに組み込む.pdf
oimo23
0
260
TypeScriptはどのようにどこまで推論できるのか ─ とにかく as は禁止で
ypresto
1
310
Geek Woman の育ち方 〜コミュニティとAIと〜
chicaco
0
200
Redmine次期バージョン7.0の注目新機能解説 — UI/UX強化と連携強化を中心に
vividtone
2
230
Featured
See All Featured
Mobile First: as difficult as doing things right
swwweet
225
10k
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
360
Designing for humans not robots
tammielis
254
26k
ラッコキーワード サービス紹介資料
rakko
1
3.3M
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.3k
Documentation Writing (for coders)
carmenintech
77
5.3k
Docker and Python
trallard
47
3.8k
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
290
Measuring & Analyzing Core Web Vitals
bluesmoon
9
830
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
230
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
430
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.5k
Transcript
Alteryxで取り組む データクレンジング 2023/8/11 アライアンス事業部 安原朋紀
自己紹介 2 氏名:安原朋紀 所属:クラスメソッド株式会社 アライアンス事業部 担当:Alteryx や Tableau に関する技術支援 DevelopersIO:https://dev.classmethod.jp/author/yasuhara-tomoki/
この動画でお話しすること 3 • 「データクレンジング」の概要と一般的な手順 • Alteryx でのデータクレンジングについて ◦ Alteryx の概要
◦ Alteryx でデータクレンジングを行うメリット ◦ 便利な機能を持つツール ◦ 簡単な設定でのデータクレンジング実施例 • お話ししないこと ◦ 名寄せの手順 ◦ Alteryx や各ツールの詳細 など
目次 4 • データクレンジングの基本 ◦ データクレンジングとは? ◦ 名寄せとの違い ◦ データクレンジングのステップ
• Alteryx によるデータクレンジング ◦ Alteryx とは? ◦ Alteryx で取り組むメリット ◦ クレンジングに利用可能なツールの例 • Alteryx によるデータクレンジングの実施例 • さいごに
データクレンジングの基本 5
データクレンジングとは 6 • 「データの表記を統一し、データ品質を整える作業」 • データの利用時に、表記の違いのために活用が困難な場面がある ◦ ひらがな、カタカナ、漢字、英語 ◦ 空白や区切り文字の有無
顧客名 内容 クラスメソッド株式会社 正式な名称 クラスメソッド 「株式会社」を省略 クラスメソッド(株) 株式会社を「(株)」と省略 クラスメソッドカブシキガイシャ 半角カナ クラスメソッド (株) 半角スペースを含む Classmethod, Inc. 英語表記
名寄せとの違い 7 • 名寄せ ◦ 「複数のデータソースに散らばっているデータを照合し、同じ情報を まとめること」 • 名寄せの対象データに、誤記や表記ゆれが含まれていると、名寄せ の精度や効率が低下してしまう
◦ 「名寄せ」を成功させるための前段階の作業として「データクレンジン グ」を行う
データクレンジングのステップ 8 クレンジングの 目的・方針決定 データの状況把握 クレンジングの実施
データクレンジングのステップ:クレンジングの目的・方針決定 9 • クレンジングの目的・方針決定 ◦ クレンジング対象のデータや量、どこまでの精度でクレンジングを行 うかを決定する 目的 対象のデータや量 精度
商品データを一意に特定できる状 態にする すべての商品データ クレンジングに使用するツールの 標準機能でクレンジング実施し、 その後、目検で判定を行う 直近で購買実績のある取引先企 業ごとに集計を行う 過去5年以内の購買履歴データ クレンジングに使用するツールの 標準機能でのみクレンジングを行 う 目的・方針の例
データクレンジングのステップ:データの状況把握 10 • 対象のデータを実際に確認するステップ • データがどのように汚れているかを確認 ◦ データの欠損、表記揺れ、重複といった観点から、現状を確認する
データクレンジングのステップ:クレンジングの実施 11 ・クレンジング対象外のデータ を除外する ・クレンジングの実施順を決定 する ・データ項目(カラム)を分ける かどうか検討する など
・目検結果をルールに反映 ・作成したルールに基づき、各 種ツールによるクレンジングを 実施する ・実施した結果を確認する ・分析者しか判断ができない データの確認 ・ツールで一括処理できない ケースがほとんどのため、変 換処理を追加するなどルール の更新を行う クレンジングルールの作成 クレンジング実施 目検での確認 必要に応じて、何度かサイクルまわす
Alteryx による データクレンジング 12
Alteryx とは? 13 • セルフサービス分析のプラットフォーム ◦ データの準備から分析・レポーティングまでを実施可能 • ツールと呼ばれる特定の機能を持ったアイコンを配置し、繋げていくこ とで、データ処理の流れをワークフローとして作成する
• GUIでの操作が基本 ◦ 普段コードを記述しないユーザーでも、データの読み込み、加工、分 析までの一連の処理を実装可能
Alteryx で取り組むメリット 14 • クレンジング時に利用可能な基本機能が豊富 • ワークフロー形式でデータ加工処理を作成する • 他ツールの機能を呼び出せる
クレンジングに利用可能な 基本機能が豊富 15
クレンジングに利用可能なツールの例① 16 • データの状況把握 ツール 概要 フィールドサマリーツール • 選択したフィールドのでデータ型に応じた要約情報を出力 文字列フィールド:最短の値、最長の値
数値フィールド:最小値、最大値、分布(ヒストグラム) 集計ツール・ユニークツール • 選択したフィールドのデータをグループ化し、重複データの有無を確認可能 • ユニークな値の数を確認可能 ソートツール • データの並べ替えが可能 • データの内容を実際に確認する際は、並べ替えられていることで確認が容易 になる場面がある
クレンジングに利用可能なツールの例② 17 • 変換(クレンジング処理) ツール 概要 データクレンジングツール • クレンジングに使用可能な機能がまとまったツール 大文字小文字変換、空白削除、不要な文字の一括削除 など
フォーミュラツール • フィールドに対して関数を適用できます • クレンジングに使用可能な関数が存在する regexreplace、replace、trim など 検索置換ツール • ユーザーが自作した変換マスターをもとにデータを変換可能 列分割ツール・正規表現ツール • フィールドを分割し、データ項目を分割する際に便利
ワークフロー形式で データ加工処理を作成する 18
ワークフロー形式でデータ加工処理を作成する 19 • 「どのような処理をどのような順番で行ったか」をワークフローを通して確 認できる ◦ 共有・レビューが容易 • 処理の変更が容易 ◦
データクレンジングでは、結果に応じて処理内容をアップデートすること がほとんど ◦ 既存の処理(ワークフロー)の任意の位置にツールを追加できる
他ツールの機能を呼び出せる 20
他ツールの機能を呼び出せる 21 • Python ツール・R ツール ◦ ワークフロー内で、データ分析・加工機能が豊富なプログラミング言 語の機能を利用可能 •
API の利用 ◦ ダウンロードツール ◦ 今後は、AI の活用にも期待
Alteryx による データクレンジングの実施例 22
設定 23 • 対象データ ◦ 架空のアンケートデータ • 作業目的 ◦ 企業ごとに、回答件数を集計(カウント)したい
• データの詳細 ◦ 件数:10,000件 ◦ データ項目:回答日付(ans_date)、所属企業(corp) ◦ 期間:2020-01-01 ~ 2023-06-30 ◦ アンケート回答時に、回答者の所属企業名を自由記述として手入力して いる →表記ゆれがある
サンプルデータの内容 24 • データの一部 「株式会社」の表記の違い 同一企業の可能性がある 欠損値
クレンジングの目的・方針決定 25 クレンジングの 目的・方針決定 データの状況把握 クレンジングの実施 • 作業目的 ◦ 企業ごとに、回答件数を集計(カウント)する
• 対象データ ◦ 直近の回答について確認する ◦ ここでは、2022年以降のデータを対象とする • 精度 ◦ クレンジングに使用するツールの標準機能でのみクレンジングを行う ▪ 目検による手作業での修正は実施しない
データの状況把握 26 クレンジングの 目的・方針決定 データの状況把握 クレンジングの実施 以降は、Alteryx の画面でご紹介
さいごに 27 • データクレンジング ◦ 「データの表記を統一し、データ品質を整える作業」 ◦ データ分析や効率的な名寄せの前段階として実施 ◦ 効果的なデータクレンジングのためには、ステップを踏むことが必要
• Alteryx で取り組むメリット ◦ データクレンジングに便利なツールを標準で備えている ◦ ワークフロー形式のため、処理内容を理解しやすく、変更(追加・削 除)も容易
None