Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ初心者がAWS Glue DataBrewでPII対策やってみた
Search
Akira Sato
July 25, 2024
0
17
データ初心者がAWS Glue DataBrewでPII対策やってみた
Akira Sato
July 25, 2024
Tweet
Share
More Decks by Akira Sato
See All by Akira Sato
AWSのコストについて再考してみる
a22sato
0
48
1度で2度おいしいBedrock入門
a22sato
0
24
Transit GWでNat VPCを作成する
a22sato
1
320
リソースをIaCで管理しよう
a22sato
0
300
Storage LensでS3を大掃除しよう
a22sato
0
440
20231030_LT登壇資料.pdf
a22sato
0
730
Featured
See All Featured
Code Review Best Practice
trishagee
69
18k
Become a Pro
speakerdeck
PRO
28
5.4k
Typedesign – Prime Four
hannesfritz
42
2.7k
How to Ace a Technical Interview
jacobian
277
23k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.8k
Balancing Empowerment & Direction
lara
1
390
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
48
5.4k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.3k
Build your cross-platform service in a week with App Engine
jlugia
231
18k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Building Flexible Design Systems
yeseniaperezcruz
328
39k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
46
9.6k
Transcript
データ初⼼者が AWS Glue DataBrew でPII対策やってみた 2024/7/25 Akira Sato
⾃⼰紹介
アジェンダ いきなり結論 やってみた まとめ What’s PII︖Why PII ?
What’s PII︖ • Personally Identifiable Information(PII)の略称 • 簡単に⾔ってしまえば個⼈情報 • 名前、⽣年⽉⽇、⾃宅住所、社会保障番号、運転免許番号、クレジットカード番号など
• 情報の内容に応じて分類されたりもする(直接/間接 など) PII とは︖
Why PII︖ あなたは機械学習エンジニアです。現在利⽤しているデータには個⼈を特定できる情報(PII)が含 まれています。社内ルールで学習にPIIを使⽤してはなりません。あなたは、MLモデルで使⽤する保 険データを提供するために適切なAWSサービスを選択しなければなりません。 最も費⽤対効果の⾼い⽅法で要件を満たすにはどの⼿段をとりますか。 a. 真⼼を込めて⼿作業 b. 伝統のscript
c. 先輩秘伝のLambda d. AWS Glue DataBrew 問題 認定試験だと選べるけど、 “本当に︖” が気になる
アジェンダ いきなり結論 やってみた まとめ What’s PII︖Why PII ?
いきなり結論 • ⽇本語のデータはうまく処理できない 結論
アジェンダ いきなり結論 やってみた まとめ What’s PII︖Why PII ?
Glue DataBrewとは︖ • AWS Glue DataBrew は、データのクリーニング、正規化、変換を⾏う ためのフルマネージドのビジュアルデータ準備サービスです。 AWS Glue
ETL とは異なり、使⽤するコードを作成する必要がありません。 • 詳細は AWS BLACK BELT ONLINE SEMINAR をご参照ください 参考︓AWS Glue DataBrew 今回はDataBrewのPII マスキング機能を使ってみる
今回のデータ • サンプルデータは架空の個⼈情報を100⼈分⽤意 → ⽒名(⽇⽶)、メールアドレス、住所(⽇⽶)、電話番号、クレジットカード番号
Glue DataBrew(1/3) • データをS3に格納後、取り込むだけで簡単に利⽤できる
Glue DataBrew(2/3) • オプションを選択するだけでPIIのマスキングができる
Glue DataBrew(3/3) • ⽇本語はマスクされない事がわかる
なぜマスクされないのか︖ • アメリカにおけるPIIをマスキングする機能なので⽇本語は適応外 (形式が合致すれば適応される) 参考︓Building a profile job configuration programmatically
in AWS Glue DataBrew
アジェンダ いきなり結論 やってみた まとめ What’s PII︖Why PII ?
まとめ • (認定試験の様にサービスを選択しても)⽇本語のデータはうま く処理できない • ⽇本語のPIIを含むデータ処理を⾏う際には内容に応じた対策が必須 • 列を指定してのマスキングであればDataBrewで実施可能だが、 要件に応じて他のサービスとの組み合わせの検討が必須