Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
公開している Notion サイトから人名を抽出して、誤って個人情報を記載していないか検出できるようにしてみた
Search
おかやまん
September 01, 2022
Programming
0
350
公開している Notion サイトから人名を抽出して、誤って個人情報を記載していないか検出できるようにしてみた
YUMEMI.grow 【自動化特集】の発表資料です。
https://yumemi.connpass.com/event/257184/
おかやまん
September 01, 2022
Tweet
Share
More Decks by おかやまん
See All by おかやまん
具体と抽象の行き来を意識する
blendthink
0
260
FlutterKaigi Day1「Dart のこれから」
blendthink
1
5.3k
Yumemi.apk #6 ~ゆめみのAndroidエンジニア 日頃の成果大発表会!~ Session 2
blendthink
1
540
株式会社ゆめみの Android の採用コーディング試験を公開しました
blendthink
0
64
Yumemi.apk #5 ~Kotlin夏祭り~ Session 2
blendthink
0
330
Developers Boost Session 6
blendthink
1
800
Other Decks in Programming
See All in Programming
ボトムアップではじめるFour Keys・SPACEを用いた開発プロセスの改善事例 〜開発生産性に向き合ってチームの成長を実感する〜
nomuson
1
270
Composing an API the *right* way (Droidcon Berlin 2024)
zsmb
0
150
terraform-provider-aws にプルリクして マージされるまで
exoego
2
200
プログラミングスクールのつながりがキャリアにつながるのかもしれない話 / Connections at programming schools may lead to a career
aiandrox
0
290
俺たちのPHPの型システムはすごいぞっ!
suguruooki
1
230
ビッグデータにおける、RAGデザインパターン詳解
randoryo
0
280
SPLから始める「データ構造」入門
o0h
PRO
6
880
dbt v1.8で追加された単体テストを触ってみた
k_data_analyst
2
290
自分好みの TS バンドラを Rust で作れる!Deno の内部ライブラリの活用 – Denoで変わるランタイムの景色 実践事例 Lunch LT
pizzacat83
4
560
タクシーアプリ『GO』の reCAPTCHA Enterprise 導入
mot_techtalk
1
130
2024年版 Kotlin サーバーサイドプログラミング実践開発
n_takehata
3
1.1k
良いテストコードのために悪いテストコードを理解する - 不安定なテスト編: iOSアプリ開発ユニットテストの場合
yimajo
20
4.6k
Featured
See All Featured
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
10
3.7k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
15
8.6k
jQuery: Nuts, Bolts and Bling
dougneiner
60
7.3k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
34
9k
Documentation Writing (for coders)
carmenintech
62
4.1k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
73
15k
Atom: Resistance is Futile
akmur
260
25k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
247
20k
Imperfection Machines: The Place of Print at Facebook
scottboms
261
12k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
13
1.2k
Rebuilding a faster, lazier Slack
samanthasiow
75
8.4k
Learning to Love Humans: Emotional Interface Design
aarron
269
39k
Transcript
公開している Notion サイトから人名を抽出 して、誤って個人情報を記載していないか 検出できるようにしてみた YUMEMI.grow 【自動化特集】
自己紹介
・おかやまん ・株式会社ゆめみ3年目 ・Android、Flutter テックリード ・趣味は将棋とプログラミング あっ、自動化も趣味です(笑)
公開している Notion サイトから人名 を抽出して、誤って個人情報を記載 していないか検出できるようにしてみ た
None
モチベーション
ゆめみでは「ゆめみオープン・ハンドブック」として、社内ドキュメントを外部に公開しています
仕組み
Notion でドキュメントを書いて、それを Super でウェブサイト化しています
Notion × Super 最高!
注意点
ゆめみオープン・ハンドブック配下の ページは全て外部に公開される
誤って個人情報が公開されてし まうことがありそう、、
ゆめみオープン・ハンドブックのペー ジ数は 1200 以上
え、、、 人力で全てのページを監視するの 無理そう、、
自動化すればいっか
個人情報を抽出する
※ 今回は人の名前のみ
作ってみた
Super を利用して構築された Notion サイトから人名を抽出するツール
None
利用しているもの
・Web ブラウザの操作を自動化 ・主な目的は Web アプリの UI テストの自動化 詳しくは↓ https://www.selenium.dev
・Python で自然言語処理を行うためのライブラリ ・解析結果を扱いやすいようにコンポーネント化 ・速い 詳しくは↓ https://spacy.io
・日本語に特化した自然言語処理ライブラリ ・spaCy を NLP Framework として使用 ・日本語 20 億文以上を用いて事前学習 詳しくは↓
https://megagonlabs.github.io/ginza
ざっくりコード紹介
requirements.txt
.env
settings.py
main.py
main.py
main.py-analyze()
main.py-analyze()
None
None
main.py-analyze()
main.py-extract()
outputs.electra.log
課題
・それなりに時間がかかる ・ホワイトリスト必要そう ・個人情報は人名だけじゃない
いろいろと課題はあるけど、、
自動化はすばらしい!
ご清聴ありがとうございました