Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
公開している Notion サイトから人名を抽出して、誤って個人情報を記載していないか検出でき...
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
おかやまん
September 01, 2022
Programming
0
540
公開している Notion サイトから人名を抽出して、誤って個人情報を記載していないか検出できるようにしてみた
YUMEMI.grow 【自動化特集】の発表資料です。
https://yumemi.connpass.com/event/257184/
おかやまん
September 01, 2022
Tweet
Share
More Decks by おかやまん
See All by おかやまん
具体と抽象の行き来を意識する
blendthink
0
490
FlutterKaigi Day1「Dart のこれから」
blendthink
1
6.8k
Yumemi.apk #6 ~ゆめみのAndroidエンジニア 日頃の成果大発表会!~ Session 2
blendthink
1
710
株式会社ゆめみの Android の採用コーディング試験を公開しました
blendthink
0
170
Yumemi.apk #5 ~Kotlin夏祭り~ Session 2
blendthink
0
450
Developers Boost Session 6
blendthink
1
970
Other Decks in Programming
See All in Programming
CSC307 Lecture 04
javiergs
PRO
0
650
生成AIを使ったコードレビューで定性的に品質カバー
chiilog
0
220
[KNOTS 2026登壇資料]AIで拡張‧交差する プロダクト開発のプロセス および携わるメンバーの役割
hisatake
0
240
15年続くIoTサービスのSREエンジニアが挑む分散トレーシング導入
melonps
2
160
CSC307 Lecture 03
javiergs
PRO
1
490
0→1 フロントエンド開発 Tips🚀 #レバテックMeetup
bengo4com
0
540
AIと一緒にレガシーに向き合ってみた
nyafunta9858
0
140
humanlayerのブログから学ぶ、良いCLAUDE.mdの書き方
tsukamoto1783
0
180
Oxlintはいいぞ
yug1224
5
1.3k
OSSとなったswift-buildで Xcodeのビルドを差し替えられるため 自分でXcodeを直せる時代になっている ダイアモンド問題編
yimajo
3
600
カスタマーサクセス業務を変革したヘルススコアの実現と学び
_hummer0724
0
520
Patterns of Patterns
denyspoltorak
0
1.3k
Featured
See All Featured
Art, The Web, and Tiny UX
lynnandtonic
304
21k
A Soul's Torment
seathinner
5
2.2k
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
95
Odyssey Design
rkendrick25
PRO
1
490
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2k
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
580
Claude Code のすすめ
schroneko
67
210k
Rebuilding a faster, lazier Slack
samanthasiow
85
9.4k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
170
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.4k
Transcript
公開している Notion サイトから人名を抽出 して、誤って個人情報を記載していないか 検出できるようにしてみた YUMEMI.grow 【自動化特集】
自己紹介
・おかやまん ・株式会社ゆめみ3年目 ・Android、Flutter テックリード ・趣味は将棋とプログラミング あっ、自動化も趣味です(笑)
公開している Notion サイトから人名 を抽出して、誤って個人情報を記載 していないか検出できるようにしてみ た
None
モチベーション
ゆめみでは「ゆめみオープン・ハンドブック」として、社内ドキュメントを外部に公開しています
仕組み
Notion でドキュメントを書いて、それを Super でウェブサイト化しています
Notion × Super 最高!
注意点
ゆめみオープン・ハンドブック配下の ページは全て外部に公開される
誤って個人情報が公開されてし まうことがありそう、、
ゆめみオープン・ハンドブックのペー ジ数は 1200 以上
え、、、 人力で全てのページを監視するの 無理そう、、
自動化すればいっか
個人情報を抽出する
※ 今回は人の名前のみ
作ってみた
Super を利用して構築された Notion サイトから人名を抽出するツール
None
利用しているもの
・Web ブラウザの操作を自動化 ・主な目的は Web アプリの UI テストの自動化 詳しくは↓ https://www.selenium.dev
・Python で自然言語処理を行うためのライブラリ ・解析結果を扱いやすいようにコンポーネント化 ・速い 詳しくは↓ https://spacy.io
・日本語に特化した自然言語処理ライブラリ ・spaCy を NLP Framework として使用 ・日本語 20 億文以上を用いて事前学習 詳しくは↓
https://megagonlabs.github.io/ginza
ざっくりコード紹介
requirements.txt
.env
settings.py
main.py
main.py
main.py-analyze()
main.py-analyze()
None
None
main.py-analyze()
main.py-extract()
outputs.electra.log
課題
・それなりに時間がかかる ・ホワイトリスト必要そう ・個人情報は人名だけじゃない
いろいろと課題はあるけど、、
自動化はすばらしい!
ご清聴ありがとうございました