Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
公開している Notion サイトから人名を抽出して、誤って個人情報を記載していないか検出でき...
Search
おかやまん
September 01, 2022
Programming
0
510
公開している Notion サイトから人名を抽出して、誤って個人情報を記載していないか検出できるようにしてみた
YUMEMI.grow 【自動化特集】の発表資料です。
https://yumemi.connpass.com/event/257184/
おかやまん
September 01, 2022
Tweet
Share
More Decks by おかやまん
See All by おかやまん
具体と抽象の行き来を意識する
blendthink
0
450
FlutterKaigi Day1「Dart のこれから」
blendthink
1
6.5k
Yumemi.apk #6 ~ゆめみのAndroidエンジニア 日頃の成果大発表会!~ Session 2
blendthink
1
680
株式会社ゆめみの Android の採用コーディング試験を公開しました
blendthink
0
130
Yumemi.apk #5 ~Kotlin夏祭り~ Session 2
blendthink
0
430
Developers Boost Session 6
blendthink
1
930
Other Decks in Programming
See All in Programming
UbieのAIパートナーを支えるコンテキストエンジニアリング実践
syucream
2
730
Flutter로 Gemini와 MCP를 활용한 Agentic App 만들기 - 박제창 2025 I/O Extended Seoul
itsmedreamwalker
0
150
私の後悔をAWS DMSで解決した話
hiramax
4
140
為你自己學 Python - 冷知識篇
eddie
1
210
Jakarta EE Core Profile and Helidon - Speed, Simplicity, and AI Integration
ivargrimstad
0
210
TDD 実践ミニトーク
contour_gara
0
150
🔨 小さなビルドシステムを作る
momeemt
2
550
Claude Codeで実装以外の開発フロー、どこまで自動化できるか?失敗と成功
ndadayo
2
1.5k
AI時代のドメイン駆動設計-DDD実践におけるAI活用のあり方 / ddd-in-ai-era
minodriven
23
9k
開発チーム・開発組織の設計改善スキルの向上
masuda220
PRO
15
8.3k
LLMOpsのパフォーマンスを支える技術と現場で実践した改善
po3rin
8
990
AI OCR API on Lambdaを Datadogで可視化してみた
nealle
0
180
Featured
See All Featured
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
900
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.8k
Agile that works and the tools we love
rasmusluckow
329
21k
Scaling GitHub
holman
462
140k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.4k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
9
780
A better future with KSS
kneath
239
17k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
283
13k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.5k
GraphQLとの向き合い方2022年版
quramy
49
14k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
Transcript
公開している Notion サイトから人名を抽出 して、誤って個人情報を記載していないか 検出できるようにしてみた YUMEMI.grow 【自動化特集】
自己紹介
・おかやまん ・株式会社ゆめみ3年目 ・Android、Flutter テックリード ・趣味は将棋とプログラミング あっ、自動化も趣味です(笑)
公開している Notion サイトから人名 を抽出して、誤って個人情報を記載 していないか検出できるようにしてみ た
None
モチベーション
ゆめみでは「ゆめみオープン・ハンドブック」として、社内ドキュメントを外部に公開しています
仕組み
Notion でドキュメントを書いて、それを Super でウェブサイト化しています
Notion × Super 最高!
注意点
ゆめみオープン・ハンドブック配下の ページは全て外部に公開される
誤って個人情報が公開されてし まうことがありそう、、
ゆめみオープン・ハンドブックのペー ジ数は 1200 以上
え、、、 人力で全てのページを監視するの 無理そう、、
自動化すればいっか
個人情報を抽出する
※ 今回は人の名前のみ
作ってみた
Super を利用して構築された Notion サイトから人名を抽出するツール
None
利用しているもの
・Web ブラウザの操作を自動化 ・主な目的は Web アプリの UI テストの自動化 詳しくは↓ https://www.selenium.dev
・Python で自然言語処理を行うためのライブラリ ・解析結果を扱いやすいようにコンポーネント化 ・速い 詳しくは↓ https://spacy.io
・日本語に特化した自然言語処理ライブラリ ・spaCy を NLP Framework として使用 ・日本語 20 億文以上を用いて事前学習 詳しくは↓
https://megagonlabs.github.io/ginza
ざっくりコード紹介
requirements.txt
.env
settings.py
main.py
main.py
main.py-analyze()
main.py-analyze()
None
None
main.py-analyze()
main.py-extract()
outputs.electra.log
課題
・それなりに時間がかかる ・ホワイトリスト必要そう ・個人情報は人名だけじゃない
いろいろと課題はあるけど、、
自動化はすばらしい!
ご清聴ありがとうございました