Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アノテーション作業書作成のGood Practice
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Cierpa & Company
PRO
October 30, 2025
Technology
1
660
アノテーション作業書作成のGood Practice
Search Engineering Tech Talk 2025 Autumn (
https://search-tech.connpass.com/event/370754/
) での発表資料です。
Cierpa & Company
PRO
October 30, 2025
Tweet
Share
More Decks by Cierpa & Company
See All by Cierpa & Company
Cierpa&Co._Culture Deck_202512
cierpa0905
PRO
0
6.9k
Other Decks in Technology
See All in Technology
Contract One Engineering Unit 紹介資料
sansan33
PRO
0
13k
ファインディの横断SREがTakumi byGMOと取り組む、セキュリティと開発スピードの両立
rvirus0817
1
1.5k
Cosmos World Foundation Model Platform for Physical AI
takmin
0
950
SREが向き合う大規模リアーキテクチャ 〜信頼性とアジリティの両立〜
zepprix
0
470
プロダクト成長を支える開発基盤とスケールに伴う課題
yuu26
4
1.4k
超初心者からでも大丈夫!オープンソース半導体の楽しみ方〜今こそ!オレオレチップをつくろう〜
keropiyo
0
120
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
6
68k
量子クラウドサービスの裏側 〜Deep Dive into OQTOPUS〜
oqtopus
0
140
Bill One 開発エンジニア 紹介資料
sansan33
PRO
5
17k
ClickHouseはどのように大規模データを活用したAIエージェントを全社展開しているのか
mikimatsumoto
0
260
フルカイテン株式会社 エンジニア向け採用資料
fullkaiten
0
10k
仕様書駆動AI開発の実践: Issue→Skill→PRテンプレで 再現性を作る
knishioka
2
680
Featured
See All Featured
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.3k
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.1k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
0
210
Visualization
eitanlees
150
17k
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
180
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
170
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
590
Utilizing Notion as your number one productivity tool
mfonobong
3
220
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2k
The Curious Case for Waylosing
cassininazir
0
240
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.7k
Transcript
アノテーション作業書作成のGood Practice Presenter: Kampersanda Search Engineering Tech Talk 2025 Autumn
© Cierpa&Co., Inc. ⽒名 • 神⽥ 峻介 / Kampersanda (Kanda
→ K and A → K & A → K ampersand A) 経歴 • 特別研究員@理研AIP (2018〜2021) • シニアリサーチエンジニア@LegalOn Technologies (2021〜2024) • ソフトウェアエンジニア@Cierpa&Co. (2024〜) (ここ2年くらい検索技術勉強会のスタッフもやってます) About me
© Cierpa&Co., Inc. ESG領域におけるアノテーションは専⾨性の⾼い作業 ⾮専⾨家によるアノテーションの40%が誤ラベルだった事例あり* ESG領域におけるデータセット構築の難しさ GHG削減取り組みに 該当する? *⾚部ら, ESGデータセット構築におけるHuman-in-the-Loop全⾃動パイプラインの構築.
YANS2025 引⽤元: ヤマダ電機グループ Integrated Report 2018 (P4)
© Cierpa&Co., Inc. ⾼品質なデータセット作成には専⾨性が必要 しかし、専⾨家のリソースは限られる 限られた⼈員で運⽤可能なフローの構築が必須 ESG領域におけるデータセット構築の難しさ (cont.) 専⾨家 ⾮専⾨家
考え得る⼈員体制
© Cierpa&Co., Inc. 持続可能なアノテーションには定義や⼿順を記載した作業書の品質が重要 本発表では、実⽤に向けた作業書作成のためのGood Practiceを紹介 アノテーション作業書の重要性 ⼀貫性の無いラベル 頻発する質問 掛かり過ぎる
作業時間 ※ 2つのデータを⾒⽐べ「該当」「⾮該当」をラベリングするタスクを想定
© Cierpa&Co., Inc. 曖昧な定義は「⼀貫性の⽋如」と「質問の頻発」を招く あらゆるケースを網羅した「完全な定義」を⽬指したくなるが... • ルールが際限なく複雑化する • アノテーターの認知負荷が爆発 •
判断に時間がかかりコストが増⼤ • ルールの⽭盾管理が困難に Practice 1 ‒ 定義の複雑化を「仕組み」で回避する
© Cierpa&Co., Inc. 記事を読み、「⼈権問題」に関連する 内容が含まれていると思えば「該当」 を選んでください。そうでなければ 「⾮該当」を選んでください。 簡単な定義 以下の基準をすべて確認し、判断してください。 1.
深刻な⼈権侵害(必須):「児童労働」「強制労働」「⼈⾝売 買」「拷問」に明確に⾔及している場合は「該当」。 2. 差別‧ハラスメント:「⼈種」「性別」「宗教」「出⾝」に基 づく差別やハラスメントに関する記述がある場合は「該当」。 例外: ただし、それが「ダイバーシティ&インクルージョン (D&I)」のポジティブな取り組みとしてのみ⾔及されている 場合は、「⾮該当」(「労働慣⾏」トピックとする)。 3. コミュニティ‧先住⺠の権利:「⼟地の強制収⽤」「先住⺠の 権利侵害」に⾔及している場合は「該当」。注意: 「地域への 寄付」「対話の実施」といったポジティブな活動は「⾮該 当」。 4. ガバナンスとの重複: 主題がガバナンス(例:CEO辞任)で あっても、その発端となった事象がルール2(例:差別的発 ⾔)に抵触する場合は「該当」。 5. … 複雑化した定義 (例)ニュース記事が「⼈権問題」に「該当」か「⾮該当」かを判別する どこまで作り込めば「完全な定義」は完成する?
© Cierpa&Co., Inc. 1. ワークフローの修正 • 定義を簡潔に保ち、判断が難しい事例は「別フロー」で処理する • (例)⾮専⾨家で判別できない事例は専⾨家へ(Practice 2)
2. 問題の単純化 • ⼀つのタスクで全てを満たそうとしない • (例)完璧に識別するのを⽬指さず、⽬的を単純化する(Practice 3) 過度な複雑化に繋がりそうな場合は「仕組み」で対処する
© Cierpa&Co., Inc. 判別困難な事例は必ず発⽣する(例: ⾼すぎる専⾨性、データ不備...) 「逃げ道」がない場合 • 時間の消費: 無益に悩み、⼿が⽌まる •
品質の低下: 主観的な判断でラベル付け 解決策: 「分からない」ラベルを導⼊ • 困難な事例のスキップとエスカレーションが可能に • 無理な誤ラベルの付与を回避 Practice 2 ‒ 「分からない」を⽤意する
© Cierpa&Co., Inc. 「分からない」が実現する効率的なワークフローの例 ⼀次アノテーション (⾮専⾨家) データセット ⼆次アノテーション (専⾨家) 分からない
分かる 分かる 分からない 専⾨家のリソースを、難しい判断が要求される事例に集中投下できる
© Cierpa&Co., Inc. 複数の要件を満たそうとすると、定義が複雑化しアノテーション難易度は上がる Practice 3 ‒ 少なくとも満たすべき要件を定義する 適合率も再現率も100%を 達成する定義の作成は可能?
➔ 「これだけは絶対に達成したい」という最⼩の機能要件を明らかにする
© Cierpa&Co., Inc. Case A: 「明らかに該当」なものを判別したい • 例: 絶対に外さないアイテムだけを推薦したい •
定義: 部分的にも⾮該当な事例は「⾮該当」(適合率重視) Case B: 「少しでも該当」なものを判別したい • 例: 不良品を絶対に⾒逃したくない • 定義: 部分的にも該当な事例は「該当」(再現率重視) 難しい事例をどちらに倒すか決めるだけで、判断は容易になる システムが「少なくとも満たすべき要件」はどちらか?
© Cierpa&Co., Inc. ルール: 1事例あたり〇〇秒以上悩んだら「分からない」を選ぶ 2つの利点 1. 品質の担保 a. 「⻑時間悩む事例」はそもそも判別不能
b. 無理な判断によるノイズの混⼊を防ぐ 2. コスト‧⼯数の管理 a. ムダな思考時間を強制的にカット b. 1件あたりの最⼤時間が決まり、⼯数⾒積もりが容易に Practice 4 ‒ 思考時間の上限を設定する
© Cierpa&Co., Inc. 本⽇の4つのGood Practice 1. 定義の複雑化を「仕組み」で回避する 2. 「分からない」を⽤意する 3.
少なくとも満たすべき要件を定義する 4. 思考時間の上限を設定する 「運⽤可能なアノテーションフロー」を作ろう! まとめ シェルパ‧アンド‧カンパニー株式会社では、エンジニアやインターン シップを絶賛募集中です!是⾮お声がけ下さい!