クラウドソーシングによる学習データ作成と品質管理（セキュリティキャンプ2024全国大会D2講義資料）

クラウドソーシングによる学習データ作成と品質管理セキュリティ・キャンプ全国大会 2024 AIセキュリティクラス D2講義筑波大学人間総合科学学術院博士前期課程
田村匠 [email protected] 1

目次 • はじめに • 講師自己紹介 • 講義の進め方説明 • イントロダクション：AIは人間でできている •
第１部「タスクの設計と割り当て」 • 復習：クラウドソーシングとは何か • 実際のクラウドソーシングプラットフォーム：mTurkの紹介 • タスク設計と割り当て，ワークフロー • 第２部「結果集約」 • ワーカ間一致率 • 潜在クラスモデルによるタスク集約 • 第３部「能動学習とHuman-in-the-loop」 • 能動学習の紹介 • おわりに • 講義のまとめ，質疑応答 3

講師自己紹介田村匠 (Takumi TAMURA) https://takumi1001.github.io/takumi1001/ 2001年10月01日生まれ筑波大学大学院人間総合科学学術院情報学学位プログラム
博士前期1年融合知能デザイン研究室（森嶋・伊藤研）所属 (https://fusioncomplab.org/) • クラウドソーシングの品質管理を題材に人間とAIの協調について研究している • 推薦システムや，自然言語処理にも興味あり，研究も少しだけやってますセキュリティキャンプとの関わり･･･今年で３年目 • セキュリティキャンプ全国大会2022 AIセキュリティクラス修了生 • セキュリティキャンプ全国大会2023 AIセキュリティクラスチューター 4 GitHub: takumi1001 Discord: takumi1001 26卒として就活中企業の皆さん，雇ってください！

イントロダクション：AIは人間でできている 6

学習データはAIの品質に影響を与える 7 https://www.technologyreview.jp/s/336754/gpt-4os-chinese-token-training- data-is-polluted-by-spam-and-porn-websites/ https://arxiv.org/abs/2101.05783 応募課題ではいろいろ調べていただきました．生成AI時代にこそ，データに着目するのが重要になるのでは？

AIは人間でできている 8 https://pshapira.net/2024/03/31/delving-into-delve/ ChatGPTは「delve」という単語を使う傾向が強い，なぜだろうか？生成AIを使った証拠として扱ってよいだろうか？「delve」は主にアフリカ英語で使われる表現で，特にナイジェリアにおいてよく使われるナイジェリアは7,000万人以上の英語話者を有する（世界５位）データではなく私達がバイアスを持っていることもある

AIはアフリカ人でできている？ 9 OpenAI Used Kenyan Workers on Less Than $2
Per Hour: Exclusive | TIME - https://time.com/6247678/openai-chatgpt-kenya-workers/ TechScape: How cheap, outsourced labour in Africa is shaping AI English | Technology | The Guardian - https://www.theguardian.com/technology/2024/apr/16/techscape-ai-gadgest-humane-ai-pin-chatgpt 【Sama社によるChatGPTのデータクリーニングの事例】 • OpenAI社はChatGPTが有害な出力をしないように，学習データのクリーニングを行った • この作業はSama社という会社が受託し，Sama社はケニア人の労働者に作業させた • ポルノや暴力描写のあるテキストを学習データから除く作業で，労働者への精神的負担は大きかった • にもかかわらず，労働者には時給2ドル未満の給与しか支払われなかった【RLHFとアフリカ人】 • LLMには RLHF (Reinforcement Learning with Human Feedback) という，人間からのフィードバックをもとにLLMの性能を改善する手法がある • 多くのアフリカ人がこのRLHFの作業に参加しているのではないかといわれている • “delve”の問題は，単純にアフリカ人の英語話者が多いだけでなく，RLHFの作業をアフリカ人が担っているからかも？学習データの作成には倫理的問題や作業者の多様性など，様々な考慮すべき要因がある

AIには「学習データ」が不可欠：教師あり機械学習の概要 10 モデル訓練学習データ･･･金魚金魚金魚カエルカエル
機械学習アルゴリズムが金魚とカエルを分類するためのパターンを見つける分類モデルモデル運用分類モデルこれは金魚です未知データに対して，金魚かカエルか分類できるようになる学習データには「教師ラベル」が必要 ※画像はTiny Imagenetより

もし，学習データが間違っていたら？ 11 モデル訓練学習データ･･･金魚カエルカエルカエルカエル
分類モデルモデル運用分類モデルこれはカエルです品質の高いAIには品質の高い学習データが不可欠「ゴミからはゴミしか生まれない（Garbage In, Garbage Out）」 ※画像はTiny Imagenetより

Model-Centric AI から Data-Centric AI へ近年では機械学習モデルやアルゴリズムの改良にによってAIの精度向上を目指す，従来のModel-Centricなアプローチから，データの品質を向上させることでAIの精度向上を目指すData-Centricなアプローチが注目されている． 12
Model-Centric AI (従来) Data-Centric AI (近年注目) データ精度：低モデル1 データ精度：高モデル2 モデルを変えて精度を向上させる Garbage In, Garbage Out原則を考慮していない ↑ データは同じ ↓ 悪いデータ精度：低モデル1 良いデータ精度：高モデル1 モデルでは無く，データを変えることで， AIモデルの性能を向上させるデータを変える

（補足）自己教師あり学習の場合（LLMなど） LLMなどの学習では「自己教師あり学習」が利用される．自己教師あり学習では，問題と解答を自分で作成することで，教師ラベルの無い学習データからモデルを訓練できる．学習データの品質が重要ということは自己教師あり学習でも変わらない ※本講義では簡単のために古典的な教師あり学習を題材にしています 13 • 私は本を読みます •
地球は青い • 夏は日照時間が長い • 私は<MASK>を読みます • 地球は<MASK> • <MASK>は日照時間が長い • 本 • 青い • 夏学習データデータラベル ※イメージ穴埋め問題に変換

学習データはどう作る？ 14 データに対して教師ラベルを付与しなければ学習データにできない →人間がデータにラべリングをする必要がある（この作業をアノテーションと呼ぶ）

アノテーションを誰が行うのか？自分がエンジニアとしてAIを開発する場合を考えてみよう 1. 自分でアノテーションするメリット：すぐに始めることができる，お金がかからない（ように見える）デメリット：時間がかかる，精度が保証できない２. 専門家にやってもらうメリット：精度が保証される，専門的なデータにも対応できる（ガンを見つける医療AIなど）デメリット：高コスト，人を集めるのが大変
３. 作業者を採用するメリット：比較的早くでき．低コストデメリット：人を集めるのが大変，労働者保護制度に適合する必要がある 15 短時間で多くの人を集め，低コストで高精度に仕事をしてもらうことは難しい

クラウドソーシングによるアノテーションインターネットの発展により，どこでも，誰でも，どんな時でも，仕事ができるようにクラウドソーシングを活用してアノテーションを行えば，短時間で多くの人に仕事をやってもらえる ↓ 学習データの作成にクラウドソーシングが用いられるようになった 16 クラウドソーシング (Crowdsourcing) 不特定多数の群衆 (Crowd)
にタスクをアウトソーシングし問題を解決することクラウドソーシングプラットフォーム (webサイト) 作業報酬クラウドワーカ依頼者結果報酬

キミでもなれる，クラウドワーカ！ ~どこでも，誰でも，どんな時でも～日本では以下のようなクラウドソーシングプラットフォームがある • Yahoo! クラウドソーシング • https://crowdsourcing.yahoo.co.jp/ • CrowdWorks
• https://crowdworks.jp/ • ランサーズ • https://www.lancers.jp/ クラウドワーカとして報酬を簡単にもらうことができるので，ぜひ試してみよう • おすすめは銀行口座等の登録が要らないYahoo! クラウドソーシング • 未成年の場合は不可等の条件がある場合が多い点に注意 • 児童労働は倫理的に大きな問題になります 17

クラウドソーシングには２つの大きな問題がある問題①「アノテーション品質が低い」 • 不特定多数の人間にアノテーションしてもらうので，ワーカの能力に幅がある • WEBサイト上でタスクを行うためBOTなどの問題もある問題②「クラウドワーカを搾取してしまいがち」 • 労働者保護法制の影響下にないので，最低賃金以下で働かせることが可能 •
仕事のやりがいなども感じずらい • OpenAIとSama社の事例のようにワーカが精神的なダメージを負うことも... 18 ①クラウドソーシングの品質管理技術の基本を知る ②倫理面にも配慮しなくてはならないことを知る本講義の目的

参考書籍本講義の内容は以下の書籍の内容と関係しています． • 森嶋厚行(著/文), 喜連川優(解説), “クラウドソーシングが不可能を可能にする -小さな力を集めて大きな力に変える科学と方法-”,
共立スマートセレクション, 共立出版(2020), https://www.hanmoto.com/bd/isbn/9784320009325 • 鹿島久嗣 (著/文), 小山聡 (著/文), 馬場雪乃 (著/文), “ヒューマンコンピュテーションとクラウドソーシング”, 機械学習プロフェッショナルシリーズ(MLP), 講談社(2016), https://www.hanmoto.com/bd/isbn/9784061529137 • Robert (Munro) Monarch (著/文), 上田隼也 (翻訳), 角野為耶 (翻訳), 伊藤寛祥 (翻訳), “Human-in-the-Loop機械学習 -人間参加型AIのための能動学習とアノテーション-”, 共立出版(2023), https://www.hanmoto.com/bd/isbn/9784320125742 19 こちらもおすすめ日本データベース学会最強DB講義シリーズクラウドソーシングとデータベース by 森嶋厚行教授（筑波大学） https://youtube.com/playlist?list=PL_VdUcCLzEklLPL5NgQA1WdzBM1z9T3qh&feature=shared

AI系の研究としてはどのあたりの分野か？ 20 大体この辺（広い！）クラウドソーシングを専門に扱う会議

AAAI Conference on Human Computation and Crowdsourcing : HCOMP 21
今年のテーマはResponsible Crowd Work for Better AI. https://www.humancomputation.com/

第１部「タスクの設計と割り当て」復習：クラウドソーシングとは何か実際のクラウドソーシングプラットフォーム：mTurkの紹介タスク設計と割り当て，ワークフローグループワーク：タスク設計をしてみよう 22

復習：クラウドソーシングによるアノテーションインターネットの発展により，どこでも，誰でも，どんな時でも，仕事ができるようにクラウドソーシングを活用してアノテーションを行えば，短時間で多くの人に仕事をやってもらえる ↓ 学習データの作成にクラウドソーシングが用いられるようになった 23 クラウドソーシング (Crowdsourcing) 不特定多数の群衆 (Crowd)
にタスクをアウトソーシングし問題を解決することクラウドソーシングプラットフォーム (webサイト) 作業報酬クラウドワーカ依頼者結果報酬

本講義で用いるクラウドソーシングの用語 24 ワーカ (worker) クラウドソーシングに参加し，作業を行ってくれる人それぞれのワーカにはワーカIDが割り当てられることが多いタスク (task)
クラウドソーシングでワーカに依頼する仕事それぞれのタスクにはタスクIDが割り当てられることが多い回答 (response) ワーカがタスクに対して，回答した結果クラウドソーシングを実施すると，（ワーカID, タスクID, 回答)のタプルを要素に持つ集合が結果として得られる

クラウドソーシングの3分類 25 マイクロタスク型比較的簡単な仕事を行うもの • ワーカがタスク依頼者の許可無くタスクに取り組める • 依頼者とワーカは基本的にコミュニケーションを取らない
例）アノテーション，アンケート調査 Yahoo! クラウドソーシングや， Amazon Mechanical Turkなどはマイクロタスク型を専門にしているプロジェクト型比較的長期にわたる仕事を行うもの • 依頼者はワーカを選考することが多い • 依頼者とワーカは密にコミュニケーションを取り，共に仕事を進める • オープンコールな業務委託例）アプリ開発，Webデザイン「ギグエコノミー」という言葉もあるように最近はプロジェクト型が注目されているコンペティション型コンペティション形式で行うもの • ワーカは自由に作品を提出できるが，報酬を貰えるのは依頼者が選んだワーカのみ，という形式 • デザインコンペなど伝統的な形式だが，ワーカを搾取しがち例）デザインコンペ，Kaggle Kaggleは実はクラウドソーシングとみなせるということ，知ってましたか？今回はマイクロタスク型の話森嶋厚行(著/文), 喜連川優(解説), “クラウドソーシングが不可能を可能にする”, 共立スマートセレクション, 共立出版(2020), p 11.

Amazon Mechanical Turk は最も有名なクラウドソーシングプラットフォームの1つ 26 https://www.mturk.com/ mTurkやAMTと略される

機械仕掛けのトルコ人 (Mechanical Turk) • 18世紀後半にヨーロッパやアメリカで話題になった機械 • トルコ人の人形（ロボット）がチェスの相手になってくれるという機械 •
しかもめちゃくちゃ強い • 実際は中に人が入っており，人間が人形を動かしていた • 現代のAIも実際には人間のアノテーションによってできている･･･ということを示唆している 27 画像引用: https://ja.wikipedia.org/wiki/トルコ人_(人形)

mTurkでのタスク発行方法（簡易版） ※実演します 1. タスクテンプレートを選ぶ • 様々なテンプレートが用意されている • https://requester.mturk.com/create/projects/new • ログインせずに見られるので覗いてみよう
2. タスクテンプレートを編集する • Crowd HTMLというもので編集できる 3. データを用意する • 分類対象のテキストや，バウンディングボックスをつけたい画像をアップロード 4. タスクの報酬等を設定して発行する • 報酬は最低賃金を下回らないように • 様々な設定項目がある，品質管理に関わるものも多い AWSのアカウントがあれば利用可能以下の記事も参考にどうぞ Amazon Mechanical Turk (mTurk) の始め方と３つの大きな落とし穴 - https://zenn.dev/takumi1001/articles/065162600b9211 28

ワークフロー設計クラウドソーシングの品質管理のためにやらなければならないこと 29 タスクの設計タスクの割り当て ※講師の独自分類なのであまり過信しないでね結果集約タスク発行前にやること（第1部）タスク発行後にやること（第2部）集約プロセスはタスクの
重複出題数に依存

クイズ：このタスクにはどんな問題があると思いますか？ 31 画像に写っている動物は何ですか？犬と猫を分類するモデルを作るために，クラウドソーシングで学習データを作りたい

データがクリーニングされているとは限らない：違うものが写っているかも 32 画像に写っている動物は何ですか？どっちを選べばいいんだろう？こんなデータを学習しても意味ないねクラウドソーシングしようとしていたデータに，テナガザルの画像が混入していたら？

データがクリーニングされているとは限らない：犬と猫だけでも問題は起きる犬と猫が同時に写っている画像があったら？ 33 画像に写っている動物は何ですか？どっちを選べばいいんだろう？こんなデータを学習しても意味ないね

第3の選択肢を追加することは有効か？→デメリットも大きい 34 画像に写っている動物は何ですか？悩まなくて済むね「その他・わからない」の回答が多くて，データがあまり集まらないなぁ依頼者ワーカ

タスク設計は簡単そうで難しい→知恵のだしどころ【大切なこと】 ①適切なタスクテンプレートを選択すること • 作りたいAIモデルに合わせてテンプレートを選ぶ • 複数選択できるのか，1つしか選べないのか・・・など ②タスクの説明を丁寧にすること • 詳しく伝える（例：犬猫以外が写っている場合は「わからない」を押してください）
• 目的を伝えるのも大切（例：視覚障害者向けにタグ付けをしています） • 例を提示する ③誤ったデータが含まれる場合を考慮すること • 依頼者が自分の目でデータを確認するのも大事 ④人間の認知特性を考慮すること • 「リンゴを青線で囲ってください」は認知負荷が高い • 「リンゴを赤線で囲ってください」ならOK ⑤やってみないとわからない • 少数のデータでタスクを試しに発行し，その結果を分析することが大切 35

タスク設計における工夫例：タスクを分割する 36 目的建物がある部分だけをこの衛星画像から取り出したい分割建物が写っていますか？建物が写っていますか？分割タスクを分割し
並列してワーカに依頼集約集約ワーカからの回答を集約し元の衛星画像に戻す衛星画像はPlanet Explorerより Joseph M. Hellerstein and David L. Tennenhouse. 2011. Searching for Jim Gray: a technical overview. Commun. ACM 54, 7 (July 2011), 77–87. https://doi.org/10.1145/1965724.1965744 分割し並列してタスクを行うことで，コストを削減し品質を向上させる 2007年に著名なデータベース研究者のジム・グレイがヨットで遭難した際．mTurkを用いて衛星画像からの捜索が試みられたことが有名（しかし，残念ながら見つからなかった）

タスク割り当て：タスクを誰にやってもらうか？クラウドソーシングは原則的にオープンコール（誰でも仕事に応募できる）しかし，誰にやってもらうか？は非常に重要！ • クラウドワーカの能力には大きなばらつきがある • BOTや「スパムワーカ」の問題もある学術的には様々な方法が提案されているが，どんなタスク割り当て手法が利用できるかはプラットフォームに大きく依存してしまう現状がある． 38
クラウドソーシングプラットフォーム (webサイト) 作業報酬クラウドワーカ依頼者結果報酬誰にやってもらう？

タスク割り当て手法の例 ①過去の実績を参考に能力の高いワーカを採用する • 過去の実績が得られる場合は有効 • プラットフォームが提供してくれる場合もあるが，信頼できるかは不透明 • 得意不得意はタスクの種類ごとに違うかも？ • 新規ワーカにとっては辛い→人をたくさん集め，早くタスクを終わらせるのが難しくなる
②始めにテストを行い，テスト合格者のみをアノテーション作業に採用する • 良い方法の1つ • テスト受験時にも報酬を払う必要があるのでやや高コスト ③適切なワーカ集団にタスクを発注する • 年齢や性別，居住地などでフィルターを行う，倫理面には注意 • アメリカ人は日本語の感情分析ができるだろうか？ • ワーカの多様性を確保することが精度向上につながることも • PCでタスクを解くのか，スマホでタスクを解くのか，デバイスを指定する 39

誰がワーカなのか？ 2014年の研究ではインド人が最も多かった（近年は傾向が異なり米国人が多い？） 40 Ellie Pavlick, Matt Post, Ann Irvine, Dmitry
Kachaev, and Chris Callison-Burch. 2014. The Language Demographics of Amazon Mechanical Turk. Transactions of the Association for Computational Linguistics, 2:79–92. (図を引用）

ワークフロー：タスク設計と割り当てを組み合わせる（本来やりたい）タスクを分割し，複数のタスクを組み合わせる 42 動物の数を数えるタスク動物の種類を識別するタスク 1匹でない場合は破棄画像に動物は何匹いますか？画像に動物は何匹いますか？複数匹動物がいる場合を排除でき，ワーカの負荷を減らせる？

ワークフローの例：Find-Fix-Verify クラウドソーシングで文章改善をするために提案されたワークフロー Find ･･･修正すべき箇所を見つけるタスク Fix ･･･複数人で修正案を出すタスク Verify ･･･
修正案の中から良いものを選ぶタスク 43 私が秋葉原に行きました．秋葉原につくばエクスプレス乗りました．つくば駅着いたまでに45分かかりました．社内からはいっぱいの田んぼが見えます． Michael S. Bernstein, Greg Little, Robert C. Miller, Björn Hartmann, Mark S. Ackerman, David R. Karger, David Crowell, and Katrina Panovich. 2015. Soylent: a word processor with a crowd inside. Commun. ACM 58, 8 (August 2015), 85–94. https://doi.org/10.1145/2791285 私は秋葉原に行きました．秋葉原でつくばエクスプレスに乗りました．つくば駅に着くまでに45分かかりました．車内からはたくさんの田んぼが見えました． Find 社内→車内私が→僕は Fix 私が→僕はは変えすぎでは？ Verify 修正案を選択する

ワークフローの例：Partition-Map-Reduce クラウドソーシングでニューヨークについて紹介する記事を作成する 44 ① ② ③ ① Partition…記事の見出しを考えてもらうタスク ② Map…見出しに対する内容のテキストを考えてもらう
タスク（複数人に割り当てる） ③ Reduce…②で作成されたテキストを要約するタスク（見出しに対する文が完成） ④ Final…②③は見出しごとに行われるので，最後に各見出しの文を集約する ④ Aniket Kittur, Boris Smus, Susheel Khamkar, and Robert E. Kraut. 2011. CrowdForge: crowdsourcing complex work. In Proceedings of the 24th annual ACM symposium on User interface software and technology (UIST '11). Association for Computing Machinery, New York, NY, USA, 43–52. https://doi.org/10.1145/2047196.2047202

タスク設計・割り当てにおける倫理問題【報酬】 • タスクに対する報酬が最低賃金を下回らないようにする • T秒で終わるタスクの報酬がE円の時，(E/T)*3600 円が時給【データと結果】 • 性的/暴力的なコンテンツが対象データに含まれていないか
• インターネットから収集したデータを処理する場合は注意 • mTurkなどではそういった画像が含まれる可能性があることを申告する必要がある • 特定属性の人間が不快になるコンテンツが含まれていないか？ • 自由入力タスクではワーカが差別的な内容を入力することがある【プラットフォーム固有の問題】 • 報酬が支払われない場合がある際は，その条件を明確に記述しておく • mTrukではワーカの回答を受理/拒否できる 45

倫理問題の事例：ImageNet の差別的なラベリング著名な画像分類データセットであるImageNetはmTurkを使ってラベリングされた． 2019年，このImageNetを用いて訓練されたAIアプリ「ImageNet Roulette」が公開された．アップロードした写真に何が写っているを教えてくれるアプリだったが，黒人やアジア人が写った画像をアップロードすると，差別的なタグがつけられることがわかった． mTurkでアノテーションを行っていたワーカが差別的なラベリングを行っていた．また研究者らは，辞書等を用いて差別語をフィルタリングしていなかった．
最終的にImageNetからは多くのラベルが削除された． 46 横山美和, AI と人種・ジェンダー問題についてアメリカから学べること, 産学官連携ジャーナル, 2021, 17 巻, 12 号, p. 4-6, 公開日 2022/01/15, Online ISSN 1880-4128, Print ISSN 2186- 2621, https://doi.org/10.1241/sangakukanjournal.17.12_4 https://www.chiark.greenend.org.uk/~ijackson/2019/ImageNet-Roulette-cambridge-2017.html

第２部「結果集約」ワーカ間一致率潜在クラスモデルによる結果集約 49

同一のタスクを複数人に割り当てて品質向上を目指す 51 この画像に写っているものは？ 1. クラゲ 2. イカ 3.タコクラゲクラゲ
イカクラゲ集約アルゴリズム同じタスクを重複して出題何倍に重複して出題するかは，コストと品質のトレードオフの関係にあるワーカ正しい結果 ※画像はTiny Imagenetより

正解がない中でどのように正解を見つけるか？：集合知 (Wisdom of the Crowd) アノテーションの品質管理には難しい問題がある集合知 (Wisdom of the
Crowd) の考えを仮定する「良いワーカの回答は一致するはずだ」あるいは，「皆と同じような回答をしているワーカは良い」 52 アノテーションしたいデータ（正解がわからない）クラゲクラゲイカワーカの回答（誰が正解がわからない）

集約における2つの観点 53 この画像に写っているものは？ 1. クラゲ 2. イカ 3.タコクラゲクラゲ
イカクラゲ集約アルゴリズムワーカワーカの回答はどの程度一致しているか？ワーカ間一致率による評価どのように回答を集約するか？潜在クラスモデルを用いた集約

ワーカ間一致率（Inter-Rater Agreement) ：ワーカの回答はどの程度一致しているか？全てのワーカの回答が全体としてどの程度一致しているかを計測する一致度が低い場合，タスク設計や割り当てに問題があった可能性がある • タスク設計や割り当てを変更した際に，改善しているかを測る指標になる • ただし，一致率が低い＝多様性が高い，ということでもあるので注意 55
タスク1 タスク2 タスク3 タスク4 タスク5 タスク6 タスク7 ワーカA クラゲクラゲイカイカタコワーカB クラゲクラゲイカクラゲクラゲワーカC クラゲタコクラゲタコタコクラゲタスク1 タスク2 タスク3 タスク4 タスク5 タスク6 タスク7 ワーカA’ イカクラゲイカタコイカタコワーカB’ クラゲタコイカタコイカクラゲワーカC’ クラゲイカクラゲクラゲ一致度：高一致度：低ワーカ間一致率の全体像についてはこの資料がわかりやすい（英語）： https://dkpro.github.io/dkpro-statistics/inter-rater-agreement-tutorial.pdf Cohen’s κなどの著名な一致率との違いや，なぜそれらではダメなのかが説明されている

代表的なワーカ間一致率：クリッペンドルフのα (Krippendorff’s α) −1 ≤ 𝛼 ≤ 1の範囲を取る統計学の領域で考え出された手法で以下のような特徴を持つ •
「偶然の一致」の可能性を補正できる (chance-corrected agreementの1つである） • 3人以上の複数人のワーカにも対応している • ワーカが全てのタスクに回答しなくても良い • クラス分類だけでなく，順序付き回帰問題，回帰問題にも適用できる • 順序付き回帰：Very Positive / Positive / Neutral / Negative / Very Negative のような選択肢の問題 • 計算方法が複雑で面倒 • 理解するには統計学の知識が必要 56 -1.0 完全な不一致 0.0 ランダムな分布 0.67 0.8 1.0 完全な一致結果は信頼できない結果は信頼できる十分ではない一般的には0以上の値を取る（ランダムより一致しない）基準値の根拠や解釈についてはこちらの資料を参照： https://dkpro.github.io/dkpro-statistics/inter-rater-agreement-tutorial.pdf

クリッペンドルフのα：計算方法(1/3)（クラス分類の場合） 3人のワーカが，7つのタスクについて，3クラス分類に取り組んでいるここで，各タスクごとに一致行列を構成する 57 タスク1 タスク2 タスク3 タスク4 タスク5 タスク6
タスク7 ワーカA クラゲクラゲイカイカタコワーカB クラゲクラゲイカクラゲクラゲワーカC クラゲタコクラゲタコタコクラゲ一致度：高クラゲイカタコクラゲ 1 イカ 1 1 タコタスク4 あるタスクに対する回答を２つ選ぶ際の組み合わせを考える（タスク４には3つの回答がある＝3・2＝6通り） 1つ目と2つ目の回答のクラスを固定して場合分けする（イカ，イカ）である回答ペアの組み合わせ：2P2 = 2 通り（イカ，クラゲ）である回答ペアの組み合わせ：2・1 = 2 通り（クラゲ，イカ）でる回答ペアの組み合わせ：1・2 = 2 通り Krippendorff, K.(2004). Content analysis : An introduction to its methodology (2nd ed.). Sage. pp 221-236. に基づく一致行列のA行B列の値は，(タスクへの回答数) （A,B)である回答ペアの組み合わせ数タスクへの回答数(タスクへの回答数−1) 総組み合わせのうち(A,B)である組み合わせの割合割合に対して回答数をかけると，一致行列合計を回答数と等しくできる

クリッペンドルフのα：計算方法(2/3)（クラス分類の場合）すべてのタスクで一致行列を計算し，足し合わせる 58 タスク1 タスク2 タスク3 タスク4 タスク5 タスク6 タスク7
ワーカA クラゲクラゲイカイカタコワーカB クラゲクラゲイカクラゲクラゲワーカC クラゲタコクラゲタコタコクラゲ一致度：高クラゲイカタコクラゲ 3 イカタコタスク1 クラゲイカタコクラゲ 2 イカタコタスク2 クラゲイカタコクラゲ 1 イカ 1 1 タコタスク4 クラゲイカタコクラゲ 1 イカタコ 1 タスク5 クラゲイカタコクラゲイカ 1 タコ 1 タスク3 クラゲイカタコクラゲイカタコ 2 タスク6 クラゲイカタコクラゲ 2 イカタコタスク7 クラゲイカタコクラゲ 7 1 1 イカ 1 1 1 タコ 1 1 2 合計 Krippendorff, K.(2004). Content analysis : An introduction to its methodology (2nd ed.). Sage. pp 221-236. に基づく

クリッペンドルフのα：計算方法(3/3)（クラス分類の場合） 59 クラゲイカタコ計クラゲ 7 1 1
9 イカ 1 1 1 3 タコ 1 1 2 4 計 9 3 4 16 一致行列（合計）タスク1 タスク2 タスク3 タスク4 タスク5 タスク6 タスク7 ワーカA クラゲクラゲイカイカタコワーカB クラゲクラゲイカクラゲクラゲワーカC クラゲタコクラゲタコタコクラゲ一致度：高次に，一致行列の各行・各列の和を計算する．これは，各クラスへの総回答数に等しくなる．ここで，クリッペンドルフのαは， 𝛼 = 1 − 𝐷0 𝐷𝑒 = 1 − タスクごとの不一致率の平均全体の不一致率の平均として定義される． 𝐷0 = 全回答数 − 一致行列の対角要素の和全回答数 = 16 − (7 + 1 + 2) 16 𝐷𝑒 = 全回答数2 − 各クラスへの総回答数2の和全回答数(全回答数 − 1) = 162 − (92 + 32 + 42) 16・(16 − 1) 𝛼 = 1 − 𝐷0 𝐷𝑒 = 1 − 16 − 1 16 − 7 + 1 + 2 162 − 92 + 32 + 42 = 1 − 15 ⋅ 6 150 = 𝟎. 𝟒𝟎 Krippendorff, K.(2004). Content analysis : An introduction to its methodology (2nd ed.). Sage. pp 221-236. に基づく

クリッペンドルフのα：別の結果でも計算してみよう 60 クラゲイカタコ計クラゲ 3 2.5 0.5
6 イカ 2.5 0 3.5 6 タコ 0.5 3.5 0 4 計６６ 4 16 一致行列（合計） 𝐷0 = 全回答数 − 一致行列の対角要素の和全回答数 = 16 − (3 + 0 + 0) 16 𝐷𝑒 = 全回答数2 − 各クラスへの総回答数2の和全回答数(全回答数 − 1) = 162 − (62 + 62 + 42) 16・(16 − 1) 𝛼 = 1 − 𝐷0 𝐷𝑒 = 1 − 16 − 1 16 − 3 + 0 + 0 162 − 62 + 62 + 42 = 1 − 15 ⋅ 13 168 = −𝟎. 𝟏𝟔 タスク1 タスク2 タスク3 タスク4 タスク5 タスク6 タスク7 ワーカA’ イカクラゲイカタコイカタコワーカB’ クラゲタコイカタコイカクラゲワーカC’ クラゲイカクラゲクラゲ一致度：低 Krippendorff, K.(2004). Content analysis : An introduction to its methodology (2nd ed.). Sage. pp 221-236. に基づく

ハンズオン：実際にクリッペンドルフのαをPythonで計算してみよう (20分) 実際にはライブラリを用いてクリッペンドルフのαを計算できるので，複雑な計算方法を知る必要はあまりない． 1. https://github.com/takumi1001/seccamp2024_D2/blob/main/01_Inter- Rater_Agreement.ipynbにアクセスする 2. を押す 3.
順番にセルを実行していく（初めに警告が出ますが今回は「このまま実行」でOK） 61 https://pypi.org/project/krippendorff/

（補足）物体検出におけるワーカ間一致度：IoU (Intersection over Union) バウンディングボックスなどの物体検出のアノテーションではクリッペンドルフの αを計算できない 62 猫を長方形で囲んでくださいワーカA ワーカC
ワーカB IoU = バウンディングボックスの積集合バウンディングボックスの和集合物体検出のアノテーションについては「Human-in-the-loop機械学習」10章2節に詳しい

単純多数決 (Majority Vote) は最もシンプルな集約方法 64 この画像に写っているものは？ 1. クラゲ 2. イカ
3.タコクラゲクラゲイカクラゲ単純多数決

能力が高いワーカが少数の場合，単純多数決はかえって品質低下を招く 65 クラゲイカイカイカ単純多数決クラウドソーシングではワーカの能力に幅がある誤った結果能力:低
能力:低能力:高 A B C この画像に写っているものは？ 1. クラゲ 2. イカ 3.タコ

ワーカに重みをつけて多数決することで，品質向上を目指す 66 クラゲイカイカクラゲ重み付き多数決事前にワーカの能力がわかっている場合はワーカごとに重み付けした多数決が有効しかし，ワーカの能力は不明であることが多い
正しい結果能力:低能力:低能力:高 A B C この画像に写っているものは？ 1. クラゲ 2. イカ 3.タコ重み: 0.8 重み: 0.3 重み: 0.1 クラゲ＝1*0.8=0.8 イカ＝1*0.3+1*0.1=0.4

潜在クラスモデルはワーカの能力を推定し，重みを学習して集約する教師無し機械学習を用いて，ワーカの能力を推定しながら集約を行う方法潜在クラスモデル (Latent Class Model) カテゴリカルな観測変数から潜在変数を推測するモデル 67 ワーカタスク
回答ワーカA タスク1 クラゲワーカA タスク3 イカワーカA タスク7 タコワーカB タスク1 イカワーカB タスク7 タコワーカC タスク1 クラゲ･･･入力（観測変数）ワーカの回答結果モデル（教師無し機械学習）出力（潜在変数）ワーカの能力とそれをもとにした集約結果ワーカ能力ワーカA 高ワーカB 低ワーカC 低タスクラベルタスク1 クラゲタスク2 イカタスク3 イカタスク4 タコタスク5 クラゲタスク6 クラゲ･･････集合知の考え方に基づき，教師データなしで推定を行う他の潜在変数を推定することも多い

代表的な集約アルゴリズム: Dawid-Skene 法 69 クラゲイカタコクラゲ 0.33 0.33
0.33 イカ 0.33 0.33 0.33 タコ 0.33 0.33 0.33 この画像に写っているものは？ 1. クラゲ 2. イカ 3.タコクラゲイカイカクラゲ正しい結果を推定できる能力:？能力:？能力:？ A B C E-Step ワーカの能力を加味し，各タスクの真のラベルを予測この画像は？クラゲ： 80% イカ： 17% タコ: 3% M-Step 各ワーカの能力（混同行列）とクラスの周辺分布を推定能力:低 C クラゲイカタコクラゲ 0.9 0.08 0.02 イカ 0.1 0.9 0.1 タコ 0.03 0.02 0.95 能力:高 A クラゲイカタコクラゲ 0.6 0.2 0.2 イカ 0.3 0.5 0.2 タコ 0.2 0.4 0.4 能力:低 B 真のラベルが「イカ」であるときに「クラゲ」と回答する確率を意味する EMアルゴリズム E-stepとM-stepを繰り返す入力出力 Dawid,A.P.; Skene,A.M. Maximum Likelihood Estimation of Observer Error-Rates Using the EM Algorithm. Applied Statistics. vol. 28, no. 1, p. 20-28, 1979.

Dawid-Skene法の仕組み(1/4)：文字の定義 70 ワーカ集合 𝐊 例: 𝐊 = {ワーカ𝑨, ワーカ𝑩, ワーカC}
タスク集合 𝐈 例: I= {タスク𝟏, タスク𝟐, タスク𝟑} クラス集合 𝐉 例: J= {クラゲ, イカ, タコ} 観測変数 𝑛 𝑖𝑗 𝑘 ワーカkがタスクiにクラスjと回答した回数(0 or 1 が普通) = ワーカの回答結果潜在変数 𝐸𝑖𝑗 タスクiの真のクラスがjである場合に1，そうでない場合に0となる期待値，最終的に欲しいもの潜在変数 𝜋 𝑗𝑙 𝑘 ワーカkが真のクラスがjであるタスクにlと回答する確率＝ワーカkの混同行列の各セルを表す潜在変数クラスjの周辺確率＝真のクラスがクラスjであるタスクの割合 𝑝𝑗 クラゲイカタコクラゲ 0.9 0.08 0.02 イカ 0.1 0.9 0.1 タコ 0.03 0.02 0.95 能力:高 A 真のラベルが「イカ」であるときに「クラゲ」と回答する確率を意味するワーカタスク回答ワーカA タスク1 クラゲワーカA タスク3 イカワーカA タスク7 タコワーカB タスク1 イカワーカB タスク7 タコワーカC タスク1 クラゲ･･･

Dawid-Skene法の仕組み(2/4)：E-step 真のクラスの期待値を計算 71 𝐸𝑖𝑗 = 𝑝𝑗 ς𝑙∈J ς𝑘∈K 𝜋 𝑗𝑙
𝑘 𝑛 𝑖𝑙 𝑘 ς 𝑞∈J 𝑝𝑞 ς 𝑙∈J ς 𝑘∈K 𝜋 𝑞𝑙 𝑘 𝑛 𝑖𝑙 𝑘 ワーカｋの重みつき1票全ワーカでのタスクiがjであるという同時確率分子をすべてのクラスについて計算した同時確率クラスjである確率/すべてのクラスでの確率で期待値を計算

Dawid-Skene法の仕組み(3/4)：M-step ワーカの能力と周辺確率を推定 72 𝑝𝑗 = σ𝑖∈𝐼 𝐸𝑖𝑗 |I| 𝜋 𝑗𝑙
𝑘 = σ𝑖∈𝐼 𝐸𝑖𝑗 𝑛 𝑖𝑗 𝑘 σ 𝑚∈J σ 𝑖∈𝐼 𝐸𝑖𝑗 𝑛 𝑖𝑚 𝑘 真のクラスがクラスjであるタスクの割合を計算している ←総タスク数タスクの真のクラスの期待値を用いて，混同行列を計算するクラスjに関する場合のみを分子にすべてのクラスでの和を分母にするクラゲイカタコクラゲ 0.9 0.08 0.02 イカ 0.1 0.9 0.1 タコ 0.03 0.02 0.95 能力:高 A 真のラベルが「イカ」であるときに「クラゲ」と回答する確率を意味する混同行列

Dawid-Skene法の仕組み(4/4)：初期化とEMアルゴリズムの実行 E-stepを以下のように初期化し，EMアルゴリズムを実行する E-step (初期化) → M-step → E-step → M-step
→ E-step → M-step → E-step･･･と繰り返すことで集約を行う．【終了条件】 • 最大ループ回数に達したら終了する • 損失(loss)が一定の値以下になったら終了する 73 𝐸𝑖𝑗 = σ𝑘∈K 𝑛 𝑖𝑗 𝑘 σ 𝑙∈J σ 𝑘∈K 𝑛 𝑖𝑙 𝑘 やっていることはとても単純３人のワーカが（クラゲ，クラゲ，タコ）と回答した場合クラゲ66%，タコ33%に初期化される教師無し学習でなぜ損失が計算できるのかについては，EMアルゴリズムの理論を参照（非常に難しい...）． C.M.ビショップ『パターン認識と機械学習(PRML)』の第9章「混合モデルとEM」などに説明されている．

ハンズオン：PythonでDawid-Skene法を試す (20分) 2022年にクラウドソーシング企業のToloka社がCrowd-Kitというライブラリを作成したことで，様々な集約アルゴリズムを簡単に使うことが可能になった． 1. https://github.com/takumi1001/seccamp2024_D2/blob/main/02_Dawid- Skene_Aggregation.ipynbにアクセスする 2. を押す 3.
順番にセルを実行していく（初めに警告が出ますが今回は「このまま実行」でOK） 74 https://github.com/Toloka/crowd-kit

（補足）クラス分類以外での集約アルゴリズム【順序付き回帰問題・回帰問題】 • 平均値が使われることが多い • 潜在クラスモデルを用いた方法も提案されている (Raykar et al. 2010)
• 実用されているかは微妙，実装も入手しづらい【テキスト自由入力タスク】 • 原理的に難しい，集約というよりは「どれが一番良いか」を選ぶ問題になる • 埋め込み(Embedding)技術を利用した手法が提案されている • Crowd-Kitからも利用できる：https://crowd-kit.readthedocs.io/en/stable/texts/ • 万能な方法ではないので，仕組みを理解した上で使用する必要がある • ワークフローの考えを使い，クラス分類に変換するのも手 • 「自由入力タスク」→「関連性確認タスク」【物体検出（画像セグメンテーションなど）】 • ピクセル単位で多数決や潜在クラスモデルを適用することができる • 「はい/いいえ」のクラス分類に問題を変換する • Crowd-Kitからも利用可能：https://crowd-kit.readthedocs.io/en/stable/segmentation/ 75 Vikas C. Raykar, Shipeng Yu, Linda H. Zhao, Gerardo Hermosillo Valadez, Charles Florin, Luca Bogoni, and Linda Moy. 2010. Learning From Crowds. J. Mach. Learn. Res. 11 (3/1/2010), 1297–1322.

集約プロセスにおける倫理上の注意 • 安易に特定のワーカを「スパム」や「能力が低い」と断定しない • タスク設計の問題であるかもしれない • ワーカとタスク依頼者のバックグラウンドが違うために起こる問題かもしれない • ワーカは色覚異常を持っているかもしれない •
ワーカの住んでいる地域では，同じ単語でも意味が違うかもしれない • タスク説明の英語がおかしかったのかもしれない（日本人にありがち？） • 潜在クラスモデルによる能力推定には根拠がない • ワーカの能力は，正解データが存在するタスクを解いてもらうことでしか測れない • ワーカ間一致率や集約アルゴリズムは多様性を減らしてしまうことに注意 • 少数派の意見がデータセットに反映されづらくなる • 少数派の意見を反映させるための手法も検討されてきている (Davani et al. 2022) • 近年，クラウドワーカが裏でChatGPTを使っているのでは？という疑惑がある(Veselovsky et al. 2023) • そのような場合，集約は意味をなさないかもしれない • もちろん，安易にワーカをChatGPT認定してはいけない • ワーカ間一致率を「p値ハックキング」しない • ワーカ間一致率は統計検定におけるp値のようなもの • 一致率を向上させることは有効だが，間違った方法で向上させないこと 76 Davani , A., Diaz, M., Vinodkumar P. (2022). Dealing with Disagreements: Looking Beyond the Majority Vote in Subjective Annotations. Transactions of the Association for Computational Linguistics, 10, pp. 92–110. Veselovsky, V., Ribeiro, M.H., & West, R. (2023). Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks. ArXiv, abs/2306.07899. Robert (Munro) Monarch (著/文), 上田隼也 (翻訳), 角野為耶 (翻訳), 伊藤寛祥 (翻訳), “Human-in-the-Loop機械学習 -人間参加型AIのための能動学習とアノテーション-”, 共立出版(2023), pp240-241.

第３部「能動学習とHuman-in-the-loop」能動学習の紹介 77

Human-in-the-loop (HiTL) : 人間参加型の機械学習 78 AIモデル人間によるアノテーション AIから人間へのパスを追加し，ループを作る

（再掲）AIには「学習データ」が不可欠：教師あり機械学習の概要 79 モデル訓練学習データ･･･金魚金魚金魚カエルカエル
機械学習アルゴリズムが金魚とカエルを分類するためのパターンを見つける分類モデルモデル運用分類モデルこれは金魚です未知データに対して，金魚かカエルか分類できるようになる ※画像はTiny Imagenetより

AIは間違えてしまうこともある 80 モデル訓練学習データ･･･金魚金魚金魚カエルカエル
機械学習アルゴリズムが金魚とカエルを分類するためのパターンを見つける分類モデルモデル運用分類モデルこれはカエルです間違えてしまうこともある ※画像はTiny Imagenetより背景が緑で遠目だとカエルっぽい→ 一般に学習データが多いほど精度は良くなるが，多くのデータをアノテーションするのは困難

能動学習 (Active Learning): AIモデルが能動的に学習する 81 AIモデルこのデータの分類自信ないんだけど，正解教えて？人間それは金魚だよ
AIモデルありがとう！学習するね！モデルが能動的に教師ラベルのないデータのラベルを人間に問い合わせ優先的に有用なデータを学習する仕組み

能動学習によるHuman-in-the-loop 82 AIモデル人間によるアノテーション AIモデル未知のデータのラベルを予測人間によるアノテーションラベリングされたデータ学習したいデータ
大半のデータは予測して終了予測の過程でAIが追加で学習すべき一部のデータをサンプリングする追加学習データ金魚金魚 ? ? 学習どのようにして，学習すべきデータをサンプリングするか？

能動学習のサンプリング手法 1. 不確実性サンプリング • 不確実性の高い予測を伴うデータを優先的にサンプリングする • 「AIが自信の無いデータを人間に依頼する」 2. 多様性サンプリング •
学習データの多様性が高まるようにサンプリングする • 「AIが今まで見たことがないデータを人間に依頼する」 3. ランダムサンプリング • ランダムにサンプリングする複数の手法を組み合わせることもできる 83

不確実性サンプリング：AIモデルの不確実性 (Uncertainty) 84 1.クラゲ : 0.80 2.イカ： 0.15 3.タコ
: 0.05 1.クラゲ : 0.40 2.イカ： 0.45 3.タコ : 0.05 0 1 確率 1 2 3 0 1 確率 1 2 3 Uncertainty : Low Uncertainty : High 多くの分類モデルは各クラスである確率分布を予測している（Softmax関数）この確率分布は不確実性と見なせるこの画像に写っているものは？ 1. クラゲ 2. イカ 3.タコ

不確実性サンプリング：不確実性と決定境界機械学習分類モデルは決定境界を持つが，決定境界に近いデータは不確実性が高い不確実性サンプリングでは，決定境界に近いデータをラベリングし，再学習により決定境界を修正する 85 クラゲイカタコイカクラゲ
タコイカクラゲタコ再学習前の決定境界再学習後の決定境界決定境界に近いデータをアノテーションし再学習

不確実性サンプリング：不確実性の測り方不確実性の計測方法には主に４つの方法がある０~1の範囲の値で大きいほど不確実性が高い，という指標であるとうれしい 1. 最小確信度 2. 確信度マージン 3. 確信度比率 4.
エントロピー確信度とは各クラスごとに予測された確率値のこと 86 1.クラゲ : 0.40 2.イカ： 0.45 3.タコ : 0.05 0 1 確率 1 2 3 縦軸が確信度 Robert (Munro) Monarch (著/文), 上田隼也 (翻訳), 角野為耶 (翻訳), 伊藤寛祥 (翻訳), “Human-in-the-Loop機械学習 -人間参加型AIのための能動学習とアノテーション-”, 共立出版(2023), pp 57-66.

不確実性の測り方：最小確信度最も高い確信度と100%確信度との差を不確実性とみなす．0～1の値を取る． 87 1.クラゲ : 0.80 2.イカ： 0.15 3.タコ
: 0.05 0 1 確率 1 2 3 クラス数(1 − 最大確信度) クラス数 − 1 = 3(1 − 0.8) 3 − 1 = 𝟎. 𝟑 1.クラゲ : 0.40 2.イカ： 0.45 3.タコ : 0.05 0 1 確率 1 2 3 クラス数(1 − 最大確信度) クラス数 − 1 = 3(1 − 0.45) 3 − 1 = 𝟎. 𝟖𝟐𝟓 補足最大確信度の最小値は 1 クラス数になる．この際，最小確信度による不確実性は，クラス数( クラス数−1 クラス数 ) クラス数−1 で1になる．ゆえに，このような式の形を取ると，最大値1，最小値0の不確実性になる． Robert (Munro) Monarch (著/文), 上田隼也 (翻訳), 角野為耶 (翻訳), 伊藤寛祥 (翻訳), “Human-in-the-Loop機械学習 -人間参加型AIのための能動学習とアノテーション-”, 共立出版(2023), pp 57-66.

不確実性の測り方：確信度マージン 88 最も高い確信度と2番目に高い確信度の差を不確実性とみなす．0～1の値を取る． 1.クラゲ : 0.80 2.イカ： 0.15 3.タコ
: 0.05 0 1 確率 1 2 3 1 − 1番高い確信度 − 2番目の確信度 = 1 − 0.8 − 0.15 = 𝟎. 𝟑𝟓 1.クラゲ : 0.40 2.イカ： 0.45 3.タコ : 0.05 0 1 確率 1 2 3 1 − 1番高い確信度 − 2番目の確信度 = 1 − 0.45 − 0.40 = 𝟎. 𝟗𝟓 Robert (Munro) Monarch (著/文), 上田隼也 (翻訳), 角野為耶 (翻訳), 伊藤寛祥 (翻訳), “Human-in-the-Loop機械学習 -人間参加型AIのための能動学習とアノテーション-”, 共立出版(2023), pp 57-66.

不確実性の測り方：確信度比率 89 上位２つの比率を不確実性とみなす．0～1の値を取る． 1.クラゲ : 0.80 2.イカ： 0.15 3.タコ
: 0.05 0 1 確率 1 2 3 2番目の確信度 1番高い確信度 = 0.15 0.8 = 𝟎. 𝟏𝟖𝟕𝟓 1.クラゲ : 0.40 2.イカ： 0.45 3.タコ : 0.05 0 1 確率 1 2 3 2番目の確信度 1番高い確信度 = 0.40 0.45 = 𝟎. 𝟖𝟖𝟖𝟗 Robert (Munro) Monarch (著/文), 上田隼也 (翻訳), 角野為耶 (翻訳), 伊藤寛祥 (翻訳), “Human-in-the-Loop機械学習 -人間参加型AIのための能動学習とアノテーション-”, 共立出版(2023), pp 57-66.

不確実性の測り方：エントロピーシャノンのエントロピーを不確実性に用いる 90 シャノンのエントロピー（情報量）確率分布𝑃 = 𝑝1 , 𝑝2 ,
… , 𝑝𝑛 について，そのエントロピー𝐻(𝑃)は 𝐻 𝑃 = − ෍ 𝑖=1 𝑛 𝑝𝑖 log2 𝑝𝑖 ※ σ 𝑖=1 𝑛 𝑝𝑖 = 1 であることに注意エントロピーは0以上の値を取り，また，確率分布Pが一様分布（𝑝1 = 𝑝2 = ⋯ = 𝑝𝑛 )のとき，最大値log2 𝑛を取る．エントロピーを「log2 クラス数」で割ることで， 0から1の範囲で不確実性を表せる． 1.クラゲ : 0.80 2.イカ： 0.15 3.タコ : 0.05 1.クラゲ : 0.40 2.イカ： 0.45 3.タコ : 0.05 𝐻(𝑃) log2 3 = 0.884 1.585 = 𝟎. 𝟓𝟓𝟖 𝐻(𝑃) log2 3 = 1.263 1.585 = 𝟎. 𝟕𝟗𝟕 Robert (Munro) Monarch (著/文), 上田隼也 (翻訳), 角野為耶 (翻訳), 伊藤寛祥 (翻訳), “Human-in-the-Loop機械学習 -人間参加型AIのための能動学習とアノテーション-”, 共立出版(2023), pp 57-66.

不確実性サンプリングと多様性サンプリングの違い 91 AIモデルこのデータの分類自信ないんだけど，正解教えて？ AIモデル自分赤色の金魚しか見たことないんだけど，黒い金魚もいるって本当？ちょっと見せてよ？
不確実性サンプリング「既知の未知」に対処する AIモデルが認識している不確実さを修正ソクラテスの「無知の知」多様性サンプリング「未知の未知」に対処する AIモデルが認識できていない問題を修正するわからないことも知らない状況に知識を導入する Robert (Munro) Monarch (著/文), 上田隼也 (翻訳), 角野為耶 (翻訳), 伊藤寛祥 (翻訳), “Human-in-the-Loop機械学習 -人間参加型AIのための能動学習とアノテーション-”, 共立出版(2023), p 21.

多様性サンプリングでは，決定境界付近にない誤分類を改善できるどのようにサンプリング対象を発見するかが多様性サンプリングの重要な課題多様性サンプリング：多様性と決定境界 92 クラゲイカタコイカクラゲタコ
イカタコ再学習前の決定境界再学習後の決定境界多様性サンプリングによる再学習別種のタコタコクラゲ

多様性サンプリングの手法モデルベースの外れ値サンプリング • 今まで学習していたデータとは異なるデータ（外れ値）を検出し，サンプリング対象にする • ニューラルネットワークのニューロン活性度等から，外れ値をモデルベースで発見するクラスタベースのサンプリング • 能動学習対象のモデルとは独立した方法でデータをグルーピングする •
各グループからバランス良く学習する，グループの代表値や外れ値を発見し学習する代表点サンプリング • 現在の学習データの分布を本来のデータ分と布一致させるようなデータをサンプリングする • 不確実性サンプリングなどと併用することが多い実世界の多様性を考慮したサンプリング • 実世界の知識を活用して多様性サンプリングを行う • 例：異なる言語のデータを同数確保するなど 93 Robert (Munro) Monarch (著/文), 上田隼也 (翻訳), 角野為耶 (翻訳), 伊藤寛祥 (翻訳), “Human-in-the-Loop機械学習 -人間参加型AIのための能動学習とアノテーション-”, 共立出版(2023), pp 85-124.

多様性サンプリング：モデルベースの外れ値サンプリングモデルが学習したデータに類似しないデータはニューロン活性度が低くなる 94 Softmax関数入力データ出力（不確実性）ニューロン活性度 (出力値)を得る（※他の層でも良いが最終層に近い方が良い）学習したデータと類似しないデータは
外れ値である可能性が高い ↓ 未知データを入力した際の特定層の各ニューロン活性度を計測 ↓ 各ニューロンの活性度の平均値等で未知データを並べ替える ↓ 平均活性度が低い順にサンプリング Robert (Munro) Monarch (著/文), 上田隼也 (翻訳), 角野為耶 (翻訳), 伊藤寛祥 (翻訳), “Human-in-the-Loop機械学習 -人間参加型AIのための能動学習とアノテーション-”, 共立出版(2023), pp 85-124.

多様性サンプリング：クラスタベースのサンプリング k-means法などの教師無しクラスタリング手法でデータをグルーピングする興味深いデータを優先づけするためのいくつかの手法がある 95 クラゲイカタコ ③クラスタによる外れ値をサンプリング ①各クラスタから均等にランダムサンプリング ②クラスタの中心点（セントロイド）をサンプリング
Robert (Munro) Monarch (著/文), 上田隼也 (翻訳), 角野為耶 (翻訳), 伊藤寛祥 (翻訳), “Human-in-the-Loop機械学習 -人間参加型AIのための能動学習とアノテーション-”, 共立出版(2023), pp 85-124.

多様性サンプリング：代表点サンプリング学習データの分布が本来のデータ分布に一致するようにサンプリングする ※あるサンプルが母集団の特性をよく表していることを「代表性がある」という 96 クラゲイカタコイカタコ学習データの分布
クラゲ本来の分布代表点 Robert (Munro) Monarch (著/文), 上田隼也 (翻訳), 角野為耶 (翻訳), 伊藤寛祥 (翻訳), “Human-in-the-Loop機械学習 -人間参加型AIのための能動学習とアノテーション-”, 共立出版(2023), pp 85-124.

(再掲) 能動学習によるHuman-in-the-loop 97 AIモデル人間によるアノテーション AIモデル未知のデータのラベルを予測人間によるアノテーションラベリングされたデータ
学習したいデータ大半のデータは予測して終了予測の過程でAIが追加で学習すべき一部のデータをサンプリングする追加学習データ金魚金魚 ? ? 学習不確実性サンプリング多様性サンプリング

(補足) 能動学習のためのプラットフォーム能動学習のループを手作業で回すのは結構大変，自動化サービスが欲しい Amazon SageMaker Ground Truth https://aws.amazon.com/jp/sagemaker/groundtruth/ • AWSのHuman-in-the-loopモデル開発のためのサービス
• mTurkのクラウドワーカを含めて，様々なアノテータを利用できる 98

本講義のまとめ AIは人間でできている • AIの裏側には必ず人間がいる • 人間が作るデータの品質を向上させることがAIの品質向上には必要 • クラウドソーシングは短時間で多くの人に仕事を依頼できるタスク設計とワークフロー •
タスク設計は品質管理の重要な要素で，とても工夫しがいがある • 複数のタスクを組み合わせるワークフローは有力な手法結果集約 • ワーカ間一致率（クリッペンドルフのα）を計算することで品質を把握できる • 潜在クラスモデルによる集約（Dawid-Skene法など）は品質向上をもたらす能動学習とHuman-in-the-loop • 能動学習によってHuman-in-the-loopによるAI開発が可能になる • 不確実性サンプリングと多様性サンプリングで追加で学習すべきデータを発見できる 99

クラウドソーシングによる学習データ作成と品質管理（セキュリティキャンプ2024全国大会D2講義資料）

クラウドソーシングによる学習データ作成と品質管理（セキュリティキャンプ2024全国大会D2講義資料）

More Decks by Takumi TAMURA

Other Decks in Research

Featured

Transcript