Dawid-Skene集約における不均一タスク数の影響緩和による人間-AIハイブリッドクラウドソーシングの品質向上@DEIM2024

1 Dawid-Skene集約における不均一タスク数の影響緩和による人間-AIハイブリッドクラウドソーシングの品質向上第16回データ工学と情報マネジメントに関するフォーラム (DEIM2024) 田村匠†, 伊藤寛祥†, 小山
聡‡, 森嶋厚行† † 筑波大学 ‡名古屋市立大学

2 発表内容 2 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2.
AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある人間-AI混在状況においては，AIの能力が未知であるために，ワーカの能力を推定しながら集約を行うDawid-Skene (DS) 法が，結果集約手法として適している人間-AI混在状況で生じるタスク数の不均一は，Dawid-Skene 集約結果にどのような影響を与えるのか？集約結果が多くのタスクに取り組んだAIの回答結果に類似し， AIの持つバイアスを集約結果にもたらすリスクがある不均一の影響がある場合，その影響を緩和し集約結果を品質向上させることは可能か？回答数の少ないワーカの能力推定を補正することで，提案手法は集約精度を維持しながら，不均一の影響を緩和することができた

4 4 労働力不足を補うためにはAI技術の活用が必要我が国の労働力は年々不足ＡＩなどの情報技術を活用し生産性を向上させる必要がある総務省｜令和3年版情報通信白書｜我が国が直面する社会・経済課題より引用 - https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r03/html/nd132100.html
我が国の人口構成の推移

5 AIが人間と同じようにクラウドソーシングに取り組む， AIワーカのアイデアが提案されている [1] AIワーカはクラウドソーシングの労働力不足を補うこの画像に写っているものは？ 1. クラゲ 2. イカ
3.タコクラゲクラゲイカ人間ワーカ A B C 学習済みモデルを入手するクラゲクラゲタコワーカとして参加 AIワーカ [1] Sihem Amer-Yahia, et al., Making AI machines work for humans in FoW. ACM SIGMOD Record, Vol. 49, No. 2, pp. 30–35, 2020. 5

6 AIは人間と異なる２つの特徴を持つ 1. 人間よりも圧倒的に多くのタスクに取り組める 6 2. AI固有のバイアスをもたらすことがある AIには様々なバイアスや公平性の問題が
あることが知られている [2] [2] Ninareh Mehrabi, Fred Morstatter, Nripsuta Saxena, Kristina Lerman, and Aram Galstyan. A survey on bias and fairness in machine learning. ACM Comput. Surv., Vol. 54,No. 6, 2021. 学習データの偏り不適切な特徴量学習データの不足不適切な予測

7 7 具体例: AIにはバイアスや公平性の問題がある大規模言語モデルは反イスラム的な出力をする傾向がある [3] GPT-3は “Muslim” を“terrorist” に結びつけがちであると報告
性別分類：肌の色調が明るいほど女性的である笑顔かどうか判定：肌の色相が赤に近い人ほど笑顔である [3] Abubakar Abid, Maheen Farooqi, and James Zou. Persistent Anti-Muslim Bias in Large Language Models. In Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society (AIES ‘21), pp 298-306, 2021. [4] William Thong, Przemyslaw Joniak, Alice Xiang. Beyond Skin Tone: A Multidimensional Measure of Apparent Skin Color. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pp. 4903-4913, 2023. 画像認識AIは肌の色に対してバイアスを抱えている [4]

9 結果集約はクラウドソーシングの品質を向上させるこの画像に写っているものは？ 1. クラゲ 2. イカ 3.タコクラゲクラゲ
イカクラゲ集約アルゴリズム同じタスクを重複して出題人間ワーカ正しい結果 A B C 9

10 能力の高いワーカを見つけ，優先させる手法が必要単純多数決は品質低下を招いてしまうこの画像に写っているものは？ 1. クラゲ 2. イカ 3.タコクラゲ
イカイカイカ単純多数決能力の高いワーカが少数人間ワーカ誤った結果能力:低能力:低能力:高 A B C 10

11 クラゲイカタコクラゲ 0.33 0.33 0.33 イカ 0.33
0.33 0.33 タコ 0.33 0.33 0.33 Dawid-Skene (DS) 法はワーカの能力を推定できる [5] この画像に写っているものは？ 1. クラゲ 2. イカ 3.タコクラゲイカイカクラゲ人間ワーカの投票結果正しい結果を推定できる能力:？能力:？能力:？ A B C E-Step ワーカの能力を加味し，各タスクの真のラベルを予測この画像は？クラゲ： 80% イカ： 17% タコ: 3% M-Step 各ワーカの能力（混同行列）とクラスの周辺分布を推定能力:低 C クラゲイカタコクラゲ 0.9 0.08 0.02 イカ 0.1 0.9 0.1 タコ 0.03 0.02 0.95 能力:高 A クラゲイカタコクラゲ 0.6 0.2 0.2 イカ 0.3 0.5 0.2 タコ 0.2 0.4 0.4 能力:低 B 真のラベルが「イカ」であるときに「クラゲ」と回答する確率を意味する EMアルゴリズム E-stepとM-stepを繰り返す 11 入力出力 [5] Dawid,A.P.; Skene,A.M. Maximum Likelihood Estimation of Observer Error-Rates Using the EM Algorithm. Applied Statistics. vol. 28, no. 1, p. 20-28, 1979.

12 人間-AI混在状況ではDS法を用いるのが自然この画像に写っているものは？ 1. クラゲ 2. イカ 3.タコクラゲイカ
イカ？ Dawid-Skene法インターネット等から入手したAIワーカはその能力が未知また，状況によっては人間とAIの識別は困難 A B 人間の能力がわからない 12 能力推定が可能

14 ＡＩには様々なバイアスや公平性の問題がある仮説: DS集約はAIのバイアスを集約結果にもたらすのでは？ 14 DS法は能力が高いとみなされた一部のワーカの回答結果を優先ＡＩワーカが圧倒的に多くのタスクを解いた場合，集約結果がＡＩの回答に類似してしまうのでは？

15 関連研究(RQ1): タスク数不均一に着目した研究はない 15 人間-AI混在状況におけるクラウドソーシング • Kobayashiらは混在状況におけるタスク割り当て手法を提案 [6] • さらにKandaらはKobayashiらの手法を改善している
[7] これらはタスク割り当て手法について議論しており，結果集約については議論されていない混在状況における結果集約についてはTamuraらがAIワーカの出力する不確実性を集約に利用することで品質向上が可能になることを報告 [8] タスク数不均一の問題については考慮していない [6] Masaki Kobayashi, Kei Wakabayashi, and Atsuyuki Morishima. Human+AI crowd task assignment considering result quality requirements. In Proceedings of the AAAI Conference on Human Computation and Crowdsourcing (HCOMP), Vol. 9, pp. 97–107, 2021. [7] Tomoya Kanda, Hiroyoshi Ito, and Atsuyuki Morishima. Efficient evaluation of AI workers for the human+AI crowd task assignment. In Proceedings of IEEE International Conference on Big Data (BigData), pp. 3995–4001, 2022. [8] Takumi Tamura, Hiroyoshi Ito, Satoshi Oyama, and Atsuyuki Morishima. Influence of AI’s uncertainty in the Dawid-Skene aggregation for human-AI crowdsourcing. In Information for a Better World: Wisdom, Well-being, Win-win, 19th International Conference on Information (iConference 2024), in press.

16 1. データセットとタスクの作成 2. 人工人間ワーカの作成（２種類） 3. AIワーカの作成（３種類） 4. 不均一さを変化させ実験実験1:
シミュレーションによって不均一の影響を評価 16 シミュレーション実験の流れ異混同行列人間ワーカ異正答率人間ワーカ特徴量の欠落誤ったサンプリング偏った能力

17 実験1: 1.データセットとタスクの作成（詳細は論文参照） 17 10,000件のデータからなる４クラス分類のデータセットを作成 7,000件→訓練データ 3,000件→テストデータ人間ワーカの作成や AIワーカの訓練に利用人間・AIワーカが取り組む
タスクとして評価に利用

19 ワーカ間で混同行列が異なるタイプと正答率のみ異なるタイプの２種類実験1: 2.人工人間ワーカの作成（２種類）（詳細は論文参照） 19 クラゲイカタコクラゲ 0.9
0.08 0.02 イカ 0.1 0.9 0.1 タコ 0.03 0.02 0.95 真のラベルが「イカ」であるときに「クラゲ」と回答する確率を意味する異混同行列ワーカ混同行列は「どのように間違うのか」を意味している DS法はワーカの能力を混同行列で推定異正答率ワーカ回答した問題数正解した問題数正答率は「間違い方」を加味しない既存集約手法である OneCoinモデル [9] や GLAD [10] は正答率でワーカの能力を推定 [9] Yuchen Zhang, Xi Chen, Dengyong Zhou, and Michael I. Jordan. Spectral methods meet EM: A provably optimal algorithm for crowdsourcing. In Proceedings of the 27th International Conference on Neural Information Processing Systems (NIPS), Vol. 1, pp. 1260–1268, 2014. [10] Jacob Whitehill, Paul Ruvolo, Tingfan Wu, Jacob Bergsma, and Javier Movellan. Whose vote should count more: Optimal integration of labels from labelers of unknown expertise. In Proceedings of the 22nd International Conference on Neural Information Processing Systems (NIPS), pp. 2035–2043, 2009.

20 人間ワーカはどちらのタイプも能力を５段階変化させる 750人ワーカを生成し，150人ごとに異なる能力を設定実験1: 2.人工人間ワーカの作成（２種類）（詳細は論文参照） 20 能力低高 150人
150人 150人 150人 150人

22 バイアスを抱えたAIワーカを３種類作成実験1: 3. AIワーカの作成（３種類）（詳細は論文参照） 22 特徴量の欠落誤ったサンプリング偏った能力
特徴量２のみでＡＩを訓練訓練データに誤ったデータを追加クラスAとクラスBを見分けることができないが，他のクラスの分類能力に問題はない A B C D A × × 〇〇 B × × 〇〇 C 〇〇〇〇 D 〇〇〇〇

24 実験1: 4.不均一さを変化させ実験（詳細は論文参照）異混同行列人間ワーカ異正答率人間ワーカ特徴量の欠落誤ったサンプリング
偏った能力 × 人間ワーカは1人あたり20タスク取り組む 1タスクあたり5人の人間ワーカを割り当てワーカタスク回答 AI 問題1 クラスA AI 問題2 クラスD AI 問題3 クラスC AI 問題4 クラスD AI 問題5 クラスB AI 問題6 クラスA ワーカタスク回答 AI_1 問題1 クラスA AI_1 問題2 クラスD AI_1 問題3 クラスC AI_2 問題4 クラスD AI_2 問題5 クラスB AI_5 問題6 クラスA AIワーカ1体あたりの回答数を変化させ不均一さを調整人間とAIの結果を混在させ DS法，OneCoinモデル，GLADのそれぞれで集約２種類×３種類＝６つの組み合わせでシミュレーション実験

25 人間ワーカのみの場合の集約精度（エラー率）各AIワーカ単体での集約精度実験1: 人工人間ワーカとAIワーカの集約精度（補足） 25 異混同行列異正答率 DS 0.073
0.114 OneCoin 0.075 0.081 GLAD 0.085 0.096 単純多数決 0.114 0.099 エラー率特徴量の欠落 0.093 誤ったサンプリング 0.118 偏った能力 0.287 AI単体では，人間の集約結果に精度で劣る設定になっている

26 26 実験結果1: 不均一さが増すと集約結果がAIと類似異混同行列ワーカ異正答率ワーカ不均一が大きい不均一が大きい不均一が大きい不均一が大きい
不均一が大きい不均一が大きいエラー率類似度エラー率類似度 DS法は他の手法よりもエラー率が高い場合，低い場合ともに，不均一さが増すとその集約結果がAIの回答に類似する DS集約結果がAIワーカの回答結果と類似していないかをカッパ係数を用いて評価

27 27 RQ1: 不均一さがDS集約に与える影響は何か？ＡＩには様々なバイアスや公平性の問題があるＡＩワーカが圧倒的に多くのタスクを解いた場合， DS集約結果がＡＩの回答に類似してしまう AIの持つバイアスを集約結果にもたらすリスクがある

29 29 (再掲）実験結果1: GLADとOneCoinは不均一の影響が小さい異混同行列ワーカ異正答率ワーカ不均一が大きい不均一が大きい不均一が大きい不均一が大きい
不均一が大きい不均一が大きいエラー率類似度エラー率類似度正答率によってワーカの能力を推定 GLAD OneCoinモデル

30 Kクラス分類を行う場合，混同行列推定はK × Kの変数を推定する仮説1:回答数が少ないワーカの混同行列を推定するのは困難 30 クラゲイカタコクラゲ
0.9 0.08 0.02 イカ 0.1 0.9 0.1 タコ 0.03 0.02 0.95 真のラベルが「イカ」であるときに「クラゲ」と回答する確率を意味する混同行列混同行列は「どのように間違うのか」を意味している DS法はワーカの能力を混同行列で推定正答率回答した問題数正解した問題数正答率は「間違い方」を加味しない既存集約手法である OneCoinモデルや GLADは正答率でワーカの能力を推定変数の数：K × K 変数の数：1

31 31 回答タスク数が少ないワーカの能力推定がうまくいかないために，タスクを多く解くAIの結果が優先されてしまう Dawid-Skene法に関する仮説仮説2: DS法は回答タスク数が少ないワーカを過小評価タスクを多く解くAIワーカ正確に能力が推定される回答タスク数の少ない人間ワーカ
能力が誤って推定され過小評価されてしまう

32 32 提案手法(1/2): 正答率により混同行列推定を補正（詳細は論文参照） CoinFusion法正答率による OneCoin の能力推定混同行列 (Confusion
Matrix) による能力推定タスク回答数が少ないワーカでは推定がうまくいかないタスク回答数が少ないワーカでも推定が可能回答タスク数が少ないワーカの能力推定がうまくいかず，タスクを多く解くAIの結果が優先されてしまう Dawid-Skene法に関する仮説回答タスク数が少ないワーカの能力推定を正答率で補正することでタスク数不均一の影響を緩和

33 33 クラゲイカタコクラゲ 0.6 0.2 0.2 イカ
0.3 0.5 0.2 タコ 0.2 0.4 0.4 能力:？クラゲイカタコクラゲ 0.5 0.25 0.25 イカ 0.25 0.5 0.25 タコ 0.25 0.25 0.5 能力:？正答率 50% 最尤法で推定される精度の低い混同行列正答率から仮定される一様な混同行列 T × 補正された混同行列補正度合いを調整するパラメータ（正整数） CoinFusion法はDS法のMステップを以下の処理で置換 1. 各ワーカの正答率を最尤推定 2. 各ワーカの混同行列を1で求めた正答率を用いてMAP推定提案手法(2/2): 正答率により混同行列推定を補正（詳細は論文参照）混同行列の最尤推定を正答率から仮定される事前分布によってMAP推定に拡張する

34 34 関連研究(RQ2): 混同行列能力推定の補正 Hybrid Confusion DS [11] ワーカ全体の混同行列で各ワーカの混同行列を補正することで回答数の少ないワーカの能力推定精度を向上させる
Worker Clustering DS [12] Hybrid Confusion DSを拡張し，ワーカ全体をN個のクラスタに分割し，所属クラスタの混同行列で各ワーカの混同行列推定を補正これらは人間-AI混在状況において生じる圧倒的なタスク数不均一を考慮したものでない [11] Chao Liu and Yi-Min Wang. Truelabel + confusions: A spectrum of probabilistic models in analyzing multiple ratings. In Proceedings of the 29th International Conference on International Conference on Machine Learning (ICML), pp. 17–24, 2012. [12] ] Hideaki Imamura, Issei Sato, and Masashi Sugiyama. Analysis of minimax error rate for crowdsourcing and its application to worker clustering model. In Proceedings of the 35th International Conference on Machine Learning (ICML), Vol. 80, pp. 2147–2156, 2018.

35 35 実験2: 最も不均一な場合で提案手法を評価人間ワーカ 750人１人あたり20タスク AIワーカ 1体１体あたり3,000タスク
実験1と同じように不均一さが与える影響を評価タスク数不均一の影響がある場合，その影響を緩和し集約結果を品質向上させることは可能か？ RQ2

36 36 異混同行列ワーカ特徴量の欠落誤ったサンプリング偏った能力異正答率ワーカ大
小 AIとの類似度高低エラー率実験結果2: 提案手法は精度を維持しつつ類似度を減少高低エラー率

37 37 RQ2: 不均一さの影響を緩和することはできるか？ CoinFusion法正答率による OneCoin の能力推定混同行列 (Confusion
Matrix) による能力推定回答数の少ないワーカの能力推定を補正することで，提案手法は集約精度を維持しながら，不均一の影響を緩和することができた

39 39 本研究の貢献(1/2): タスク数不均一は集約結果に悪影響 Dawid-Skene集約結果は AIの回答に類似 AIの持つバイアスを集約結果にもたらす回答タスク数の不均一が集約品質にもたらす影響について調査した研究は初
人間ワーカ間のタスク数不均一にも適用できる？

40 40 本研究の貢献(2/2): 不均一の影響を緩和する手法を提案混同行列の推定を正答率で補正することで影響を緩和回答数が少ないワーカの混同行列能力推定は困難（人間が過小評価されてしまう）

41 41 今後の課題: 複数種のAIワーカが参加する場合人間ワーカ 750人 AIワーカ 1種類＋＋
今回の実験設定人間ワーカ 750人 AIワーカ N種類もし複数種のAIがクラウドソーシングに同時に参加したら？

42 発表のまとめ 42 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2.

43 43 ハイパーパラメータTの影響不均一が大きい不均一が大きい不均一が大きい不均一が大きい不均一が大きい不均一が大きいエラー率
類似度エラー率類似度

44 44 異混同行列人工人間ワーカの作成方法(1/2) ナイーブベイズ分類器𝑓𝜃 １，訓練データをもとに分類器を訓練２，ワーカ𝑘ごとに以下のパラメータを決定 𝑟 1 (𝑘), 𝑟
2 (𝑘) -1～1 の乱数で、それぞれの特徴量に対する「ずれ」の方向を決める 𝛼(𝑘) {0.1, 0.2, 0.4, 0.7, 1.1} のどれかの値で、ワーカの能力を示す３，各ワーカはタスク(𝑓1 , 𝑓2 )に対して、以下のように予想ラベルを得る予想ラベル= 𝑓𝜃 (𝛼 𝑘 𝑟1 𝑘 + 𝑓1 , 𝛼 𝑘 𝑟 2 𝑘 + 𝑓2 )

45 45 異混同行列人工人間ワーカの作成方法(2/2) ３，各ワーカはタスク(𝑓1 , 𝑓2 )に対して、以下のように予想ラベルを得る予想ラベル= 𝑓𝜃 (𝛼
𝑘 𝑟1 𝑘 + 𝑓1 , 𝛼 𝑘 𝑟 2 𝑘 + 𝑓2 ) (𝑓1 , 𝑓2 ) (𝛼 𝑘 𝑟 1 𝑘 + 𝑓1 , 𝛼 𝑘 𝑟 2 𝑘 + 𝑓2 ) ワーカごとに従来の点(𝑓1 , 𝑓2 )から、ベクトル(𝑟 1 𝑘 , 𝑟 2 𝑘 ) の方向に𝛼 𝑘 ぶん移動した点を、分類器に分類させるワーカごとに間違い方（≒混同行列）を異ならせながらワーカ間に能力の差をつけられる

46 46 異正答率人工人間ワーカの作成方法１，各ワーカ𝑘に正答率𝑎(𝑘)を割り当てる {0.95, 0.85, 0.75, 0.65, 0.55}の５段階から割り当て２，不正解の場合の回答は、以下のようなルールで決定する
1 − 𝑎(𝑘)で不正解し、 𝑎(𝑘)で正解するように回答を生成する正解が A→C B→D C→A D→B

Dawid-Skene集約における不均一タスク数の影響緩和による人間-AIハイブリッドクラウド...

Dawid-Skene集約における不均一タスク数の影響緩和による人間-AIハイブリッドクラウドソーシングの品質向上@DEIM2024

More Decks by Takumi TAMURA

Other Decks in Research

Featured

Transcript