Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Dawid-Skene集約における不均一タスク数の影響緩和による人間-AIハイブリッドクラウド...

 Dawid-Skene集約における不均一タスク数の影響緩和による人間-AIハイブリッドクラウドソーシングの品質向上@DEIM2024

DEIM2024で発表したスライドです.

Takumi TAMURA

March 02, 2024
Tweet

More Decks by Takumi TAMURA

Other Decks in Research

Transcript

  1. 2 発表内容 2 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2.

    AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある 人間-AI混在状況においては,AIの能力が未知であるために,ワーカの能力を推定しながら 集約を行うDawid-Skene (DS) 法が,結果集約手法として適している 人間-AI混在状況で生じるタスク数の不均一は,Dawid-Skene 集約結果にどのような影 響を与えるのか? 集約結果が多くのタスクに取り組んだAIの回答結果に類似し, AIの持つバイアスを集約結果にもたらすリスクがある 不均一の影響がある場合,その影響を緩和し集約結果を品質向上させることは可能か? 回答数の少ないワーカの能力推定を補正することで, 提案手法は集約精度を維持しながら,不均一の影響を緩和することができた
  2. 3 発表内容 3 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2.

    AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある 人間-AI混在状況においては,AIの能力が未知であるために,ワーカの能力を推定しながら 集約を行うDawid-Skene (DS) 法が,結果集約手法として適している 人間-AI混在状況で生じるタスク数の不均一は,Dawid-Skene 集約結果にどのような影 響を与えるのか? 集約結果が多くのタスクに取り組んだAIの回答結果に類似し, AIの持つバイアスを集約結果にもたらすリスクがある 不均一の影響がある場合,その影響を緩和し集約結果を品質向上させることは可能か? 回答数の少ないワーカの能力推定を補正することで, 提案手法は集約精度を維持しながら,不均一の影響を緩和することができた
  3. 5 AIが人間と同じようにクラウドソーシングに取り組む, AIワーカのアイデアが提案されている [1] AIワーカはクラウドソーシングの労働力不足を補う この画像に写っているものは? 1. クラゲ 2. イカ

    3.タコ クラゲ クラゲ イカ 人間ワーカ A B C 学習済みモデル を入手する クラゲ クラゲ タコ ワーカとして参加 AIワーカ [1] Sihem Amer-Yahia, et al., Making AI machines work for humans in FoW. ACM SIGMOD Record, Vol. 49, No. 2, pp. 30–35, 2020. 5
  4. 6 AIは人間と異なる2つの特徴を持つ 1. 人間よりも圧倒的に多くのタスク に取り組める 6 2. AI固有のバイアスをもたらすこと がある AIには様々なバイアスや公平性の問題が

    あることが知られている [2] [2] Ninareh Mehrabi, Fred Morstatter, Nripsuta Saxena, Kristina Lerman, and Aram Galstyan. A survey on bias and fairness in machine learning. ACM Comput. Surv., Vol. 54,No. 6, 2021. 学習データの偏り 不適切な特徴量 学習データの不足 不適切な 予測
  5. 7 7 具体例: AIにはバイアスや公平性の問題がある 大規模言語モデルは反イスラム的な出力をする傾向がある [3] GPT-3は “Muslim” を“terrorist” に結びつけがちであると報告

    性別分類:肌の色調が明るいほど女性的である 笑顔かどうか判定:肌の色相が赤に近い人ほど笑顔である [3] Abubakar Abid, Maheen Farooqi, and James Zou. Persistent Anti-Muslim Bias in Large Language Models. In Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society (AIES ‘21), pp 298-306, 2021. [4] William Thong, Przemyslaw Joniak, Alice Xiang. Beyond Skin Tone: A Multidimensional Measure of Apparent Skin Color. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pp. 4903-4913, 2023. 画像認識AIは肌の色に対してバイアスを抱えている [4]
  6. 8 発表内容 8 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2.

    AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある 人間-AI混在状況においては,AIの能力が未知であるために,ワーカの能力を推定しなが ら集約を行うDawid-Skene (DS) 法が,結果集約手法として適している 人間-AI混在状況で生じるタスク数の不均一は,Dawid-Skene 集約結果にどのような影 響を与えるのか? 集約結果が多くのタスクに取り組んだAIの回答結果に類似し, AIの持つバイアスを集約結果にもたらすリスクがある 不均一の影響がある場合,その影響を緩和し集約結果を品質向上させることは可能か? 回答数の少ないワーカの能力推定を補正することで, 提案手法は集約精度を維持しながら,不均一の影響を緩和することができた
  7. 9 結果集約はクラウドソーシングの品質を向上させる この画像に写っているものは? 1. クラゲ 2. イカ 3.タコ クラゲ クラゲ

    イカ クラゲ 集約アルゴリズム 同じタスクを 重複して出題 人間ワーカ 正しい結果 A B C 9
  8. 10 能力の高いワーカを見つけ,優先させる手法が必要 単純多数決は品質低下を招いてしまう この画像に写っているものは? 1. クラゲ 2. イカ 3.タコ クラゲ

    イカ イカ イカ 単純多数決 能力の高い ワーカが少数 人間ワーカ 誤った結果 能力:低 能力:低 能力:高 A B C 10
  9. 11 クラゲ イカ タコ クラゲ 0.33 0.33 0.33 イカ 0.33

    0.33 0.33 タコ 0.33 0.33 0.33 Dawid-Skene (DS) 法はワーカの能力を推定できる [5] この画像に写っているものは? 1. クラゲ 2. イカ 3.タコ クラゲ イカ イカ クラゲ 人間ワーカの投票結果 正しい結果を 推定できる 能力:? 能力:? 能力:? A B C E-Step ワーカの能力を加味し,各タスクの真のラベルを予測 この画像は? クラゲ: 80% イカ: 17% タコ: 3% M-Step 各ワーカの能力(混同行列)とクラスの周辺分布を推定 能力:低 C クラゲ イカ タコ クラゲ 0.9 0.08 0.02 イカ 0.1 0.9 0.1 タコ 0.03 0.02 0.95 能力:高 A クラゲ イカ タコ クラゲ 0.6 0.2 0.2 イカ 0.3 0.5 0.2 タコ 0.2 0.4 0.4 能力:低 B 真のラベルが「イカ」で あるときに「クラゲ」と 回答する確率を意味する EMアルゴリズム E-stepとM-stepを繰り返す 11 入力 出力 [5] Dawid,A.P.; Skene,A.M. Maximum Likelihood Estimation of Observer Error-Rates Using the EM Algorithm. Applied Statistics. vol. 28, no. 1, p. 20-28, 1979.
  10. 12 人間-AI混在状況ではDS法を用いるのが自然 この画像に写っているものは? 1. クラゲ 2. イカ 3.タコ クラゲ イカ

    イカ ? Dawid-Skene法 インターネット等から入手したAIワーカはその能力が未知 また,状況によっては人間とAIの識別は困難 A B 人間の能力が わからない 12 能力推定 が可能
  11. 13 発表内容 13 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2.

    AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある 人間-AI混在状況においては,AIの能力が未知であるために,ワーカの能力を推定しながら 集約を行うDawid-Skene (DS) 法が,結果集約手法として適している 人間-AI混在状況で生じるタスク数の不均一は,Dawid-Skene 集約結果にどのような影 響を与えるのか? 集約結果が多くのタスクに取り組んだAIの回答結果に類似し, AIの持つバイアスを集約結果にもたらすリスクがある 不均一の影響がある場合,その影響を緩和し集約結果を品質向上させることは可能か? 回答数の少ないワーカの能力推定を補正することで, 提案手法は集約精度を維持しながら,不均一の影響を緩和することができた
  12. 15 関連研究(RQ1): タスク数不均一に着目した研究はない 15 人間-AI混在状況におけるクラウドソーシング • Kobayashiらは混在状況におけるタスク割り当て手法を提案 [6] • さらにKandaらはKobayashiらの手法を改善している

    [7] これらはタスク割り当て手法について議論しており, 結果集約については議論されていない 混在状況における結果集約についてはTamuraらがAIワーカの出力する不 確実性を集約に利用することで品質向上が可能になることを報告 [8] タスク数不均一の問題については考慮していない [6] Masaki Kobayashi, Kei Wakabayashi, and Atsuyuki Morishima. Human+AI crowd task assignment considering result quality requirements. In Proceedings of the AAAI Conference on Human Computation and Crowdsourcing (HCOMP), Vol. 9, pp. 97–107, 2021. [7] Tomoya Kanda, Hiroyoshi Ito, and Atsuyuki Morishima. Efficient evaluation of AI workers for the human+AI crowd task assignment. In Proceedings of IEEE International Conference on Big Data (BigData), pp. 3995–4001, 2022. [8] Takumi Tamura, Hiroyoshi Ito, Satoshi Oyama, and Atsuyuki Morishima. Influence of AI’s uncertainty in the Dawid-Skene aggregation for human-AI crowdsourcing. In Information for a Better World: Wisdom, Well-being, Win-win, 19th International Conference on Information (iConference 2024), in press.
  13. 16 1. データセットとタスクの作成 2. 人工人間ワーカの作成(2種類) 3. AIワーカの作成(3種類) 4. 不均一さを変化させ実験 実験1:

    シミュレーションによって不均一の影響を評価 16 シミュレーション実験の流れ 異混同行列 人間ワーカ 異正答率 人間ワーカ 特徴量の欠落 誤った サンプリング 偏った能力
  14. 18 1. データセットとタスクの作成 2. 人工人間ワーカの作成(2種類) 3. AIワーカの作成(3種類) 4. 不均一さを変化させ実験 実験1:

    シミュレーションによって不均一の影響を評価 18 シミュレーション実験の流れ 異混同行列 人間ワーカ 異正答率 人間ワーカ 特徴量の欠落 誤った サンプリング 偏った能力
  15. 19 ワーカ間で混同行列が異なるタイプと正答率のみ異なるタイプの2種類 実験1: 2.人工人間ワーカの作成(2種類)(詳細は論文参照) 19 クラゲ イカ タコ クラゲ 0.9

    0.08 0.02 イカ 0.1 0.9 0.1 タコ 0.03 0.02 0.95 真のラベルが「イカ」で あるときに「クラゲ」と 回答する確率を意味する 異混同行列ワーカ 混同行列は「どのように間違うのか」を意味している DS法はワーカの能力を混同行列で推定 異正答率ワーカ 回答した問題数 正解した問題数 正答率は「間違い方」を加味しない 既存集約手法である OneCoinモデル [9] や GLAD [10] は正答率でワーカの能力を推定 [9] Yuchen Zhang, Xi Chen, Dengyong Zhou, and Michael I. Jordan. Spectral methods meet EM: A provably optimal algorithm for crowdsourcing. In Proceedings of the 27th International Conference on Neural Information Processing Systems (NIPS), Vol. 1, pp. 1260–1268, 2014. [10] Jacob Whitehill, Paul Ruvolo, Tingfan Wu, Jacob Bergsma, and Javier Movellan. Whose vote should count more: Optimal integration of labels from labelers of unknown expertise. In Proceedings of the 22nd International Conference on Neural Information Processing Systems (NIPS), pp. 2035–2043, 2009.
  16. 21 1. データセットとタスクの作成 2. 人工人間ワーカの作成(2種類) 3. AIワーカの作成(3種類) 4. 不均一さを変化させ実験 実験1:

    シミュレーションによって不均一の影響を評価 21 シミュレーション実験の流れ 異混同行列 人間ワーカ 異正答率 人間ワーカ 特徴量の欠落 誤った サンプリング 偏った能力
  17. 22 バイアスを抱えたAIワーカを3種類作成 実験1: 3. AIワーカの作成(3種類)(詳細は論文参照) 22 特徴量の欠落 誤った サンプリング 偏った能力

    特徴量2のみでAIを訓練 訓練データに誤った データを追加 クラスAとクラスBを見分ける ことができないが,他のクラス の分類能力に問題はない A B C D A × × 〇 〇 B × × 〇 〇 C 〇 〇 〇 〇 D 〇 〇 〇 〇
  18. 23 1. データセットとタスクの作成 2. 人工人間ワーカの作成(2種類) 3. AIワーカの作成(3種類) 4. 不均一さを変化させ実験 実験1:

    シミュレーションによって不均一の影響を評価 23 シミュレーション実験の流れ 異混同行列 人間ワーカ 異正答率 人間ワーカ 特徴量の欠落 誤った サンプリング 偏った能力
  19. 24 実験1: 4.不均一さを変化させ実験(詳細は論文参照) 異混同行列 人間ワーカ 異正答率 人間ワーカ 特徴量の欠落 誤った サンプリング

    偏った能力 × 人間ワーカは1人あたり20タスク取り組む 1タスクあたり5人の人間ワーカを割り当て ワーカ タスク 回答 AI 問題1 クラスA AI 問題2 クラスD AI 問題3 クラスC AI 問題4 クラスD AI 問題5 クラスB AI 問題6 クラスA ワーカ タスク 回答 AI_1 問題1 クラスA AI_1 問題2 クラスD AI_1 問題3 クラスC AI_2 問題4 クラスD AI_2 問題5 クラスB AI_5 問題6 クラスA AIワーカ1体あたりの回答数を変化させ不均一さを調整 人間とAIの結果を混在させ DS法,OneCoinモデル,GLADのそれぞれで集約 2種類×3種類=6つの組み合わせでシミュレーション実験
  20. 25 人間ワーカのみの場合の集約精度(エラー率) 各AIワーカ単体での集約精度 実験1: 人工人間ワーカとAIワーカの集約精度(補足) 25 異混同行列 異正答率 DS 0.073

    0.114 OneCoin 0.075 0.081 GLAD 0.085 0.096 単純多数決 0.114 0.099 エラー率 特徴量の欠落 0.093 誤ったサンプリング 0.118 偏った能力 0.287 AI単体では,人間の集約結果に 精度で劣る設定になっている
  21. 26 26 実験結果1: 不均一さが増すと集約結果がAIと類似 異混同行列ワーカ 異正答率ワーカ 不均一が大きい 不均一が大きい 不均一が大きい 不均一が大きい

    不均一が大きい 不均一が大きい エラー率 類似度 エラー率 類似度 DS法は他の手法よりもエラー率が 高い場合,低い場合ともに, 不均一さが増すと その集約結果がAIの回答に類似する DS集約結果がAIワーカの 回答結果と類似していないか をカッパ係数を用いて評価
  22. 28 発表内容 28 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2.

    AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある 人間-AI混在状況においては,AIの能力が未知であるために,ワーカの能力を推定しながら 集約を行うDawid-Skene (DS) 法が,結果集約手法として適している 人間-AI混在状況で生じるタスク数の不均一は,Dawid-Skene 集約結果にどのような影 響を与えるのか? 集約結果が多くのタスクに取り組んだAIの回答結果に類似し, AIの持つバイアスを集約結果にもたらすリスクがある 不均一の影響がある場合,その影響を緩和し集約結果を品質向上させることは可能か? 回答数の少ないワーカの能力推定を補正することで, 提案手法は集約精度を維持しながら,不均一の影響を緩和することができた
  23. 29 29 (再掲)実験結果1: GLADとOneCoinは不均一の影響が小さい 異混同行列ワーカ 異正答率ワーカ 不均一が大きい 不均一が大きい 不均一が大きい 不均一が大きい

    不均一が大きい 不均一が大きい エラー率 類似度 エラー率 類似度 正答率によって ワーカの能力を推定 GLAD OneCoinモデル
  24. 30 Kクラス分類を行う場合,混同行列推定はK × Kの変数を推定する 仮説1:回答数が少ないワーカの混同行列を推定するのは困難 30 クラゲ イカ タコ クラゲ

    0.9 0.08 0.02 イカ 0.1 0.9 0.1 タコ 0.03 0.02 0.95 真のラベルが「イカ」で あるときに「クラゲ」と 回答する確率を意味する 混同行列 混同行列は「どのように間違うのか」を意味している DS法はワーカの能力を混同行列で推定 正答率 回答した問題数 正解した問題数 正答率は「間違い方」を加味しない 既存集約手法である OneCoinモデルや GLADは正答率でワーカの能力を推定 変数の数:K × K 変数の数:1
  25. 32 32 提案手法(1/2): 正答率により混同行列推定を補正(詳細は論文参照) CoinFusion法 正答率による OneCoin の能力推定 混同行列 (Confusion

    Matrix) による能力推定 タスク回答数が少ない ワーカでは推定が うまくいかない タスク回答数が少ない ワーカでも推定が可能 回答タスク数が少ないワーカの能力推定がうまくいかず, タスクを多く解くAIの結果が優先されてしまう Dawid-Skene法に関する仮説 回答タスク数が少ないワーカの能力推定を正答率で 補正することでタスク数不均一の影響を緩和
  26. 33 33 クラゲ イカ タコ クラゲ 0.6 0.2 0.2 イカ

    0.3 0.5 0.2 タコ 0.2 0.4 0.4 能力:? クラゲ イカ タコ クラゲ 0.5 0.25 0.25 イカ 0.25 0.5 0.25 タコ 0.25 0.25 0.5 能力:? 正答率 50% 最尤法で推定される 精度の低い混同行列 正答率から仮定される 一様な混同行列 T × 補正された 混同行列 補正度合いを調整する パラメータ(正整数) CoinFusion法はDS法のMステップを以下の処理で置換 1. 各ワーカの正答率を最尤推定 2. 各ワーカの混同行列を1で求めた正答率を用いてMAP推定 提案手法(2/2): 正答率により混同行列推定を補正(詳細は論文参照) 混同行列の最尤推定を正答率から仮定される 事前分布によってMAP推定に拡張する
  27. 34 34 関連研究(RQ2): 混同行列能力推定の補正 Hybrid Confusion DS [11] ワーカ全体の混同行列で各ワーカの混同行列を補正することで 回答数の少ないワーカの能力推定精度を向上させる

    Worker Clustering DS [12] Hybrid Confusion DSを拡張し,ワーカ全体をN個のクラスタに分割し, 所属クラスタの混同行列で各ワーカの混同行列推定を補正 これらは人間-AI混在状況において生じる 圧倒的なタスク数不均一を考慮したものでない [11] Chao Liu and Yi-Min Wang. Truelabel + confusions: A spectrum of probabilistic models in analyzing multiple ratings. In Proceedings of the 29th International Conference on International Conference on Machine Learning (ICML), pp. 17–24, 2012. [12] ] Hideaki Imamura, Issei Sato, and Masashi Sugiyama. Analysis of minimax error rate for crowdsourcing and its application to worker clustering model. In Proceedings of the 35th International Conference on Machine Learning (ICML), Vol. 80, pp. 2147–2156, 2018.
  28. 35 35 実験2: 最も不均一な場合で提案手法を評価 人間ワーカ 750人 1人あたり20タスク AIワーカ 1体 1体あたり3,000タスク

    実験1と同じように不均一さが与える影響を評価 タスク数不均一の影響がある場合, その影響を緩和し集約結果を品質向上させることは可能か? RQ2
  29. 36 36 異混同行列 ワーカ 特徴量の欠落 誤ったサンプリング 偏った能力 異正答率 ワーカ 大

    小 AIとの類似度 高 低 エラー率 実験結果2: 提案手法は精度を維持しつつ類似度を減少 高 低 エラー率
  30. 37 37 RQ2: 不均一さの影響を緩和することはできるか? CoinFusion法 正答率による OneCoin の能力推定 混同行列 (Confusion

    Matrix) による能力推定 回答数の少ないワーカの能力推定を補正することで, 提案手法は集約精度を維持しながら, 不均一の影響を緩和することができた
  31. 38 発表内容 38 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2.

    AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある 人間-AI混在状況においては,AIの能力が未知であるために,ワーカの能力を推定しながら 集約を行うDawid-Skene (DS) 法が,結果集約手法として適している 人間-AI混在状況で生じるタスク数の不均一は,Dawid-Skene 集約結果にどのような影 響を与えるのか? 集約結果が多くのタスクに取り組んだAIの回答結果に類似し, AIの持つバイアスを集約結果にもたらすリスクがある 不均一の影響がある場合,その影響を緩和し集約結果を品質向上させることは可能か? 回答数の少ないワーカの能力推定を補正することで, 提案手法は集約精度を維持しながら,不均一の影響を緩和することができた
  32. 41 41 今後の課題: 複数種のAIワーカが参加する場合 人間ワーカ 750人 AIワーカ 1種類 + +

    今回の実験設定 人間ワーカ 750人 AIワーカ N種類 もし複数種のAIが クラウドソーシングに 同時に参加したら?
  33. 42 発表のまとめ 42 背景① 背景② RQ1 RQ2 1. 人間とAIが共にクラウドソーシングに参加するアイデアが注目されてきている 2.

    AIは人間と異なる以下のような特徴を持つ (1) 人間よりも圧倒的に多くのタスクに取り組める (2) AI固有のバイアスをもたらすことがある 人間-AI混在状況においては,AIの能力が未知であるために,ワーカの能力を推定しながら 集約を行うDawid-Skene (DS) 法が,結果集約手法として適している 人間-AI混在状況で生じるタスク数の不均一は,Dawid-Skene 集約結果にどのような影 響を与えるのか? 集約結果が多くのタスクに取り組んだAIの回答結果に類似し, AIの持つバイアスを集約結果にもたらすリスクがある 不均一の影響がある場合,その影響を緩和し集約結果を品質向上させることは可能か? 回答数の少ないワーカの能力推定を補正することで, 提案手法は集約精度を維持しながら,不均一の影響を緩和することができた
  34. 44 44 異混同行列人工人間ワーカの作成方法(1/2) ナイーブベイズ分類器𝑓𝜃 1,訓練データをもとに分類器を訓練 2,ワーカ𝑘ごとに以下のパラメータを決定 𝑟 1 (𝑘), 𝑟

    2 (𝑘) -1~1 の乱数で、それぞれの特徴量に対する「ずれ」の方向を決める 𝛼(𝑘) {0.1, 0.2, 0.4, 0.7, 1.1} のどれかの値で、ワーカの能力を示す 3,各ワーカはタスク(𝑓1 , 𝑓2 )に対して、以下のように予想ラベルを得る 予想ラベル= 𝑓𝜃 (𝛼 𝑘 𝑟1 𝑘 + 𝑓1 , 𝛼 𝑘 𝑟 2 𝑘 + 𝑓2 )
  35. 45 45 異混同行列人工人間ワーカの作成方法(2/2) 3,各ワーカはタスク(𝑓1 , 𝑓2 )に対して、以下のように予想ラベルを得る 予想ラベル= 𝑓𝜃 (𝛼

    𝑘 𝑟1 𝑘 + 𝑓1 , 𝛼 𝑘 𝑟 2 𝑘 + 𝑓2 ) (𝑓1 , 𝑓2 ) (𝛼 𝑘 𝑟 1 𝑘 + 𝑓1 , 𝛼 𝑘 𝑟 2 𝑘 + 𝑓2 ) ワーカごとに従来の点(𝑓1 , 𝑓2 )から、 ベクトル(𝑟 1 𝑘 , 𝑟 2 𝑘 ) の方向に𝛼 𝑘 ぶん 移動した点を、分類器に分類させる ワーカごとに間違い方(≒混同行列) を異ならせながら ワーカ間に能力の差をつけられる