3.タコ クラゲ クラゲ イカ 人間ワーカ A B C 学習済みモデル を入手する クラゲ クラゲ タコ ワーカとして参加 AIワーカ [1] Sihem Amer-Yahia, et al., Making AI machines work for humans in FoW. ACM SIGMOD Record, Vol. 49, No. 2, pp. 30–35, 2020. 5
性別分類:肌の色調が明るいほど女性的である 笑顔かどうか判定:肌の色相が赤に近い人ほど笑顔である [3] Abubakar Abid, Maheen Farooqi, and James Zou. Persistent Anti-Muslim Bias in Large Language Models. In Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society (AIES ‘21), pp 298-306, 2021. [4] William Thong, Przemyslaw Joniak, Alice Xiang. Beyond Skin Tone: A Multidimensional Measure of Apparent Skin Color. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pp. 4903-4913, 2023. 画像認識AIは肌の色に対してバイアスを抱えている [4]
[7] これらはタスク割り当て手法について議論しており, 結果集約については議論されていない 混在状況における結果集約についてはTamuraらがAIワーカの出力する不 確実性を集約に利用することで品質向上が可能になることを報告 [8] タスク数不均一の問題については考慮していない [6] Masaki Kobayashi, Kei Wakabayashi, and Atsuyuki Morishima. Human+AI crowd task assignment considering result quality requirements. In Proceedings of the AAAI Conference on Human Computation and Crowdsourcing (HCOMP), Vol. 9, pp. 97–107, 2021. [7] Tomoya Kanda, Hiroyoshi Ito, and Atsuyuki Morishima. Efficient evaluation of AI workers for the human+AI crowd task assignment. In Proceedings of IEEE International Conference on Big Data (BigData), pp. 3995–4001, 2022. [8] Takumi Tamura, Hiroyoshi Ito, Satoshi Oyama, and Atsuyuki Morishima. Influence of AI’s uncertainty in the Dawid-Skene aggregation for human-AI crowdsourcing. In Information for a Better World: Wisdom, Well-being, Win-win, 19th International Conference on Information (iConference 2024), in press.
0.08 0.02 イカ 0.1 0.9 0.1 タコ 0.03 0.02 0.95 真のラベルが「イカ」で あるときに「クラゲ」と 回答する確率を意味する 異混同行列ワーカ 混同行列は「どのように間違うのか」を意味している DS法はワーカの能力を混同行列で推定 異正答率ワーカ 回答した問題数 正解した問題数 正答率は「間違い方」を加味しない 既存集約手法である OneCoinモデル [9] や GLAD [10] は正答率でワーカの能力を推定 [9] Yuchen Zhang, Xi Chen, Dengyong Zhou, and Michael I. Jordan. Spectral methods meet EM: A provably optimal algorithm for crowdsourcing. In Proceedings of the 27th International Conference on Neural Information Processing Systems (NIPS), Vol. 1, pp. 1260–1268, 2014. [10] Jacob Whitehill, Paul Ruvolo, Tingfan Wu, Jacob Bergsma, and Javier Movellan. Whose vote should count more: Optimal integration of labels from labelers of unknown expertise. In Proceedings of the 22nd International Conference on Neural Information Processing Systems (NIPS), pp. 2035–2043, 2009.
Worker Clustering DS [12] Hybrid Confusion DSを拡張し,ワーカ全体をN個のクラスタに分割し, 所属クラスタの混同行列で各ワーカの混同行列推定を補正 これらは人間-AI混在状況において生じる 圧倒的なタスク数不均一を考慮したものでない [11] Chao Liu and Yi-Min Wang. Truelabel + confusions: A spectrum of probabilistic models in analyzing multiple ratings. In Proceedings of the 29th International Conference on International Conference on Machine Learning (ICML), pp. 17–24, 2012. [12] ] Hideaki Imamura, Issei Sato, and Masashi Sugiyama. Analysis of minimax error rate for crowdsourcing and its application to worker clustering model. In Proceedings of the 35th International Conference on Machine Learning (ICML), Vol. 80, pp. 2147–2156, 2018.