ワーカの住んでいる地域では,同じ単語でも意味が違うかもしれない • タスク説明の英語がおかしかったのかもしれない(日本人にありがち?) • 潜在クラスモデルによる能力推定には根拠がない • ワーカの能力は,正解データが存在するタスクを解いてもらうことでしか測れない • ワーカ間一致率や集約アルゴリズムは多様性を減らしてしまうことに注意 • 少数派の意見がデータセットに反映されづらくなる • 少数派の意見を反映させるための手法も検討されてきている (Davani et al. 2022) • 近年,クラウドワーカが裏でChatGPTを使っているのでは?という疑惑がある(Veselovsky et al. 2023) • そのような場合,集約は意味をなさないかもしれない • もちろん,安易にワーカをChatGPT認定してはいけない • ワーカ間一致率を「p値ハックキング」しない • ワーカ間一致率は統計検定におけるp値のようなもの • 一致率を向上させることは有効だが,間違った方法で向上させないこと 76 Davani , A., Diaz, M., Vinodkumar P. (2022). Dealing with Disagreements: Looking Beyond the Majority Vote in Subjective Annotations. Transactions of the Association for Computational Linguistics, 10, pp. 92–110. Veselovsky, V., Ribeiro, M.H., & West, R. (2023). Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks. ArXiv, abs/2306.07899. Robert (Munro) Monarch (著/文), 上田 隼也 (翻訳), 角野 為耶 (翻訳), 伊藤 寛祥 (翻訳), “Human-in-the-Loop機械学習 -人間参加型AIのための能動学習とアノテーション-”, 共立出版(2023), pp240-241.