Transparency Zhang, Yunfeng, Q. Vera Liao, and Rachel KE Bellamy. "Effect of confidence and explanation on accuracy and trust calibration in AI- assisted decision making." Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. 2020.
KE Bellamy. "Effect of confidence and explanation on accuracy and trust calibration in AI-assisted decision making." Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. 2020. タスク 参加者 実験⼿順 評価指標 Amazon Mechanical Turk 72名 ⾮ドメイン専⾨家 確信度を⽰す vs. ⽰さない 1回⽬は説明変数を⾒て⾒積もる 2回⽬はAIの予測を⾒て⾒積もる 40回試⾏ ある⼈の年収が5万ドルを超えるか所得予測 説明変数の例 スイッチ率:参加者がAIの予測に変えた割合 ⼀致率:AIと最終的に同じ回答の割合 実験設定
KE Bellamy. "Effect of confidence and explanation on accuracy and trust calibration in AI-assisted decision making." Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. 2020. ⼀致率 スイッチ率 条件 結果 確信度あり 確信度が⾼いとAIの結果を頼る。 最終的に確信度が⾼くなるにつれAIと同じ結果になる。 確信度なし ⼈はAIの結果を⾒ても変更しないことが多い。
Zhang, Yunfeng, Q. Vera Liao, and Rachel KE Bellamy. "Effect of confidence and explanation on accuracy and trust calibration in AI-assisted decision making." Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. 2020.
"Bayesian segnet: Model uncertainty in deep convolutional encoder- decoder architectures for scene understanding." arXiv preprint arXiv:1511.02680 (2015). [2] J. C. Reinhold, Y. He, S. Han, Y. Chen, D. Gao, J. Lee, J. L. Prince, and A. Carass, “Validating uncertainty in medical image translation,” in 2020 IEEE 17th International Symposium on Biomedical Imaging (ISBI). IEEE, 2020, pp. 95–98 [3] Sedlmeier, Andreas, et al. "Uncertainty-based out-of-distribution classification in deep reinforcement learning." arXiv preprint arXiv:2001.00496 (2019). [4] J. Gawlikowski, S. Saha, A. Kruspe, and X. X. Zhu, “Out-of-distribution detection in satellite image classification,” in RobustML workshop at ICLR 2021. ICRL, 2021, pp. 1–5. [5] Gawlikowski, Jakob, et al. "A survey of uncertainty in deep neural networks." arXiv preprint arXiv:2107.03342 (2021).
model reliability through example-based explanations and editing model inputs." 27th International Conference on Intelligent User Interfaces. 2022. タスク 参加者 実験⼿順 評価 ⼼電図の波形の4分類問題 医療従事者 14名(ドメイン知識あり) 特徴空間内にあるサンプルのK近傍を可視化させ、不確実性を可視化 声に出しながら、インタラクティブに操作させ、感想を聞く 定性的な⾳読調査 50近傍 確信度 4クラス 4近傍のサンプルの可視化
model reliability through example-based explanations and editing model inputs." 27th International Conference on Intelligent User Interfaces. 2022. 参加者の声からわかったこと • 「正常な拍動と似ているから同じクラスになっている。」とその不確実性をドメイン知識で解釈し、 モデルの予測を理解した。 • ⼀⽅で、最初の直感に反していても、間違った予測を合理化することが多かった。 例えば、ある参加者は異常な拍動を⾒て、最初は異常だと⾔い始めたが、予測されたクラスが(間 違って)正常であるのを⾒て、考えを変えた発⾔をした。 クラス間で元々似ている拍動 最初のスパイクの有無
Barbosa, M. Do Carmo Silva, H. Lopes and S. D. J. Barbosa, "Exploring the impact of classification probabilities on users' trust in ambiguous instances," 2021 IEEE Symposium on Visual Languages and Human-Centric Computing (VL/HCC) タスク 参加者 実験⼿順 評価指標 88名(AI経験者51名、AI未経験者37名) 36回試⾏ 1回は予測値のみ 2回⽬は分類確率も⾒せる 視覚的類似性も含む動物写真の分類問題 7段階評価 同意度:予測に同意するか ⾃信度:結果に⾃信があるか
Barbosa, M. Do Carmo Silva, H. Lopes and S. D. J. Barbosa, "Exploring the impact of classification probabilities on users' trust in ambiguous instances," 2021 IEEE Symposium on Visual Languages and Human-Centric Computing (VL/HCC) 条件 結果 確信度低い画像 間違ったラベルに対して、同意度7が多く、⾃信もあると答えている。 明確な画像 曖昧な画像
J. Barbosa, M. Do Carmo Silva, H. Lopes and S. D. J. Barbosa, "Exploring the impact of classification probabilities on users' trust in ambiguous instances," 2021 IEEE Symposium on Visual Languages and Human-Centric Computing (VL/HCC) Fumeng Yang, Zhuanyi Huang, Jean Scholtz, and Dustin L. Arendt. 2020. How do visual explanations foster end users' appropriate trust in machine learning? In Proceedings of the 25th International Conference on Intelligent User Interfaces (IUI '20). リッカート尺度:[1, 2] 不信、[3, 4, 5] 不確かさ、[6, 7] 信⽤
Z. Gajos. "To trust or to think: cognitive forcing functions can reduce overreliance on AI in AI-assisted decision-making." Proceedings of the ACM on Human-Computer Interaction 5.CSCW1 (2021): 1-21. AIの予測を結果をすぐに⾒せない • クリックしたら⾒れるようにする。 • ⼀定時間経ったら⾒せる。
気温の予測範囲 利⽤者の状況 時間帯に応じてみたいのか 瞬間で気温をみたいのか 時系列予測 95%信頼区間表⽰にすると予測平均のみを意識される アンサンブル表⽰にすると⼈は注意深く考える Miriam Greis, Emre Avci, Albrecht Schmidt, and Tonja Machulla. 2017. Increasing Users' Confidence in Uncertain Data by Aggregating Data from Multiple Sources. In Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems (CHI '17).