Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
人間中心のAIプロダクト開発に向けて意識すること ~エラーハンドリング~
Search
masatoto
March 26, 2023
Design
0
80
人間中心のAIプロダクト開発に向けて意識すること ~エラーハンドリング~
masatoto
March 26, 2023
Tweet
Share
More Decks by masatoto
See All by masatoto
Weekly AI Agents News!
masatoto
13
4.2k
ICLR2024 LLMエージェントの研究動向
masatoto
9
3.9k
生成AIを用いたText to SQLの最前線
masatoto
1
2.7k
LLMマルチエージェントを俯瞰する
masatoto
26
17k
マルチモーダルLLMの応用動向の論文調査
masatoto
7
3.1k
信頼できるLLMは何を満たすべきか(Trustworthy LLMs)
masatoto
1
1.6k
判断根拠の不確実性を活用したデータ改善手法の提案
masatoto
0
700
NLP2023 分類タスクにおける不確実性の高い文章の傾向調査
masatoto
0
900
人間中心のAIプロダクト開発に向けて意識すること ~ユーザーニーズと提供価値の明確化~
masatoto
0
140
Other Decks in Design
See All in Design
Blender 4.1 で レッツ Vket Cloud!
kamera25
0
130
デザインテクノロジストが先導する プロダクト開発の世界
degudegu2510
1
380
プロダクトを成長させる生成 AI のユースケース発見ワークショップ vol.3
icoxfog417
1
130
Product-Writing
aguringo
6
2.8k
プロダクトデザイン部 組織紹介(デザイナー向け)
chatwork_hr
1
290
Designship 2023|想いを可視化するデザインの力
weddingpark
0
260
Ride or Die Animatics
warwatkar
0
140
事業戦略と組織のビジョンデザイン〜デザイン的アプローチで事業・組織づくりにどう取り組んでいるかのリアル〜
jdesign_tokyo
1
420
ユーザーのためなら 『デザイン』 以外にも手を伸ばせる
navitimejapan
PRO
2
840
Web 組版の課題とその解法
yamatoiizuka
0
120
マスとAIをなめらかにつなぐデザイン
abcmisuzu
0
250
0→1でデザイナーは何とむきあうのか? / 0→1 Meetup 〜多様な0→1フェーズにおけるデザイナーの働き方〜 / Yasuhiro Yokota
yasuhiroyokota
0
110
Featured
See All Featured
Building a Modern Day E-commerce SEO Strategy
aleyda
22
6.4k
Large-scale JavaScript Application Architecture
addyosmani
504
110k
Code Reviewing Like a Champion
maltzj
515
39k
A designer walks into a library…
pauljervisheath
201
23k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
67
14k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
221
21k
Debugging Ruby Performance
tmm1
70
11k
What the flash - Photography Introduction
edds
64
11k
A Philosophy of Restraint
colly
197
16k
Designing for humans not robots
tammielis
247
25k
Intergalactic Javascript Robots from Outer Space
tanoku
266
26k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
15
1.6k
Transcript
⼈間中⼼のAIプロダクト開発に向けて意識すること ユーザーとAIのエラーハンドリング @ottamm_190 2023/03/26
はじめに GoogleのPeople + AI Research チームがまとめたガイドブック (2021年5⽉18⽇更新版) https://pair.withgoogle.com/guidebook このスライドはガイドブックを訳し、⾃分の知⾒を⼀部加筆した。 技術中⼼から⼈間中⼼に考える視野を広げてくれるガイドブックでした。
2019年6⽉12⽇時点で⽻⼭ 祥樹(@storywriter)さんの⽇本語訳サイトも⼤変参考になりました。
エラーと上⼿な失敗 エラーへの対処がAIシステムの信頼に直結する
エラーと上⼿な失敗 ➀ エラーと失敗を定義する ➁ エラーの原因を特定する ➂ 失敗しても先に進めるようにする ü ユーザーが確信度の低い予測を「エラー」と⾒なすのはいつか ü
複雑なAIのエラーの原因をどのようにすれば特定できるのか ü AIが失敗したとき、ユーザーが先に進めるようになっているか
エラーと上⼿な失敗 ➀ エラーと失敗を定義する ➁ エラーの原因を特定する ➂ 失敗しても先に進めるようにする AIシステムは出⼒をすれば成功ではない ユーザーの期待に答える必要がある ユーザーはいつエラーを引き起こすのかを知りたい
エラーと失敗を区別する システムエラー • ユーザーの観点から定義されたプロダクトのバグによるエラー ユーザーエラー • システム設計者の観点から定義されたユーザーの「誤⽤」のせいで起こるエラー コンテキストエラー • ユーザーの期待に応えられないエラー
• システムは「意図した通りに動いている」が、ユーザーはエラーだと認識 • システムの動作が⼗分に説明されていない • ユーザーのメンタルモデルを壊れている • 予測の精度が悪いときに起こる AIシステムの制限による失敗 • システムの限界のため出⼒は不可だが、ユーザーからは応答を求められている状態 • エラーメッセージでは、システムの制限を具体的にユーザーに知らせる
使い始めと慣れた時でエラーの感度が変わる 需要予測の場合 ・データが少ないとき、コンテキストエラーにならない。 ・データが溜まってきたとき、予測を外されるとコンテキストエラーになる。 新商品(学習期間が短い) 予測が外れても新商品だし…と許容される。 既存商品(学習期間が⻑い) ⻑いこと販売しているはずなのに… 予測誤差を許容できなくなってくる。 ⽋損期間があり、
学習期間が短いなど。
状況に応じた利害とエラーのリスクを検討する AI のエラーや失敗は、ときに深刻な結果をもたらす 前提として、ユーザーは忙しい • AI 製品を使⽤時はマルチタスク、時間のプレッシャーにさらされている • システムの出⼒を再確認する余裕がない Ø
潜在的に起こりうるエラーのリスクを測定する Ø 状況の利害関係を評価する
潜在的に起こりうるエラーのリスクを測定する エラーが起こる可能性が低いケース • ユーザーはタスクの専⾨知識を持っている • 過信せず、吟味して使う • システムの信頼度が⾮常に⾼い • 成功する可能性が⾼い
エラーが起こる可能性が⾼いケース • ユーザーがタスクの初⼼者 • 注意⼒が散漫や反応時間が短い (マルチタスク) • システムの信頼度が低い • 成功の条件が狭い PoCをするときはこちらのケースが多い。 導⼊するとこちらのケースが多い。
状況の利害関係を評価する 利害が⼩さい • お試し的な実験 • 遊びやクリエイティブのとき • 推薦が必須でないとき 利害が⼤きい •
健康、安全、または財政上の決定 • デリケートな社会的状況 • クリエイティブでも競合製品と類似するとき ChatGPTで利⽤が最適。 利害があるときは慎重に 個別モデルを検討
エラーと上⼿な失敗 ➀ エラーと失敗を定義する ➁ エラーの原因を特定する ➂ 失敗しても先に進めるようにする ユーザー体験に基づきエラーごとに原因を特定する エラーの種類を理解する
エラーの特定と対策 予測と訓練データのエラーを⾒つける ユーザーの⼊⼒エラーを想定し、対策しておく システム側は別サービスの出⼒の品質をチェックする データセットや モデルのエラー 複数のAIシステム間の データエラー ユーザーの ⼊⼒エラー
コンテキストエ ラー AI システム ユーザー
予測と訓練データのエラーを⾒つける • ラベリングミスまたは誤分類 • データの⽋損や不完全 • データやモデルのバイアス [左図] Principles of
Explanatory Debugging to Personalize Interactive Machine Learning,2015 [右図] Errudite: Scalable, Reproducible, and Testable Error Analysis, ACL2019 https://www.rungalileo.io/ 分析ツールの論⽂が多く出ている。 データ分析ツールもMLOps製品として開発 NLPだとGalileo など
システム側は別サービスの出⼒の品質を監視する 複数のシステムを連携するとき • 別のシステムの出⼒が期待通りか監視しておく • 複数のAIシステムの関係を視覚的に表現する ChatGPT API response request
システム ロバスト評価 テストに対し、期待する結果か 形式は想定内の崩れか
⼊⼒エラーを想定して対策しておく 予期しない⼊⼒があることを事前に考えておく • もし検索時にスペルミスしてもシステムが修正するとユーザーが期待していたら • 対応︓ユーザーの⼊⼒と予想される回答の範囲を⽐較し、意図を確認 ユーザーの慣れから起こるミスを考えておく • UIの変更によってユーザーの⾏動が変化し、望ましくない結果につながるとき •
対応︓慣れを壊さない⽅法を検討 ⼊⼒の意図を間違えることを意識する • システム側がユーザーの⾏動または選択を不適切に重み付けするとき • 対応: システムが⼊⼒と出⼒を説明し、ユーザーがフィードバックを通じてシステム を修正できるようにする。
エラーと上⼿な失敗 ➀ エラーと失敗を定義する ➁ エラーの原因を特定する ➂ 失敗しても先に進めるようにする ⼈とAIの協調を⽬指す ⼈がAIのエラーを引き継ぎ、改善していく
➂ 失敗しても先に進めるようにする システムに障害が発⽣した後、ユーザーができることに焦点を当てる フィードバックの機会を作る • ユーザーが経験するエラーの多くは、システムを改善するためにフィードバックを 必要とする。 • ミスラベルなど、システム⾃体が容易に認識できないエラーは、外部からのフィー ドバックで修正する。
• プロンプトで修正を要求する。 ⾃動化や⽀援を⽌めて、主導をユーザーに戻す • AI システムに障害が発⽣した多くの場合、ユーザーに出⼒をさせるよう引き継ぐ
[実践] エラーを洗い出す モデルが⽣成しうる様々なエラーの種類を洗い出す。 システムの制限 システム固有の限界のため、システムが 正しい答えを提供できない。 ⽂脈 システムは「意図したとおりに動作している」が、シス テムのアクションが⼗分に説明されていない、ユーザーのメン タルモデルを壊している、または不⼗分な仮定に基づいて
いるため、ユーザーはエラーを認識する。 背景 システムが正しく動作していない状況だが、ユーザー もシステムもエラーを認識していない状態。 スクリーンショット、画像、ログを追加して、エラーが発⽣したとき にユーザーが⾒ているものを記述する。
[実践] 解決策をまとめる エラーの根拠 エラーの解決策 モデル改善の機会
個⼈的な学びと失敗 ➀ エラーと失敗を定義する • 画像ごとのスコアのカラーの正規化範囲が画像枚に設定されており、画像間の違いを指摘された。 • コンテキストエラーは専⾨家なほど、バイアスもあり、起きやすいように感じる。 • 利害が多いケースでChatGPTがどこまで使えるかのPoCが今後増える。 ➁
エラーの原因を特定する • 別サービスの出⼒品質の監視が意外とできていないと思った。 • 予測精度のロバスト評価やエラー分析をきちんとする。 ➂ 失敗しても先に進めるようにする • 予測の不確実性の⾼さから⾃信がないときは⼈間に戻す。 • ChatGPTならサービス外の質問か分類するか、答えないように指⽰し、次に繋げる。