Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
対話品質の評価に向き合う
Search
Asei Sugiyama
May 22, 2024
Technology
3
420
対話品質の評価に向き合う
RAG MLOps LT大会!!!
https://mlops.connpass.com/event/315387/
での登壇資料です
Asei Sugiyama
May 22, 2024
Tweet
Share
More Decks by Asei Sugiyama
See All by Asei Sugiyama
MLOps の現場から
asei
6
630
LLMOps: Eval-Centric を前提としたMLOps
asei
7
470
The Rise of LLMOps
asei
13
2.6k
生成AIの活用パターンと継続的評価
asei
15
2.3k
最近の Citadel AI の取り組みのご紹介 (Nov, 2024)
asei
2
80
仕事で取り組む 生成 AI 時代の対話の品質評価
asei
2
63
MLOps の処方箋ができるまで
asei
3
560
LLM を現場で評価する
asei
5
940
生成 AI の評価方法
asei
8
2.2k
Other Decks in Technology
See All in Technology
How to be an AWS Community Builder | 君もAWS Community Builderになろう!〜2024 冬 CB募集直前対策編?!〜
coosuke
PRO
2
2.8k
プロダクト開発を加速させるためのQA文化の築き方 / How to build QA culture to accelerate product development
mii3king
1
260
日本版とグローバル版のモバイルアプリ統合の開発の裏側と今後の展望
miichan
1
120
Oracle Cloudの生成AIサービスって実際どこまで使えるの? エンジニア目線で試してみた
minorun365
PRO
4
280
DevOps視点でAWS re:invent2024の新サービス・アプデを振り返ってみた
oshanqq
0
180
NW-JAWS #14 re:Invent 2024(予選落ち含)で 発表された推しアップデートについて
nagisa53
0
250
watsonx.ai Dojo #5 ファインチューニングとInstructLAB
oniak3ibm
PRO
0
160
[Ruby] Develop a Morse Code Learning Gem & Beep from Strings
oguressive
1
150
非機能品質を作り込むための実践アーキテクチャ
knih
3
730
Amazon Kendra GenAI Index 登場でどう変わる? 評価から学ぶ最適なRAG構成
naoki_0531
0
100
サイバー攻撃を想定したセキュリティガイドライン 策定とASM及びCNAPPの活用方法
syoshie
3
1.2k
Fanstaの1年を大解剖! 一人SREはどこまでできるのか!?
syossan27
2
160
Featured
See All Featured
Large-scale JavaScript Application Architecture
addyosmani
510
110k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
48k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
28
900
Building an army of robots
kneath
302
44k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
Building Your Own Lightsaber
phodgson
103
6.1k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.1k
Optimizing for Happiness
mojombo
376
70k
Designing on Purpose - Digital PM Summit 2013
jponch
116
7k
Gamification - CAS2011
davidbonilla
80
5.1k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
45
2.2k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
26
1.9k
Transcript
対話品質の評価に向き合う Asei Sugiyama
自己紹介 杉山 阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google
Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG 機械学習図鑑 共著 決闘者 @ マスターデュエル
まとめ LLM の対話品質の評価では、典型的な品質特性以外に次々に新たな品質 特性が提案されており、ベンチマークとなるデータセットの開発も進行 している 実用上はボトムアップな評価をヒアリングやログから行うことも有用 で、デジタル庁による評価レポートは推進するうえでかなり参考となる 評価時にはチームで評価を行うことになる点に注意し、必要な場合は不 適切な文章でも評価すると良い
TOC 対話の品質特性 <- 対話の品質評価のワークフロー 実務上の Tips
対話の品質特性 LLM 以前の対話の品質評価 LLM 時代の対話の品質評価 品質の評価方法
LLM 以前の対話の品質評 価 AIによる対話の品質評価は 新しいことではない これまでは主にチャットボ ットで行われ、正答率が重 要視された ユーザーからのフィードバ ックで典型的には計測
チャットボット(ふたば)に質問する|国税庁 https://cloud.google.com/vertex-ai/docs/pipelines/notebooks
LLM 時代の対話の品質評価 タスクが多様なため正答率 以外の指標が必要に Q&A, 要約, 翻訳, コード 生成, etc...
ユーザーからのフィードバ ックで「良さ」を測ること はできる 「良さ」とは何かが問題に なる ChatGPT https://chatgpt.com/
QA4AI AIプロダクト品質保証ガイド ライン AI 技術への過度の期待を予防し、適 切な活用や適時のリリースを行うた めの、AIプロダクトの品質保証に対 する共通的な指針を与えるものであ る。 2024.04
版 で大規模言語モデル・対 話型AIの包括的な品質特性の定義に 取り組んでいる QA4AI https://www.qa4ai.jp/
AIプロダクト品質保証ガイドラインによる品質特性 QC01: 回答性能 QC02: 事実性‧ 誠実性 QC03: 倫理性‧ アラインメント QC04:
頑健性 QC05: AI セキュリティ その他: 透明性・説明可能性・アクセシビリティー・ユーザビリティと社 会心理的側面・機能適応性
所感 (1/2) 回答性能に含まれている「創造性‧ 多様性」は、既存の Chatbot では求 められなかった性質 (典型的には正確性だけが求められた) 誠実性のような、新たな品質特性が出現している ハルシネーションや不整合を含む返答を行わないこと、不確かさが高い
回答に対してそのような明記を行う誠実性(Truthfulness)も求めるこ ととなる
所感 (2/2) これ以外の品質特性もさまざまに考えられる 著者の石川先生が発表中で「新たな品質特性が今この場で見つかるかも しれない」と述べられているほど
品質の評価方法 (1/3) QA4AI では現状の方法としてベンチマークとなるデータセットを用いた 方法を紹介している 品質特性ごとに使えるデータセットや計測方法を紹介 ベンチマークとなるデータセットを用いた評価には次の課題がある 1. 得点として計測させる方法に収束させがち 2.
測りたい品質特性に合ったベンチマークがあるとは限らない 3. 測りたい品質特性を事前に明確にできなければいけない
品質の評価方法 (2/3) 1. 得点として計測させる方法に収束させがち 例: 倫理観は得点化できるのか? 2. 測りたい品質特性に合ったベンチマークがあるとは限らない 社内の問い合わせで「社内で用いられる特定の様式にしたがっている」 という品質特性が求められた場合、そのようなデータセットが必要とな
る (当然そんなものはない) LLM を適用したい個別のユースケースで重要となる品質特性は未知のも のであるかもしれない
品質の評価方法 (3/3) 3. 測りたい品質特性を事前に明 確にできなければいけない 商品の品名を作成する場 合、当然売れるタイトルを 付けたい どのような特性があれば売 れるのかは非自明
なぜ、最悪の業績なのに年商の20%にもあたる1億円の売上を手放してまで楽天 市場から退店するのか|鷲尾 岳 / ワシオ株式会社 3代目社長 https://note.com/t_washio/n/n46ed6f71ef46
TOC 対話の品質特性 対話の品質評価のワークフロー <- 実務上の Tips
対話の品質評価のワークフロー ボトムアップな対話の品質評価 2023年度 デジタル庁・行政における生成AIの適切な利活用に向けた技 術検証レポート 過去の取り組み 自動化に関する取り組み
ボトムアップな対話の品質評価 ベンチマークとなるデータセットによるトップダウンな事前評価には独 特な難しさがある ベンチマークによる事前評価だけではなく、ヒアリングや実際に利用し たログを用いたボトムアップな事後評価も重要 ベンチマーク以外の方法を共有
2023年度 デジタル庁・行政 における生成AIの適切な利活 用に向けた技術検証 ヒアリングを行いながら検 証対象とするユースケース を整理 各ユースケースに対して評 価項目を定義して、評価用 データ
10 件ずつを用意して 評価 2023年度 デジタル庁・行政における生成AIの適切な利活用に向けた技術検証を 実施しました|デジタル庁 https://www.digital.go.jp/news/19c125e9-35c5- 48ba-a63f-f817bce95715
アンケートによる評価 利用者へのアンケートによ る評価を合わせて実施 ユーザー間での利用頻度に 差があり、高頻度に使う人 のほうが効果を体感してい ることが判明 2023年度 デジタル庁・行政における生成AIの適切な利活用に向けた技術検証を 実施しました|デジタル庁
https://www.digital.go.jp/news/19c125e9-35c5- 48ba-a63f-f817bce95715
デジタル庁2023年度事業 行政での生成AI利活用検証から見えた10の学び (3/3)|デジタル庁 https://digital-gov.note.jp/n/nbabf667519fc
筆者の過去の取り組み 対話ログを眺める 対話ログからユースケースを整理 ユースケースごとに評価観点を整理 人手で評価 (ユースケースごとに100件程度) 評価結果をレポートとして提供
自動化に関する取り組み LLM による評価は人手によ る評価と相関するという報 告がある 人手による評価と LLM によ る評価を比較検証すること で評価の自動化が検証可能
評価用のツールも開発して いる (LangCheck) citadel-ai/langcheck: Simple, Pythonic building blocks to evaluate LLM applications. https://github.com/citadel-ai/langcheck
None
TOC 対話の品質特性 対話の品質評価のワークフロー 実務上の Tips <-
実務上の Tips チームによる評価 異常系の評価
チームによる評価 誰か一人で評価できるのであれば (経験上) それがベスト 分量の問題から、チームで評価を行うことも多い
チームによる評価の注意点 複数人が同じデータに対し て評価をこない、多数決を 行うことはあまり効率的で はない 複雑なタスクの場合、クラ ウドサービスでアノテーシ ョンする方法はかなり厳し い Margaret
A. Webb, June P. Tangney "Too Good to Be True: Bots and Bad Data From Mechanical Turk" Perspectives on Psychological Science (2022) https://journals.sagepub.com/doi/10.1177/17456916221120027
過去に行った評価方法 評価観点やサンプルをドキュメントとして作成し、チームで共有 それぞれの人に異なるサブセットを割り振り、手分けして評価 判断に迷った事例を持ち寄り、チームで評価結果を決定 判断に迷った事例をドキュメントに追加
注意点 最初からドキュメントですべてをカバーしようとしすぎない 「正しい評価」の定義が可能なら LLM は必要ない ユースケースの分類では、最初から過度に詳細な分類を作らない 分類自体も評価しながら変更するのが良い
参考書籍 Human-in-the-Loop 機械学習が 良い情報源となる 翻訳のレビューに参加 アノテーションの方法について 詳細を記述した本としては出色 の出来 Robert (Munro)
Monarch 著 上田 隼也 訳 角野 為耶 訳 伊藤 寛祥 訳 "Human-in-the- Loop機械学習" 共立出版 2023 年 https://www.kyoritsu- pub.co.jp/book/b10039888.html
異常系の評価 ボトムアップな評価で述べた方法では「良い文章」のは手に入る 異常系に該当する「答えてほしくない文章」は手に入りにくい とくに社内利用の場合、ほとんどの人がマジメに使うので
AnswerCarefully 不適切な質問に対する、望まし い回答を作成したデータセット LLM の評価において使われた実 績がある Citadel AI として作成に協力 AnswerCarefully
Dataset – RIKEN-AIP, LIAT https://liat- aip.sakura.ne.jp/wp/answercarefully-dataset/
まとめ LLM の対話品質の評価では、典型的な品質特性以外に次々に新たな品質 特性が提案されており、ベンチマークとなるデータセットの開発も進行 している 実用上はボトムアップな評価をヒアリングやログから行うことも有用 で、デジタル庁による評価レポートは推進するうえでかなり参考となる 評価時にはチームで評価を行うことになる点に注意し、必要な場合は不 適切な文章でも評価すると良い