Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
仕事で取り組む 生成 AI 時代の対話の品質評価
Search
Asei Sugiyama
September 30, 2024
Technology
2
150
仕事で取り組む 生成 AI 時代の対話の品質評価
Google Cloud Next Tokyo '24 での LT 用の資料です
Asei Sugiyama
September 30, 2024
Tweet
Share
More Decks by Asei Sugiyama
See All by Asei Sugiyama
AI エージェント活用のベストプラクティスと今後の課題
asei
2
520
エージェントの継続的改善のためのメトリクス再考
asei
3
730
生成AI活用のベストプラクティス集を作ってる件
asei
1
850
GenAIOps: 生成AI時代の DevOps
asei
0
62
生成AI活用の実践解説 (速報版)
asei
1
1.6k
実践AIガバナンス
asei
3
1k
Eval-Centric AI: Agent 開発におけるベストプラクティスの探求
asei
1
360
AI工学特論: MLOps・継続的評価
asei
11
3.1k
生成AIを用いるサービス開発の原則
asei
1
91
Other Decks in Technology
See All in Technology
AWS CLIの新しい認証情報設定方法aws loginコマンドの実態
wkm2
6
750
MLflowで始めるプロンプト管理、評価、最適化
databricksjapan
1
250
AI時代の新規LLMプロダクト開発: Findy Insightsを3ヶ月で立ち上げた舞台裏と振り返り
dakuon
0
190
生成AI時代におけるグローバル戦略思考
taka_aki
0
200
「図面」から「法則」へ 〜メタ視点で読み解く現代のソフトウェアアーキテクチャ〜
scova0731
0
320
Reinforcement Fine-tuning 基礎〜実践まで
ch6noota
0
190
20251218_AIを活用した開発生産性向上の全社的な取り組みの進め方について / How to proceed with company-wide initiatives to improve development productivity using AI
yayoi_dd
0
110
非CUDAの悲哀 〜Claude Code と挑んだ image to 3D “Hunyuan3D”を EVO-X2(Ryzen AI Max+395)で動作させるチャレンジ〜
hawkymisc
2
200
re:Invent 2025 ~何をする者であり、どこへいくのか~
tetutetu214
0
220
評価駆動開発で不確実性を制御する - MLflow 3が支えるエージェント開発
databricksjapan
1
210
MySQLとPostgreSQLのコレーション / Collation of MySQL and PostgreSQL
tmtms
1
180
IAMユーザーゼロの運用は果たして可能なのか
yama3133
1
460
Featured
See All Featured
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
37
2.6k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.5k
Practical Orchestrator
shlominoach
190
11k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
9
1k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
Reflections from 52 weeks, 52 projects
jeffersonlam
355
21k
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Writing Fast Ruby
sferik
630
62k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.6k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Transcript
Proprietary 仕事で取り組む 生成 AI 時代の 対話の品質評価
02 Proprietary Google Cloud Next Tokyo ’24 杉山 阿聖 株式会社
Citadel AI Software Engineer
03 Proprietary 01 なぜ「評価」なのか 02 対話の品質評価 03 生成 AI の比較
04 まとめ アジェンダ
04 Proprietary Google Cloud Next Tokyo ’24 なぜ「評価」なのか
05 Proprietary Google Cloud Next Tokyo ’24 身近に広がる生成 AI •
チャット専用のアプリを超えて さまざまな箇所で使われている • さまざまなサービスや デバイスとの統合は 世界的な潮流として進むと思われる ※画像の置換方法 グレーボックスを選択し、 右クリックで「画像を置 換」を選択し、配置したい画像に差し替えてくださ い。本テキストは削除してください。
06 Proprietary & Confidential ※画像の置換方法 グレーボックスを選択し、 右クリックで「画像を置換」 を選択 し、配置したい画像に差し替えてください。本テキストは削除し てください。
※画像の置換方法 グレーボックスを選択し、 右クリックで「画像を置換」 を選択 し、配置したい画像に差し替えてください。本テキストは削除し てください。 生成 AI は特定分野の 専門知識に弱い • 同じプロンプトから左折の手順 を生成 • 上 : Gemini 1.5 Pro • 下 : ChatGPT 4o • ともに信号機を確認しない
07 Proprietary Google Cloud Next Tokyo ’24 基盤モデルの Finetune •
生成 AI 以前の常識に従えば 業界特化な知識は finetune で与える • 基盤モデルを finetune し 特化モデルを作成することは 技術的に可能 ※画像の置換方法 グレーボックスを選択し、 右クリックで「画像を置 換」を選択し、配置したい画像に差し替えてくださ い。本テキストは削除してください。 Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." arXiv preprint arXiv:2106.09685 (2021). https://arxiv.org/abs/2106.09685
08 Proprietary Google Cloud Next Tokyo ’24 Finetune で特定分野の 知識を与えるのは困難
• モデルの知らない知識を 意図的に与えた実験 • 知らない知識を与えれば 与えるハルシネーションを 引き起こしやすくなる ※画像の置換方法 グレーボックスを選択し、 右クリックで「画像を置 換」を選択し、配置したい画像に差し替えてくださ い。本テキストは削除してください。 Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904
09 Proprietary & Confidential Google Cloud Next Tokyo ’24 ※画像の置換方法
グレーボックスを選択し、 右クリックで「画像を置換」 を選択 し、配置したい画像に差し替えてください。本テキストは削除し てください。 Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?."arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904
010 Proprietary Google Cloud Next Tokyo ’24 • 検索と生成 AI
の合せ技 • 検索で特定分野の知識を 与えられるアーキテクチャ • 特定分野の知識を与えたとしても、そ れをモデルが利用できるかは 自明でない • 故に評価が必要 RAG (Retrieval-Augmented Generation) ※画像の置換方法 グレーボックスを選択し、 右クリックで「画像を置 換」を選択し、配置したい画像に差し替えてくださ い。本テキストは削除してください。 Infrastructure for a RAG-capable generative AI application using GKE https://cloud.google.com/architecture/rag-capable-gen-ai-app-using-gke
011 Proprietary Google Cloud Next Tokyo ’24 対話の品質評価
012 Proprietary Google Cloud Next Tokyo ’24 対話の品質評価の 3 つの方法
• ベンチマークを用いた事前評価 : QA4AI ガイドライン • 仮想シナリオを用いた事前評価 : デジタル庁のレポート • 対話ログを用いた事後評価: 弊社での取り組み 評価手法 ベンチマーク 仮想シナリオ 対話ログ 事前評価可能 ✓ ✓ カスタマイズ性 ✓ 特定業務の品質評価 ✓
013 Proprietary Google Cloud Next Tokyo ’24 ベンチマークによる評価 (1/2) •
QA4AI AI プロダクト品質保証 ガイドライン (2024.04 版) • ベンチマークとなる データセットを用いた方法を紹介 • 典型的な「正確性」だけではなく「創造 性‧多様性」といった 新たな品質も整理 ※画像の置換方法 グレーボックスを選択し、 右クリックで「画像を置 換」を選択し、配置したい画像に差し替えてくださ い。本テキストは削除してください。
014 Proprietary Google Cloud Next Tokyo ’24 ベンチマークによる評価 (2/2) •
ベンチマークには課題も 1. 得点として計測する方法に 収束させがち 2. 測りたい品質特性に合った ベンチマークがあるとは限らない 3. 測りたい品質特性の明確化が 事前に必要 ※画像の置換方法 グレーボックスを選択し、 右クリックで「画像を置 換」を選択し、配置したい画像に差し替えてくださ い。本テキストは削除してください。
015 Proprietary & Confidential ※画像の置換方法 グレーボックスを選択し、 右クリックで「画像を置換」 を選択 し、配置したい画像に差し替えてください。本テキストは削除し てください。
※画像の置換方法 グレーボックスを選択し、 右クリックで「画像を置換」 を選択 し、配置したい画像に差し替えてください。本テキストは削除し てください。 仮想シナリオによる 評価の例 • 2023年度 デジタル庁・行政における生 成 AI の適切な利活用に向けた 技術検証 • ユースケースを洗い出し、 ユースケースごとに評価観点を 整理して、評価用データを作成 • カバレッジは良い • 件数の確保には苦労している (10 件)
016 Google Cloud Next Tokyo ’24 過去ログに基づく 評価のワークフロー ※画像の置換方法 グレーボックスを選択し、
右クリックで「画像を置換」 を選択 し、配置したい画像に差し替えてください。本テキストは削除し てください。
017 Proprietary Google Cloud Next Tokyo ’24 過去ログに基づく評価の課題 • スプレッドシートは柔軟なものの手間が多い
• 「良い」という定義をすることが難しい • 評価を自動化しないとスケールしない
018 Proprietary Google Cloud Next Tokyo ’24 生成 AI の比較
019 Google Cloud Next Tokyo ’24 スプレッドシートでの手 動評価は手間 ※画像の置換方法 グレーボックスを選択し、
右クリックで「画像を置換」 を選択 し、配置したい画像に差し替えてください。本テキストは削除し てください。
020 Google Cloud Next Tokyo ’24 ⽣成 AI の評価ツール Lens
for LLMs
021 Google Cloud Next Tokyo ’24 複数モデルの比較
022 Google Cloud Next Tokyo ’24 モデルの傾向の比較
023 Google Cloud Next Tokyo ’24 LLM を用いた評価に おけるバイアスの例
024 Proprietary Google Cloud Next Tokyo ’24 まとめ
025 Proprietary Google Cloud Next Tokyo ’24 対話の品質評価の 3 つの方法
• ベンチマークを用いた事前評価 : QA4AI ガイドライン • 仮想シナリオを用いた事前評価 : デジタル庁のレポート • 対話ログを用いた事後評価: 弊社での取り組み 評価手法 ベンチマーク 仮想シナリオ 対話ログ 事前評価可能 ✓ ✓ カスタマイズ性 ✓ 特定業務の品質評価 ✓
026 Proprietary Google Cloud Next Tokyo ’24 Lens for LLMs
Beta • 今回は時間の都合上、 実際の利用方法の大半を省略 • 登録していただいた方への プライベートベータ版としてご提供中 • ご興味ある方は一声おかけください! ※画像の置換方法 グレーボックスを選択し、 右クリックで「画像を置 換」を選択し、配置したい画像に差し替えてくださ い。本テキストは削除してください。
Thank you 027 Proprietary