Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Bedrockのモデル評価
Search
Shota Totsuka
June 25, 2024
3
300
Bedrockのモデル評価
Shota Totsuka
June 25, 2024
Tweet
Share
More Decks by Shota Totsuka
See All by Shota Totsuka
自発的にActionする(っぽい)AI Agentを常に稼働させている話
totsukash
1
29
Dify|基礎から最新アップデートまでをサラッと紹介
totsukash
7
1.6k
Hugging Faceを使いこなして ローカルLLMを推論する
totsukash
3
830
gRPCとConnect
totsukash
1
270
Featured
See All Featured
How To Stay Up To Date on Web Technology
chriscoyier
789
250k
Measuring & Analyzing Core Web Vitals
bluesmoon
4
170
Site-Speed That Sticks
csswizardry
2
190
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.2k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
6.9k
Building a Scalable Design System with Sketch
lauravandoore
460
33k
Bash Introduction
62gerente
608
210k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
111
49k
How STYLIGHT went responsive
nonsquared
95
5.2k
The Cult of Friendly URLs
andyhume
78
6.1k
Transcript
Bedrockのモデル評価 人間による評価の可能性を探ってみる 戸塚 翔太
自己紹介 - 戸塚翔太(Blueish) - Go, Rust, Python - 生成AI, 機械学習
- 松尾研GENIAC開発メンバーとして参加 - 静岡県(浜松)に住んでます - 近くの方がいれば、一緒に勉強会しましょう - X: @totsumaru_dot
会社紹介 - 株式会社ブルーイッシュ - Go, Rust, 生成AIエンジニア等募集中 - 興味があれば覗いていただけると嬉しいです -
https://www.blueish.co.jp
Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ
今日伝えたいこと 1. Bedrockのモデル評価は、実務ではまだ使いにくい(個人的に) a. 評価できるモデルや機能が少ない 2. Bedrockで人間による評価のやり方 a. まだ実務では使っていないが、機能を知っておいて損はない b.
LLMによる自動評価が注目されるが、人間による評価も共存させる
Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ
概要 - 評価手法 - 自動(LLMによる自動評価) - 人間(自分の作業チームを作成) - 人間(AWSマネージドチームによる評価) -
モデル評価ジョブ - 一般テキスト生成(正解率, 堅牢性, 有害性) - テキスト要約(正解率, 堅牢性, 有害性) - 質問と回答(正解率, 堅牢性, 有害性) - テキスト分類(正解率, 堅牢性) - データセット - AWSのデフォルトデータセット(BOLD, TREX…) - 独自のプロンプトデータセット(S3に用意) - その他 - 推論はBedrockで実行される(課金対象) 1. Bedrockのモデル評価
“現時点で” ここが辛い - 評価できるモデルが限られている - Claude 3, 3.5 は評価できない(2024.6.22時点)? -
プロンプトの評価機能が整っていない - 独自データセットを使えばできるが、バージョン管理など自分でやる必要がある - オフライン評価特化 - オンライン評価も独自データセットでできるが、手間がかかる → 実務ではAzureや他ツールを使い、まだBedrockは導入していない 1. Bedrockのモデル評価
Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ
人間による評価を上手に使う - 前提: Bedrockの辛いところは変わらない - プロダクトに応じて、日本語の言い回しなど柔軟に評価 - Biz側(非エンジニア)も評価に参加 - LLMによる自動評価は継続しつつ、ポイントで人間による評価を取り入れる
- 自動評価で最低限の品質を保ち、手動評価でビジネス要件とのズレを確認・修正 2. 人間による評価
評価の方法① ジョブの開始 1. 対象のモデルを選択(2つまで同時に選択できる) 2. タスクタイプを選択(一般テキスト生成、要約...etc) 3. 評価メトリクスを選択、指定(この数だけ手動評価する) 4. データセットの場所を指定(事前にS3にjsonlを保存)
a. prompt: required b. referenceResponse, category: optional 5. ロールの作成/選択 6. 作業チームの設定(メンバーのメールアドレスを設定) 7. 作業チームに依頼する文面作成 8. 実行 → 新規メンバーにはメールが送られる 2. 人間による評価 ロールはエラーの原因に なりやすいので、一旦は ここで作ることをお勧め します。
評価の方法② 評価の実行 2. 人間による評価 1. (ワーカー届いたメールのURLにサインイン) 2. プロンプトと出力をみて、1つずつ手動評価 3. Submitで評価完了
プロンプトと各モデルの出力結果 評価項目(ここで評価をつける) 結果 ※ステータスについて 「進行中」でもワーカーページにジョブがあれば評価で きます。全員が完了したら「完了済み」に変わります。 → 自分は推論が終わっていないと勘違いし「進行中」 でずっと待機していました。。
Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ
まとめ - 現状では実務で満足に使えないところも多いが、今後検討はしていきたい - 自動評価だけでなく、積極的に人間による評価も取り入れる - (サービスの規模やフェーズにもよる) - Claude 3.5
Sonnet / Claude 3 Opus をBedrockで評価、比較したい!
None