Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Bedrockのモデル評価
Search
Shota Totsuka
June 25, 2024
3
230
Bedrockのモデル評価
Shota Totsuka
June 25, 2024
Tweet
Share
More Decks by Shota Totsuka
See All by Shota Totsuka
Dify|基礎から最新アップデートまでをサラッと紹介
totsukash
5
1.4k
Hugging Faceを使いこなして ローカルLLMを推論する
totsukash
3
750
gRPCとConnect
totsukash
1
260
Featured
See All Featured
The Brand Is Dead. Long Live the Brand.
mthomps
53
37k
Building Applications with DynamoDB
mza
90
6k
The Cost Of JavaScript in 2023
addyosmani
42
5.2k
[RailsConf 2023] Rails as a piece of cake
palkan
48
4.6k
Building Better People: How to give real-time feedback that sticks.
wjessup
359
18k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
26
2k
Visualization
eitanlees
142
15k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
89
16k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.2k
Designing for Performance
lara
604
68k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
23
1.7k
Statistics for Hackers
jakevdp
793
220k
Transcript
Bedrockのモデル評価 人間による評価の可能性を探ってみる 戸塚 翔太
自己紹介 - 戸塚翔太(Blueish) - Go, Rust, Python - 生成AI, 機械学習
- 松尾研GENIAC開発メンバーとして参加 - 静岡県(浜松)に住んでます - 近くの方がいれば、一緒に勉強会しましょう - X: @totsumaru_dot
会社紹介 - 株式会社ブルーイッシュ - Go, Rust, 生成AIエンジニア等募集中 - 興味があれば覗いていただけると嬉しいです -
https://www.blueish.co.jp
Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ
今日伝えたいこと 1. Bedrockのモデル評価は、実務ではまだ使いにくい(個人的に) a. 評価できるモデルや機能が少ない 2. Bedrockで人間による評価のやり方 a. まだ実務では使っていないが、機能を知っておいて損はない b.
LLMによる自動評価が注目されるが、人間による評価も共存させる
Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ
概要 - 評価手法 - 自動(LLMによる自動評価) - 人間(自分の作業チームを作成) - 人間(AWSマネージドチームによる評価) -
モデル評価ジョブ - 一般テキスト生成(正解率, 堅牢性, 有害性) - テキスト要約(正解率, 堅牢性, 有害性) - 質問と回答(正解率, 堅牢性, 有害性) - テキスト分類(正解率, 堅牢性) - データセット - AWSのデフォルトデータセット(BOLD, TREX…) - 独自のプロンプトデータセット(S3に用意) - その他 - 推論はBedrockで実行される(課金対象) 1. Bedrockのモデル評価
“現時点で” ここが辛い - 評価できるモデルが限られている - Claude 3, 3.5 は評価できない(2024.6.22時点)? -
プロンプトの評価機能が整っていない - 独自データセットを使えばできるが、バージョン管理など自分でやる必要がある - オフライン評価特化 - オンライン評価も独自データセットでできるが、手間がかかる → 実務ではAzureや他ツールを使い、まだBedrockは導入していない 1. Bedrockのモデル評価
Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ
人間による評価を上手に使う - 前提: Bedrockの辛いところは変わらない - プロダクトに応じて、日本語の言い回しなど柔軟に評価 - Biz側(非エンジニア)も評価に参加 - LLMによる自動評価は継続しつつ、ポイントで人間による評価を取り入れる
- 自動評価で最低限の品質を保ち、手動評価でビジネス要件とのズレを確認・修正 2. 人間による評価
評価の方法① ジョブの開始 1. 対象のモデルを選択(2つまで同時に選択できる) 2. タスクタイプを選択(一般テキスト生成、要約...etc) 3. 評価メトリクスを選択、指定(この数だけ手動評価する) 4. データセットの場所を指定(事前にS3にjsonlを保存)
a. prompt: required b. referenceResponse, category: optional 5. ロールの作成/選択 6. 作業チームの設定(メンバーのメールアドレスを設定) 7. 作業チームに依頼する文面作成 8. 実行 → 新規メンバーにはメールが送られる 2. 人間による評価 ロールはエラーの原因に なりやすいので、一旦は ここで作ることをお勧め します。
評価の方法② 評価の実行 2. 人間による評価 1. (ワーカー届いたメールのURLにサインイン) 2. プロンプトと出力をみて、1つずつ手動評価 3. Submitで評価完了
プロンプトと各モデルの出力結果 評価項目(ここで評価をつける) 結果 ※ステータスについて 「進行中」でもワーカーページにジョブがあれば評価で きます。全員が完了したら「完了済み」に変わります。 → 自分は推論が終わっていないと勘違いし「進行中」 でずっと待機していました。。
Agenda 1. Bedrockのモデル評価 2. 人間による評価 3. まとめ
まとめ - 現状では実務で満足に使えないところも多いが、今後検討はしていきたい - 自動評価だけでなく、積極的に人間による評価も取り入れる - (サービスの規模やフェーズにもよる) - Claude 3.5
Sonnet / Claude 3 Opus をBedrockで評価、比較したい!
None