Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LCTG Bench 日本語LLMの制御性ベンチマークの紹介
Search
Keisuke Kamata
July 23, 2024
Technology
590
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
LCTG Bench 日本語LLMの制御性ベンチマークの紹介
Keisuke Kamata
July 23, 2024
More Decks by Keisuke Kamata
See All by Keisuke Kamata
Physical AIを支えるWeights & Biases
olachinkei
1
370
W_Bハッカソン説明会202602.pdf
olachinkei
0
500
MCPサーバー連携をLLMに学ばせる強化学習フレームワークARTを使ってみる (CyberAgent 三橋 亮太)
olachinkei
1
520
W&Bが新しくリリースしたServerless RLの紹介 (W&B 鎌田啓輔)
olachinkei
0
350
WeaveでMCPを記録する & W&BのMCP
olachinkei
1
340
LLMアプリケーションの品質担保に向けた プラクティスと LLMオブザーバビリティツール
olachinkei
1
320
生成AI開発を加速するNVIDIA NIMとNVIDIA NeMo
olachinkei
2
1.4k
Weaveを用いた生成AIアプリケーションの評価_モニタリンングと実践例.pdf
olachinkei
2
620
20240917_wandb_Monthly_meetup_TIS
olachinkei
0
630
Other Decks in Technology
See All in Technology
プロダクト開発から業務改善コンサルまで。事業全体へ「染み出す」ことで広がるエンジニアの可能性
ham0215
0
120
人材育成分科会.pdf
_awache
1
140
攻撃者視点で考えるDetection Engineering
cryptopeg
2
1.6k
あなたの AI ワークスペースに、 専門コーダーを連れてくる - Amazon Quick Desktop 最新情報
kawaji_scratch
1
130
ルールやカスタム機能、どう活かす?ハンズオンで体感するIBM Bobの出力コントロール
muehara
1
150
白金鉱業Meetup_Vol.24_「AIエージェントは分けるほど良い」は本当か? / Is it true that “the more you divide AI agents, the better”?
brainpadpr
1
350
How Timee Delivers Day 1 Production Ready LLM Features
tomoyks
0
190
チームで進めるAI駆動アジャイル×ウォーターフォール
kumaiu
0
160
EventBridge Connection
_kensh
5
700
データサイエンスを価値につなげるプロジェクト設計 〜 DS一年目が現場で得た気づき 〜
ysd113
1
220
"何を作るか"を任される エンジニアは、どう育つのか
yutaokafuji
1
660
あなたの知らないPDFのアクセシビリティ
lycorptech_jp
PRO
0
160
Featured
See All Featured
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
370
Being A Developer After 40
akosma
91
590k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.3k
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
470
Exploring anti-patterns in Rails
aemeredith
3
400
Site-Speed That Sticks
csswizardry
13
1.2k
How to Ace a Technical Interview
jacobian
281
24k
Music & Morning Musume
bryan
47
7.2k
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
1.1k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
380
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
200
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.3k
Transcript
LCTG Bench 日本語LLMの制御性ベンチマークの紹介 AI Shift / サイバーエージェント 栗原健太郎
2024/07/02 Tue 1
栗原健太郎 • 略歴 ◦ 2023/03: 早稲田大学 河原研究室 修士課程卒業
◦ 2023/04: サイバーエージェント/AI Shift入社 • 職 ◦ AIエンジニア / リサーチサイエンティスト • 専門 ◦ 自然言語処理 / 言語モデル性能評価(JGLUE)など • 趣味 ◦ ドラム, キャンプ, その他流行り物 2 For Engineer/ Researcher/ Business: @kkurihara_cs For other: @kkurihara5732
これまでの日本語LLM評価の動き 3
JGLUE[Kurihara+ 22]を用いたLLM評価の動き • Nejumiリーダーボード • llm-evaluation-harness 日本語LLM評価の動き 4
日本語データセットの拡大 5 日本語LLM評価の動き
知識を問う問題 • JCommonsenseQA v2 [Kurihara+ 23] ◦ v1よりも難易度がより高い多肢選択式問題 ◦
言語モデルを用いることで、v1よりも難易度の高い 選択肢群を取得 • JMMLU [Yin+ 24] ◦ MMLU [Hendrycks+ 2021]を日本語に翻訳・修正 ◦ 56種類もの豊富なタスク ▪ 医療、法律、科学、CS etc V1 V2 Human 0.988 0.997 TohokuBERT base 0.782 0.571 TohokuBERT large 0.822 0.617 Waseda RoBERTa base 0.849 0.551 Waseda RoBERTa large 0.901 0.807 6 日本語LLM評価の動き
LLM-as-a-Judge • Japanese MT-Bench ◦ 8カテゴリ, 80対話 ◦ GPT-4による評価, 1-10の整数値
• Japanese ViqunaQA ◦ 10カテゴリ, 80問 ◦ GPT-4によるペアワイズ(一対)比較 • Rakuda Benchmark 現在は削除されている ◦ OpenQA 40 questions ◦ Pairwise comparison by GPT-3.5 7 日本語LLM評価の動き
人手による評価 • (Japanese) Chat bot Arena ◦ 人手による、ペアワイズ比較 ◦ コストは高いものの、人手評価という観点から信頼性が比較的高いとされている
◦ しかし、人の評価観点は意外と曖昧 8 日本語LLM評価の動き
ベンチマークを作るにあたってのモチベーション 企業所属の研究者が作るべきベンチマークとは、どんなベンチマーク? [ポイント] 1. 既存のデータセットを用いたLLM評価の多くは曖昧な点を持つ (特に生成の評価!) 2. 既存のペアワイズ比較の多くが、どのような基準で比較されているかも曖 昧
3. 事業会社におけるLLMの評価観点については、アカデミア以上に重要視し ている観点が存在するはず 9 日本語LLM評価の動き
LCTG Bench
LCTG Bench構築の背景 • LLMの事業応用においては、生成の品質はもちろん気にするが、 指示に対する制御性を気にする場面が多い ◦ 広告文掲載における文字数などの入稿規定 ◦ SEO観点からのキーワードの有無
◦ LLMをシステムに組み込む上でのフォーマットの制約 etc • LLMの制御性に焦点を当てた評価の枠組みは存在しない • LLMの制御性に焦点を当てたベンチマークとして、 LCTG Bench (LLM Controlled Text Generation Bench mark) を構築 LCTG Bench 11
LLMの制御性とは 以下の条件で与えられた文章を要約して出力してください。 [条件] 70文字以上、180文字以下で要約すること 「フリーレン」という単語を用いる こと キャラクターという単語を用いず に要約すること keyがsummary, valueが生成結果で構成されるjsonで出力
せよ [文章] 小学館「週刊少年サンデー」にて連載中の『葬送のフリーレン』 (原作・山田鐘人、作画・アベツカサ)の TVアニメ化が決定し、 ・・・ LLM {"summary": "週刊少年サンデーで連載 中の「葬送のフリーレン」が ・・・ 公開されたビジュアルは吉岡誠子氏と長 澤礼子氏が共同で作成。 "} 70-180文字以内 か? 「フリーレン」という単 語を含むか? 「キャラクター」という単語を 含んでいないか? 適切なフォーマットか? 要約 12 LCTG Bench 12
LCTG Benchの概要 1/2 • 構成 ◦ 3つの生成タスク ▪ 要約, 広告文生成,
Pros&Consの生成 ◦ 制御性に関する4つの評価観点 ▪ フォーマット, 文字数, キーワード, NGワード • タスク横断的に、同一の評価観点から評価することが可能 ◦ 「タスクによって同じLLMでも制御性能のパフォーマンスは異なるのでは?」という仮説に 答えることが可能 Task Dataset FORMAT C-COUNT KEYWORD P-WORD Summarization ABEMA TIMES 120 120 120 120 Ad Text Generation CAMERA 150 150 150 150 Pros & Cons Generation — 150 150 150 150 LCTG Bench 13
• LLMの生成の多様性を考慮して、 プロンプトのみを用意。 正解の生成結果は用意しない。 • 生成テキストが与えた条件を満たすか否 かを評価する。
◦ 文字数 ▪ 70 <= len(output ) <= 180 ◦ キーワード / NGワード ▪ “キーワード (NGワード)” (not) in output ◦ フォーマット ▪ タスクと関係のない文を付与していないか LCTG Benchの概要 2/2 LCTG Bench 14
Task①: 要約 • 高難易度かつビジネス的なニーズも高い生成タスク • 条件に従いつつ、ニュース記事を要約するタスク 「TVアニメ化」を入れて キャラクターという単語を用いずに要約すること キーワード 禁止ワード
文章の要約結果のみを出力し、要約結果の前後に説明 文などは付与しないでください。 フォーマット 文字数 LCTG Bench 15
• 要約タスクと比較して、取り扱う文字数の範囲が少なめ。それゆえに、キー ワード / NGワードが占める重みも大きくなりそう。 • 与えられた説明文から、広告文タイトルを生成するタスク 広告文のタイトルを 20~50文字で作成してください タイトルの中に「募集」という言葉は入れないでください
広告文のタイトルのみを出力し、広告文のタイトルの 前後に説明文などは付与しないでください。 Task②: 広告文生成 キーワード 禁止ワード フォーマット 文字数 LCTG Bench 16
• 特定のトピックについてのProsとConsを論述するタスク • 要約, 広告文生成タスクと異なり、1から文を生成するタスクとして導入 Task③: Pros&Cons生成 存在という単語が含まれるように回答してください 280-380文字で回答してください メリットデメリットに関する回答の前後に「〇〇するメ
リットとデメリットは以下です。」「以上が〇〇するメリッ トとデメリットです。」などの説明文を付与しないでくだ さい。 キーワード NGワード 文字数 フォーマット LCTG Bench 17
LCTG Benchの構築手順 1. Task instructionの作成 2. Base textsの収集 - 要約:
ABEMA TIMES, 広告文生成: CAMERA [Mita+ 23](Pros & Cons 生成はbaseとなるデータ ソースは無し) 1. Condition statementの収集 - テンプレートの収集にクラウドソーシングを活用 - テンプレートに値を代入 - 代入する単語や数値はタスク毎に異なる方法で 決定 LCTG Bench 18
LCTG Benchを用いたLLMの性能評価実験 (設定) 1/2 • GPT-4などの多言語モデルを含む日本語LLMの制御性能を比較 • 制御性の評価だけではなく、生成されたテキストの品質の評価もGPT-4を 用いて実施
→タスクの解答性能が著しく低いモデル発見のため(いわば足切り) LCTG Bench 19
LCTG Benchを用いたLLMの性能評価実験 (設定) 2/2 • より頑健な評価を実施するための操作 ◦ LLMの生成の不安定さを考慮 ▪ 同じプロンプトに対して、3回生成を実施しそれぞれのスコアを取得&平均化
◦ タスクに関連した生成テキストの評価を実施するために ▪ タスクと関係のない部分のテキストを除去するために、GPT-4を活用 ▪ つまり、フォーマットの条件を満たしていない生成テキストを、フォーマットの条件に準拠した 形に修正 (フォーマットの条件を満たしている場合は、そもそも修正されない) LLM 与えられた文章を投手を使用せず、要約いたしま す。 大谷翔平が「2番・DH」で先発出場。2点を追う7回に 今季初の3戦連続となる35号同点2ランを放った。… 与えられた文章を投手を使用せず、要約いたしま す。 大谷翔平が「2番・DH」で先発出場。2点を追う7回に 今季初の3戦連続となる35号同点2ランを放った。… 要約 前処理 NGワード NGワード 20 LCTG Bench 20
評価結果 • GPT-4は全般的に日本語LLMと比 較して高性能 • 文字数の制御はモデルによらず、難 易度が高い • 制御性能のパフォーマンスは、タス ク毎に異なっている
• 条件は満たすものの、タスクに対す る解答能力は低いモデルを観測す ることが可能 要約 広告文 Pros&Cons 21
評価結果 22 • GPT-4は全般的に日本語LLMと比 較して高性能 • 文字数の制御はモデルによらず、難 易度が高い •
制御性能のパフォーマンスは、タス ク毎に異なっている • 条件は満たすものの、タスクに対す る解答能力は低いモデルを観測す ることが可能 要約 広告文 Pros&Cons
評価結果 23 • GPT-4は全般的に日本語LLMと比 較して高性能 • 文字数の制御はモデルによらず、難 易度が高い •
制御性能のパフォーマンスは、タス ク毎に異なっている • 条件は満たすものの、タスクに対す る解答能力は低いモデルを観測す ることが可能 要約 広告文 Pros&Cons
評価結果 24 • GPT-4は全般的に日本語LLMと比 較して高性能 • 文字数の制御はモデルによらず、難 易度が高い •
制御性能のパフォーマンスは、タス ク毎に異なっている • 条件は満たすものの、タスクに対す る解答能力は低いモデルを観測す ることが可能 要約 広告文 Pros&Cons
LCTG Bench公開(2024/06/28) • Github ※ にて掲載 ◦ Huggingface Hubにも掲載予定
• ⚠評価スクリプトを回す際に課 金が発生します⚠ (APIを使用する都合) ◦ 評価機によって値段は異なる ▪ GPT-4-Turbo • 1モデルの評価(70-100$) ✝ ▪ GPT-4oの場合 • 4-Turboの半額 ✝ • 商用利用不可(CC BY-NC-SA 4.0) ◦ 詳細後述 25 ※ https://github.com/CyberAgentAILab/LCTG-Bench , ✝ 2024/07/02現在 LCTG Bench
Nejumiリーダーボード3にも提供 26 https://wandb.ai/wandb-japan/llm-leaderboard3/reports/Nejumi-LLM-3--Vmlldzo3OTg2NjM2?accessToken=wpnwc9whr96 pxm40dfe4k3xq513f9jc4yhj7q6pnvj4jtayoefbc77qhzbsrztgz LCTG Bench
LCTG Benchの利用について • (商用利用不可で出していますが、、)割と色々使ってOK • やっていいこと😊 ◦ 研究利用 ▪
論文 / ジャーナルの引用大歓迎 🎉 ◦ 本ベンチマークを使用した分析結果の共有 ▪ Qitta、Zennなどブログでの共有OK ▪ 会社のプレスとして、「LCTG Benchを使って〇〇しました!」みたいなのもOK • こちらも商用利用ではないという立て付け • やっちゃいけないこと❌ ◦ LCTG Benchのデータを用いた(商用利用の)モデル学習 ◦ LCTG Benchを用いた分析結果のレポートや記事そのものでお金を稼ぐこと ◦ その他常識の範囲で何卒、、、 27 LCTG Bench
まとめ • 事業応用におけるLLM評価のニーズを探る中で、LLMの制御性に注目 LCTG Benchを構築 • LCTG Benchは現在Githubにて公開中 ◦ 商用利用不可ですが、割と使えます!!!
• Nejumiリーダーボード3にも提供中 • (Pros&Cons生成など)内容を拡張した論文も、後日公開予定 LCTG Bench 28