LCTG Bench 日本語LLMの制御性ベンチマークの紹介

LCTG Bench  日本語LLMの制御性ベンチマークの紹介  AI Shift / サイバーエージェント   栗原健太郎  
2024/07/02 Tue   1

栗原健太郎   • 略歴  ◦ 2023/03: 早稲田大学河原研究室修士課程卒業  
◦ 2023/04: サイバーエージェント/AI Shift入社   • 職  ◦ AIエンジニア / リサーチサイエンティスト   • 専門  ◦ 自然言語処理 / 言語モデル性能評価（JGLUE）など   • 趣味  ◦ ドラム, キャンプ, その他流行り物       2 For Engineer/ Researcher/ Business: @kkurihara_cs   For other: @kkurihara5732 

これまでの日本語LLM評価の動き  3

JGLUE[Kurihara+ 22]を用いたLLM評価の動き  • Nejumiリーダーボード  • llm-evaluation-harness  日本語LLM評価の動き  4

日本語データセットの拡大  5 日本語LLM評価の動き 

知識を問う問題  • JCommonsenseQA v2 [Kurihara+ 23]  ◦ v1よりも難易度がより高い多肢選択式問題   ◦
言語モデルを用いることで、v1よりも難易度の高い選択肢群を取得    • JMMLU [Yin+ 24]  ◦ MMLU [Hendrycks+ 2021]を日本語に翻訳・修正   ◦ 56種類もの豊富なタスク  ▪ 医療、法律、科学、CS etc   V1 V2 Human 0.988 0.997 TohokuBERT base 0.782 0.571 TohokuBERT large 0.822 0.617 Waseda RoBERTa base 0.849 0.551 Waseda RoBERTa large 0.901 0.807 6 日本語LLM評価の動き 

LLM-as-a-Judge  • Japanese MT-Bench  ◦ 8カテゴリ, 80対話  ◦ GPT-4による評価, 1-10の整数値
    • Japanese ViqunaQA  ◦ 10カテゴリ, 80問  ◦ GPT-4によるペアワイズ（一対）比較     • Rakuda Benchmark 現在は削除されている  ◦ OpenQA 40 questions  ◦ Pairwise comparison by GPT-3.5    7 日本語LLM評価の動き 

人手による評価  • (Japanese) Chat bot Arena  ◦ 人手による、ペアワイズ比較  ◦ コストは高いものの、人手評価という観点から信頼性が比較的高いとされている
  ◦ しかし、人の評価観点は意外と曖昧             8 日本語LLM評価の動き 

ベンチマークを作るにあたってのモチベーション  企業所属の研究者が作るべきベンチマークとは、どんなベンチマーク？    [ポイント]  1. 既存のデータセットを用いたLLM評価の多くは曖昧な点を持つ  （特に生成の評価！）  2. 既存のペアワイズ比較の多くが、どのような基準で比較されているかも曖昧 
3. 事業会社におけるLLMの評価観点については、アカデミア以上に重要視している観点が存在するはず      9 日本語LLM評価の動き 

LCTG Bench 

LCTG Bench構築の背景  • LLMの事業応用においては、生成の品質はもちろん気にするが、  指示に対する制御性を気にする場面が多い  ◦ 広告文掲載における文字数などの入稿規定   ◦ SEO観点からのキーワードの有無
  ◦ LLMをシステムに組み込む上でのフォーマットの制約 etc     • LLMの制御性に焦点を当てた評価の枠組みは存在しない    • LLMの制御性に焦点を当てたベンチマークとして、  LCTG Bench (LLM Controlled Text Generation Bench mark) を構築  LCTG Bench  11

LLMの制御性とは  以下の条件で与えられた文章を要約して出力してください。 [条件] 70文字以上、180文字以下で要約すること「フリーレン」という単語を用いることキャラクターという単語を用いずに要約すること keyがsummary, valueが生成結果で構成されるjsonで出力
せよ [文章] 小学館「週刊少年サンデー」にて連載中の『葬送のフリーレン』（原作・山田鐘人、作画・アベツカサ）の TVアニメ化が決定し、・・・ LLM {"summary": "週刊少年サンデーで連載中の「葬送のフリーレン」が・・・公開されたビジュアルは吉岡誠子氏と長澤礼子氏が共同で作成。 "} 70-180文字以内か？「フリーレン」という単語を含むか？「キャラクター」という単語を含んでいないか？適切なフォーマットか？要約 12 LCTG Bench  12

LCTG Benchの概要 1/2  • 構成  ◦ 3つの生成タスク  ▪ 要約, 広告文生成,
Pros&Consの生成   ◦ 制御性に関する4つの評価観点   ▪ フォーマット, 文字数, キーワード, NGワード   • タスク横断的に、同一の評価観点から評価することが可能  ◦ 「タスクによって同じLLMでも制御性能のパフォーマンスは異なるのでは？」という仮説に答えることが可能  Task Dataset FORMAT C-COUNT KEYWORD P-WORD Summarization ABEMA TIMES 120 120 120 120 Ad Text Generation CAMERA 150 150 150 150 Pros & Cons Generation — 150 150 150 150 LCTG Bench  13

• LLMの生成の多様性を考慮して、  プロンプトのみを用意。   正解の生成結果は用意しない。     • 生成テキストが与えた条件を満たすか否かを評価する。 
◦ 文字数  ▪ 70 <= len(output ) <= 180  ◦ キーワード / NGワード  ▪ “キーワード (NGワード)” (not) in output   ◦ フォーマット  ▪ タスクと関係のない文を付与していないか   LCTG Benchの概要 2/2  LCTG Bench  14

Task①: 要約  • 高難易度かつビジネス的なニーズも高い生成タスク  • 条件に従いつつ、ニュース記事を要約するタスク  「TVアニメ化」を入れてキャラクターという単語を用いずに要約することキーワード禁止ワード
文章の要約結果のみを出力し、要約結果の前後に説明文などは付与しないでください。フォーマット文字数 LCTG Bench  15

• 要約タスクと比較して、取り扱う文字数の範囲が少なめ。それゆえに、キーワード / NGワードが占める重みも大きくなりそう。  • 与えられた説明文から、広告文タイトルを生成するタスク  広告文のタイトルを 20～50文字で作成してくださいタイトルの中に「募集」という言葉は入れないでください
広告文のタイトルのみを出力し、広告文のタイトルの前後に説明文などは付与しないでください。 Task②: 広告文生成  キーワード禁止ワードフォーマット文字数 LCTG Bench  16

• 特定のトピックについてのProsとConsを論述するタスク  • 要約, 広告文生成タスクと異なり、1から文を生成するタスクとして導入  Task③: Pros&Cons生成  存在という単語が含まれるように回答してください 280-380文字で回答してくださいメリットデメリットに関する回答の前後に「〇〇するメ
リットとデメリットは以下です。」「以上が〇〇するメリットとデメリットです。」などの説明文を付与しないでください。キーワード NGワード文字数フォーマット LCTG Bench  17

LCTG Benchの構築手順  1. Task instructionの作成  2. Base textsの収集  - 要約:
ABEMA TIMES, 広告文生成: CAMERA [Mita+ 23]（Pros & Cons 生成はbaseとなるデータソースは無し）  1. Condition statementの収集  - テンプレートの収集にクラウドソーシングを活用   - テンプレートに値を代入   - 代入する単語や数値はタスク毎に異なる方法で決定  LCTG Bench  18

LCTG Benchを用いたLLMの性能評価実験 (設定) 1/2  • GPT-4などの多言語モデルを含む日本語LLMの制御性能を比較    • 制御性の評価だけではなく、生成されたテキストの品質の評価もGPT-4を用いて実施 
→タスクの解答性能が著しく低いモデル発見のため（いわば足切り）  LCTG Bench  19

LCTG Benchを用いたLLMの性能評価実験 (設定) 2/2  • より頑健な評価を実施するための操作  ◦ LLMの生成の不安定さを考慮  ▪ 同じプロンプトに対して、３回生成を実施しそれぞれのスコアを取得&平均化
  ◦ タスクに関連した生成テキストの評価を実施するために   ▪ タスクと関係のない部分のテキストを除去するために、GPT-4を活用   ▪ つまり、フォーマットの条件を満たしていない生成テキストを、フォーマットの条件に準拠した形に修正  （フォーマットの条件を満たしている場合は、そもそも修正されない）       LLM 与えられた文章を投手を使用せず、要約いたします。大谷翔平が「2番・DH」で先発出場。2点を追う7回に今季初の3戦連続となる35号同点2ランを放った。… 与えられた文章を投手を使用せず、要約いたします。大谷翔平が「2番・DH」で先発出場。2点を追う7回に今季初の3戦連続となる35号同点2ランを放った。… 要約前処理 NGワード NGワード 20 LCTG Bench  20

評価結果  • GPT-4は全般的に日本語LLMと比較して高性能  • 文字数の制御はモデルによらず、難易度が高い  • 制御性能のパフォーマンスは、タスク毎に異なっている 
• 条件は満たすものの、タスクに対する解答能力は低いモデルを観測することが可能  要約広告文 Pros&Cons 21

評価結果    22 • GPT-4は全般的に日本語LLMと比較して高性能  • 文字数の制御はモデルによらず、難易度が高い  •
制御性能のパフォーマンスは、タスク毎に異なっている  • 条件は満たすものの、タスクに対する解答能力は低いモデルを観測することが可能  要約広告文 Pros&Cons

LCTG Bench公開（2024/06/28）  • Github ※ にて掲載  ◦ Huggingface Hubにも掲載予定   
• ⚠評価スクリプトを回す際に課金が発生します⚠ (APIを使用する都合)   ◦ 評価機によって値段は異なる  ▪ GPT-4-Turbo  • 1モデルの評価(70-100$) ✝  ▪ GPT-4oの場合  • 4-Turboの半額 ✝    • 商用利用不可（CC BY-NC-SA 4.0）  ◦ 詳細後述  25 ※ https://github.com/CyberAgentAILab/LCTG-Bench ,  ✝ 2024/07/02現在   LCTG Bench 

Nejumiリーダーボード3にも提供  26 https://wandb.ai/wandb-japan/llm-leaderboard3/reports/Nejumi-LLM-3--Vmlldzo3OTg2NjM2?accessToken=wpnwc9whr96 pxm40dfe4k3xq513f9jc4yhj7q6pnvj4jtayoefbc77qhzbsrztgz   LCTG Bench 

LCTG Benchの利用について  • （商用利用不可で出していますが、、）割と色々使ってOK   • やっていいこと😊  ◦ 研究利用  ▪
論文 / ジャーナルの引用大歓迎 🎉  ◦ 本ベンチマークを使用した分析結果の共有   ▪ Qitta、Zennなどブログでの共有OK   ▪ 会社のプレスとして、「LCTG Benchを使って〇〇しました！」みたいなのもOK   • こちらも商用利用ではないという立て付け     • やっちゃいけないこと❌  ◦ LCTG Benchのデータを用いた（商用利用の）モデル学習   ◦ LCTG Benchを用いた分析結果のレポートや記事そのものでお金を稼ぐこと   ◦ その他常識の範囲で何卒、、、  27 LCTG Bench 

まとめ  • 事業応用におけるLLM評価のニーズを探る中で、LLMの制御性に注目  LCTG Benchを構築  • LCTG Benchは現在Githubにて公開中  ◦ 商用利用不可ですが、割と使えます！！！
  • Nejumiリーダーボード3にも提供中  • （Pros&Cons生成など）内容を拡張した論文も、後日公開予定  LCTG Bench  28

LCTG Bench 日本語LLMの制御性ベンチマークの紹介

LCTG Bench 日本語LLMの制御性ベンチマークの紹介

Keisuke Kamata

More Decks by Keisuke Kamata

Other Decks in Technology

Featured

Transcript