Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LCTG Bench 日本語LLMの制御性ベンチマークの紹介

LCTG Bench 日本語LLMの制御性ベンチマークの紹介

Keisuke Kamata

July 23, 2024
Tweet

More Decks by Keisuke Kamata

Other Decks in Technology

Transcript

  1. 栗原健太郎 
 • 略歴
 ◦ 2023/03: 早稲田大学 河原研究室 修士課程卒業 


    ◦ 2023/04: サイバーエージェント/AI Shift入社 
 • 職
 ◦ AIエンジニア / リサーチサイエンティスト 
 • 専門
 ◦ 自然言語処理 / 言語モデル性能評価(JGLUE)など 
 • 趣味
 ◦ ドラム, キャンプ, その他流行り物 
 
 
 2 For Engineer/ Researcher/ Business: @kkurihara_cs 
 For other: @kkurihara5732

  2. 知識を問う問題
 • JCommonsenseQA v2 [Kurihara+ 23]
 ◦ v1よりも難易度がより高い多肢選択式問題 
 ◦

    言語モデルを用いることで、v1よりも難易度の高い 選択肢群を取得
 
 • JMMLU [Yin+ 24]
 ◦ MMLU [Hendrycks+ 2021]を日本語に翻訳・修正 
 ◦ 56種類もの豊富なタスク
 ▪ 医療、法律、科学、CS etc 
 V1 V2 Human 0.988 0.997 TohokuBERT base 0.782 0.571 TohokuBERT large 0.822 0.617 Waseda RoBERTa base 0.849 0.551 Waseda RoBERTa large 0.901 0.807 6 日本語LLM評価の動き

  3. LLM-as-a-Judge
 • Japanese MT-Bench
 ◦ 8カテゴリ, 80対話
 ◦ GPT-4による評価, 1-10の整数値

    
 
 • Japanese ViqunaQA
 ◦ 10カテゴリ, 80問
 ◦ GPT-4によるペアワイズ(一対)比較 
 
 • Rakuda Benchmark 現在は削除されている
 ◦ OpenQA 40 questions
 ◦ Pairwise comparison by GPT-3.5
 
 7 日本語LLM評価の動き

  4. LCTG Bench構築の背景
 • LLMの事業応用においては、生成の品質はもちろん気にするが、
 指示に対する制御性を気にする場面が多い
 ◦ 広告文掲載における文字数などの入稿規定 
 ◦ SEO観点からのキーワードの有無

    
 ◦ LLMをシステムに組み込む上でのフォーマットの制約 etc 
 
 • LLMの制御性に焦点を当てた評価の枠組みは存在しない
 
 • LLMの制御性に焦点を当てたベンチマークとして、
 LCTG Bench (LLM Controlled Text Generation Bench mark) を構築
 LCTG Bench
 11
  5. LLMの制御性とは
 以下の条件で与えられた文章を要約して出力してください。 [条件] 70文字以上、180文字以下で要約すること 「フリーレン」という単語を用いる こと キャラクターという単語を用いず に要約すること keyがsummary, valueが生成結果で構成されるjsonで出力

    せよ [文章] 小学館「週刊少年サンデー」にて連載中の『葬送のフリーレン』 (原作・山田鐘人、作画・アベツカサ)の TVアニメ化が決定し、 ・・・ LLM {"summary": "週刊少年サンデーで連載 中の「葬送のフリーレン」が ・・・ 公開されたビジュアルは吉岡誠子氏と長 澤礼子氏が共同で作成。 "} 70-180文字以内 か? 「フリーレン」という単 語を含むか? 「キャラクター」という単語を 含んでいないか? 適切なフォーマットか? 要約 12 LCTG Bench
 12
  6. LCTG Benchの概要 1/2
 • 構成
 ◦ 3つの生成タスク
 ▪ 要約, 広告文生成,

    Pros&Consの生成 
 ◦ 制御性に関する4つの評価観点 
 ▪ フォーマット, 文字数, キーワード, NGワード 
 • タスク横断的に、同一の評価観点から評価することが可能
 ◦ 「タスクによって同じLLMでも制御性能のパフォーマンスは異なるのでは?」という仮説に 答えることが可能
 Task Dataset FORMAT C-COUNT KEYWORD P-WORD Summarization ABEMA TIMES 120 120 120 120 Ad Text Generation CAMERA 150 150 150 150 Pros & Cons Generation — 150 150 150 150 LCTG Bench
 13
  7. • LLMの生成の多様性を考慮して、
 プロンプトのみを用意。 
 正解の生成結果は用意しない。 
 
 • 生成テキストが与えた条件を満たすか否 かを評価する。


    ◦ 文字数
 ▪ 70 <= len(output ) <= 180
 ◦ キーワード / NGワード
 ▪ “キーワード (NGワード)” (not) in output 
 ◦ フォーマット
 ▪ タスクと関係のない文を付与していないか 
 LCTG Benchの概要 2/2
 LCTG Bench
 14
  8. LCTG Benchの構築手順
 1. Task instructionの作成
 2. Base textsの収集
 - 要約:

    ABEMA TIMES, 広告文生成: CAMERA [Mita+ 23](Pros & Cons 生成はbaseとなるデータ ソースは無し)
 1. Condition statementの収集
 - テンプレートの収集にクラウドソーシングを活用 
 - テンプレートに値を代入 
 - 代入する単語や数値はタスク毎に異なる方法で 決定
 LCTG Bench
 18
  9. LCTG Benchを用いたLLMの性能評価実験 (設定) 2/2
 • より頑健な評価を実施するための操作
 ◦ LLMの生成の不安定さを考慮
 ▪ 同じプロンプトに対して、3回生成を実施しそれぞれのスコアを取得&平均化

    
 ◦ タスクに関連した生成テキストの評価を実施するために 
 ▪ タスクと関係のない部分のテキストを除去するために、GPT-4を活用 
 ▪ つまり、フォーマットの条件を満たしていない生成テキストを、フォーマットの条件に準拠した 形に修正
 (フォーマットの条件を満たしている場合は、そもそも修正されない) 
 
 
 LLM 与えられた文章を投手を使用せず、要約いたしま す。 大谷翔平が「2番・DH」で先発出場。2点を追う7回に 今季初の3戦連続となる35号同点2ランを放った。… 与えられた文章を投手を使用せず、要約いたしま す。 大谷翔平が「2番・DH」で先発出場。2点を追う7回に 今季初の3戦連続となる35号同点2ランを放った。… 要約 前処理 NGワード NGワード 20 LCTG Bench
 20
  10. 評価結果
 
 22 • GPT-4は全般的に日本語LLMと比 較して高性能
 • 文字数の制御はモデルによらず、難 易度が高い
 •

    制御性能のパフォーマンスは、タス ク毎に異なっている
 • 条件は満たすものの、タスクに対す る解答能力は低いモデルを観測す ることが可能
 要約 広告文 Pros&Cons
  11. 評価結果
 
 23 • GPT-4は全般的に日本語LLMと比 較して高性能
 • 文字数の制御はモデルによらず、難 易度が高い
 •

    制御性能のパフォーマンスは、タス ク毎に異なっている
 • 条件は満たすものの、タスクに対す る解答能力は低いモデルを観測す ることが可能
 要約 広告文 Pros&Cons
  12. 評価結果
 
 24 • GPT-4は全般的に日本語LLMと比 較して高性能
 • 文字数の制御はモデルによらず、難 易度が高い
 •

    制御性能のパフォーマンスは、タス ク毎に異なっている
 • 条件は満たすものの、タスクに対す る解答能力は低いモデルを観測す ることが可能
 要約 広告文 Pros&Cons
  13. LCTG Bench公開(2024/06/28)
 • Github ※ にて掲載
 ◦ Huggingface Hubにも掲載予定
 


    • ⚠評価スクリプトを回す際に課 金が発生します⚠ (APIを使用する都合) 
 ◦ 評価機によって値段は異なる
 ▪ GPT-4-Turbo
 • 1モデルの評価(70-100$) ✝
 ▪ GPT-4oの場合
 • 4-Turboの半額 ✝
 
 • 商用利用不可(CC BY-NC-SA 4.0)
 ◦ 詳細後述
 25 ※ https://github.com/CyberAgentAILab/LCTG-Bench ,
 ✝ 2024/07/02現在 
 LCTG Bench

  14. LCTG Benchの利用について
 • (商用利用不可で出していますが、、)割と色々使ってOK 
 • やっていいこと😊
 ◦ 研究利用
 ▪

    論文 / ジャーナルの引用大歓迎 🎉
 ◦ 本ベンチマークを使用した分析結果の共有 
 ▪ Qitta、Zennなどブログでの共有OK 
 ▪ 会社のプレスとして、「LCTG Benchを使って〇〇しました!」みたいなのもOK 
 • こちらも商用利用ではないという立て付け 
 
 • やっちゃいけないこと❌
 ◦ LCTG Benchのデータを用いた(商用利用の)モデル学習 
 ◦ LCTG Benchを用いた分析結果のレポートや記事そのものでお金を稼ぐこと 
 ◦ その他常識の範囲で何卒、、、
 27 LCTG Bench

  15. まとめ
 • 事業応用におけるLLM評価のニーズを探る中で、LLMの制御性に注目
 LCTG Benchを構築
 • LCTG Benchは現在Githubにて公開中
 ◦ 商用利用不可ですが、割と使えます!!!

    
 • Nejumiリーダーボード3にも提供中
 • (Pros&Cons生成など)内容を拡張した論文も、後日公開予定
 LCTG Bench
 28