Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Jasterデータセットを使ったLLMモデルの評価
Search
Keisuke Kamata
January 24, 2024
Technology
4
4k
Jasterデータセットを使ったLLMモデルの評価
Keisuke Kamata
January 24, 2024
Tweet
Share
More Decks by Keisuke Kamata
See All by Keisuke Kamata
LLMアプリケーションの品質担保に向けた プラクティスと LLMオブザーバビリティツール
olachinkei
1
230
生成AI開発を加速するNVIDIA NIMとNVIDIA NeMo
olachinkei
2
920
Weaveを用いた生成AIアプリケーションの評価_モニタリンングと実践例.pdf
olachinkei
2
470
20240917_wandb_Monthly_meetup_TIS
olachinkei
0
540
Nejumi Leaderboard release 20240702
olachinkei
1
340
LCTG Bench 日本語LLMの制御性ベンチマークの紹介
olachinkei
1
460
ICHIKARA-INSTRUCTION LLMのための日本語インストラクションの構築と 人間とGPT-4による評価で観察されたもの
olachinkei
1
1.3k
Japanese_MT-Bench_を使った_LLM_モデルの評価.pdf
olachinkei
1
1.3k
W&B webinar LLM leaderboard Neo
olachinkei
1
1.3k
Other Decks in Technology
See All in Technology
Product Management Conference -AI時代に進化するPdM-
kojima111
0
220
人と組織に偏重したEMへのアンチテーゼ──なぜ、EMに設計力が必要なのか/An antithesis to the overemphasis of people and organizations in EM
dskst
5
600
Evolution on AI Agent and Beyond - AGI への道のりと、シンギュラリティの3つのシナリオ
masayamoriofficial
0
160
Yahoo!ニュースにおけるソフトウェア開発
lycorptech_jp
PRO
0
330
LLMエージェント時代に適応した開発フロー
hiragram
1
410
LLM時代の検索とコンテキストエンジニアリング
shibuiwilliam
2
1.1k
Goss: Faiss向けの新しい本番環境対応 Goバインディング #coefl_go_jp
bengo4com
0
1.4k
生成AI利用プログラミング:誰でもプログラムが書けると 世の中どうなる?/opencampus202508
okana2ki
0
190
第4回 関東Kaggler会 [Training LLMs with Limited VRAM]
tascj
12
1.7k
退屈なことはDevinにやらせよう〜〜Devin APIを使ったVisual Regression Testの自動追加〜
kawamataryo
1
110
「守る」から「進化させる」セキュリティへ ~AWS re:Inforce 2025参加報告~ / AWS re:Inforce 2025 Participation Report
yuj1osm
1
110
自治体職員がガバクラの AWS 閉域ネットワークを理解するのにやって良かった個人検証環境
takeda_h
2
380
Featured
See All Featured
The Cost Of JavaScript in 2023
addyosmani
53
8.8k
How GitHub (no longer) Works
holman
315
140k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
Art, The Web, and Tiny UX
lynnandtonic
302
21k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
358
30k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
30
9.6k
Reflections from 52 weeks, 52 projects
jeffersonlam
351
21k
Code Reviewing Like a Champion
maltzj
525
40k
Optimising Largest Contentful Paint
csswizardry
37
3.4k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.8k
Transcript
Jasterデータセットを使った LLMモデルの評価 Namgi Han 東京大学 大学院 情報理工学係研究科 コンピューター学専攻 特任研究員 W&B
ウェビナー (2024/01/24)
2 目次 • はじめに • llm-jp-evalの紹介 • Jasterの紹介 • llm-jp-eval+Jasterでの評価とその紹介
• おわりに
3 はじめに • 海外のLLM評価ベンチマークのリスト(Chang et al., 2023)
4 はじめに • 海外のLLM評価ベンチマークのリスト(Chang et al., 2023)
5 はじめに • 日本語のLLM評価ベンチマーク • JGLUE (Kurihara et al., 2022)が一般的
• 他は? • 日本語の評価データセットが存在しないわけではない • たくさんの評価データセットが提案されている • 海外の評価データセットを翻訳しているものも多い • それらをLLMの評価に使えないか?
6 はじめに • この発表の内容 • llm-jp-evalの紹介 • llm-jp-evalで使っているJasterの紹介 • llm-jp-eval+Jasterでの評価とその紹介
• 「llm-jp-eval: 日本語大規模言語モデルの自動評価ツール」 @ANLP2024でも話します
7 llm-jp-evalの紹介 • https://github.com/llm-jp/llm-jp-eval
8 llm-jp-evalの紹介 • LLM-JP(LLM 勉強会)で開発 • https://llm-jp.nii.ac.jp • オープンかつ日本語に強い大規模モデルを構築し、LLMの原理解明に 取り組む。また、モデル・データ・ツール・技術資料等を議論の過
程・失敗を含めすべて公開する • この趣旨に賛同すればだれでも参加可能 • 最初は日本語LLMの学習・開発のサポートのために作られた • lossの外にも、LLMの学習精度を測れるツールが欲しかった • 何らかの評価スコアが欲しい:どうやって?
9 llm-jp-evalの紹介 • どうやって評価する? • NLPのタスクは言語モデルを前提にしてない場合がある • 例えば分類タスクは決まったラベルの中の一つを予測する問題だが、 言語モデルは与えられたシーケンスの次に現れるべきトークンを予測 •
評価ツールによっては、言語モデルが次のトークンを予測する際、 ラベル候補のトークンの予測確率を調べ、生成結果でなくその確率で評価 • llm-jp-evalでは言語モデルの生成結果を直接使う評価を行う • 海外の評価ベンチマークのユースケースを参照 • 全ての評価タスクを一般的な方法で扱いたいというモチベーション • 分類タスクと他の生成タスクの評価手法を別々に実装したくない • 生成結果をExact Match、文字列ベースのF1などで自動評価
10 llm-jp-evalの紹介 • どうやって評価する?
11 llm-jp-evalの紹介
12 Jasterの紹介 • Jasterとは? • J * (ASTERisk) • LLM-JP内部でllm-jp-evalの対応データセットを、
「Jで始まる名前のデータセット多いから、J*。」 とまとめて呼んでいたことから由来 • Jasterの二つの意味 • 1)llm-jp-evalで対応している評価データセット全て • 2)2023.10.20のJaster:LLM-JPが発表している一部のモデルは当時 のJasterを使ってInstruction Tuningしたため
13 Jasterの紹介 • モチベ:日本語LLMの評価データセットを集める • まずNLPのタスクから始めることに • (自分含め)NLPのタスクに馴染みある人が多い • 既存研究がある:評価データが公開されて、(比較的)自動評価がやりやすい
• 現在対応している評価データセットのカテゴリー • MC (Multi-Choice QA)、NLI (Natural Language Inference)、QA (Question Answering)、RC (Reading Comprehension)、STS (Semantic Textual Similarity)、EL (Entity Linking)、FA (Fundamental Analysis)、MR (Mathematical Reasoning)
14 Jasterの紹介
15 Jasterの紹介 • NLI(自然言語推論)での例え
16 Jasterの紹介 • MC (Multi-Choice QA):JCommonsenseQA 質問と回答の選択肢を入力として受け取り、選択肢から回答を 選択してください。なお、回答は選択肢の番号(例:0)です るものとします。 回答となる数値をint型で返し、他には何も
含めないことを厳守してください。 質問:ワシントンが首都の国は? 選択肢:0.州,1.北海道,2.アメリカ,3.中部地方,4.ロシア
17 Jasterの紹介 • NLI (Natural Language Inference):Jamp、JaNLI、JNLI、JSeM、JSICK 前提と仮説の関係をentailment、contradiction、neutralの中から回答してください。そ れ以外には何も含めないことを厳守してください。 制約:
-前提から仮説が、論理的知識や常識的知識を用いて導出可能である場合はentailment と出力 - 前提と仮説が両立しえない場合はcontradictionと出力 - そのいずれでもない場合はneutralと出力 前提:テーブルにワイングラスがいくつも並んでいます。 仮説:テーブルには何も置かれていません。
18 Jasterの紹介 • QA (Question Answering):JEMHopQA、NIILC 質問を入力とし、回答を出力してください。回答の他には何も 含めないことを厳守してください。 質問:中野区と板橋区はどちらの人口が多いですか?
19 Jasterの紹介 • RC (Reading Comprehension):JSQuAD 質問に対する回答を文章から一言で抽出してください。回答は名詞 で答えてください。 それ以外には何も含めないことを厳守してくだ さい。
文章:シアトル [SEP] 2000年現在の国勢調査で、この都市は人口 563,374人である。この都市の人種的な構成は白人73.40%、アフリ カン・アメリカン8.44%、インディアン1.10%、アジア13.71%、太 平洋諸島系0.50%、その他の人種6.84%および混血4.70%である。 質問:シアトルの人口は?
20 Jasterの紹介 • STS (Semantic Textual Similarity) :JSTS 日本語の文ペアの意味がどのくらい近いかを判定し、類似度を 0〜5までの間の値で付与してください。0に近いほど文ペアの
意味が異なり、5に近いほど文ペアの意味が似ていることを表 しています。整数値のみを返し、それ以外には何も含めないこ とを厳守してください。 文1:波に向かってサーフィンをしている人が2人います。 文2:二人のサーファーが波に乗っています。
21 Jasterの紹介 • EL (Entity Linking) :chABSA 与えられた文章から固有表現で書かれたターゲットの名前を抽出し、それに対す る極性をpositive、neutral、negativeの中から選択して下さい。固有表現で書か れたターゲットの名前と、それに対する極性(positive、neutral、negativeのい
ずれか)のペアをスペース( )で区切って出力し、それ以外には何も含めない ことを厳守してください。答えが複数の場合、改行で繋げてください。ただし、 ターゲットは固有表現である市場、市況、会社/法人、グループ、会社内の部門、 事業部、事業領域、製品、サービスの名称などを指すこととします。 文章:その結果、売上高は132億7千2百万円(前年度比19.8%減)となりまし た
22 Jasterの紹介 • FA (Fundamental Analysis):Wikipedia Annotated Corpus • Reading
prediction, Named entity recognition, Dependency parsing, Predicate-argument structure analysis, Coreference resolution 与えられたテキストを全てひらがなに変換してください。 戦死とは、軍人が戦争、戦闘、武力紛争により死亡すること。その定義 や範囲は複数存在するが、通常は戦争による民間人の死亡は含まれない。
23 Jasterの紹介 • MR (Mathematical Reasoning):MAWPS 与えられた計算問題に対する答えを整数または小数で出力して ください。数値のみを出力し、それ以外には何も含めないこと を厳守してください。 問題:佐藤は16個の青い風船、鈴木は11個の青い風船、高橋は
99個の青い風船を持っています。彼らは全部でいくつの青い風 船を持っているのでしょう?
24 Jasterの紹介 • 評価データセットの選定条件 • 公開されている • ライセンスが商用利用まで許容している(CC-BY-SAなど) • 自動評価が出来る
• 海外のベンチマークと参考し、 出来るだけ多くのタスクを網羅するように選ぶ • 問題の数が一定数以上 • llm-jp-evalのバージョンアップにつき、 Jasterもまた増えている:chABSA, Wikipedia Annotated Corpus, MAWPS, ...
25 llm-jp-eval+Jasterでの評価とその紹介 • 評価のやり方 • 出来るだけ自動化 • ログはW&Bで同期可能 • デフォルト設定
• 4-shots • alpaca式プロンプト • Greedy生成など、 ハイパラはほぼデフォ
26 llm-jp-eval+Jasterでの評価とその紹介
27 llm-jp-eval+Jasterでの評価とその紹介 • llm-jp-eval+Jasterの限界:評価対象が足りなく、偏っている • Chang et al.(2023):社会バイアスや毒性表現などに関わる倫理・ 信頼性,医療や応用タスクに関わるドメイン特化能力,理工学・社会 科学のように実世界を理解する能力などを評価する必要がある
• コード生成、翻訳、対話などの生成タスクへの対応も足りない: MT-Bench-JP、Rakuda、Vicuna、… • 海外の評価データの取り込みなどを目指したい:MMLUなど
28 おわりに • この発表の振り返り • 日本語LLMを評価するツール、llm-jp-evalの紹介 • 日本語LLMを評価 • 日本語LLMを何で評価するのか?:公開された評価データセット
• 日本語LLMをどうやって評価するのか?:LLMの生成結果を自動評価 • llm-jp-evalで対応する評価データセット、Jasterの紹介 • 8つのカテゴリー、12個のデータセット • 利用が自由なライセンスを持つ、公開済みの評価データセットに対応 • llm-jp-eval+Jasterでの評価とその紹介 • 自動で簡単にできます • まだデータセットの数が全然足りないので、頑張って増やせます
ご清聴ありがとうございました